Messaggiamo.Com » Seo » As aranhas do Search Engine perdido, sem orientação - post deste signo!

As aranhas do Search Engine perdido, sem orientação - post deste signo!

O arquivo robots.txt é um padrão de exclusão exigido por todos os crawlers / robôs para dizer-lhes quais arquivos e diretórios que quiser ficar de fora em seu site. Nem todos os crawlers / bots seguem a exclusão padrão e continuará rastreando o seu site de qualquer maneira. Eu gosto de chamá-los de "Bad Bots" ou maliciosos. Nós bloqueá-los, por exclusão, IP, que é outro entirely.This história é uma visão muito simples de noções básicas de robots.txt webmasters. Para uma lição completa e exaustiva, http://www.robotstxt.org/To visita de ver o formato adequado para um arquivo robots.txt algo normal olhar diretamente abaixo. Esse arquivo deve estar na raiz do domínio, porque é aí que os indexadores de esperar que fosse, não em algum directory.Below secundário é o formato adequado para um arquivo robots.txt -----> User-agent: * Disallow: / cgi-bin / Disallow: / images / Disallow: / group / User-agent: msnbot Crawl-delay: 10User-agent: Teoma Crawl-delay: 10User-agent: Slurp Crawl-delay: 10User-agent: aipbot Disallow: / User-agent: BecomeBot Disallow: / User-agent: Disallow PsBot: / --- -----> End of fileThis robots.txt pequeno ficheiro de texto é guardado como um documento de texto simples e sempre com o nome "robots.txt" na raiz da sua opinião domain.A rápida das informações constantes do arquivo robots.txt acima segue. O "Manual de agente: Bots MSNbot "é de MSN, Yahoo Slurp é de e Teoma é de AskJeeves. Os outros são constantes" Bad ", que rastreiam muito rápido e em benefício de ninguém, mas os seus próprios, por isso pedimos-lhes para ficar fora por completo. O asterisco * é um wild card, que significa "Todos os crawlers" / aranhas / robôs deve ficar de fora desse grupo de arquivos ou diretórios listed.The bots, dada a instrução "Disallow: /" significa que eles devem ficar de fora por completo e aqueles com "Crawl-delay: 10" são aqueles que arrastou o nosso site muito rapidamente e causou a atolar e uso excessivo dos recursos do servidor. Google indexa mais lentamente do que os outros e não exige que a instrução, por isso não é especificamente listados no arquivo robots.txt acima. Crawl-delay instrução só é necessária em sites muito grandes com centenas ou milhares de páginas. O curinga asterisco * aplica a todos os crawlers, bots e aranhas, Googlebot.Those incluindo nós, desde que "Crawl-delay: 10 a instrução" para se pedir quantos 7 páginas a cada segundo e por isso pediu-lhes para abrandar. O número que você vê é o segundo e você pode alterá-lo para se adequar a capacidade do servidor, com base na sua taxa de rastreamento. Dez segundos entre solicitações de página é muito mais calmo e os impede de pedir mais páginas que o servidor pode até prato. (Você pode descobrir o quão rápido e robôs As aranhas estão rastejando por olhar para logs do servidor-primas - que mostram páginas solicitadas por vezes precisa para dentro de um centésimo de segundo - Disponível a partir do seu host ou peça ao seu web ou pessoa de TI. Os seus logs do servidor pode ser encontrado no diretório raiz se você tiver acesso ao servidor, normalmente você pode baixar arquivos compactados log do servidor por direito civil dia fora de seu servidor. Você vai precisar de um utilitário que pode se expandir para abrir arquivos compactados e ler esses texto simples servidor de arquivos de log-prima.) Para ver o conteúdo de qualquer arquivo robots.txt robots.txt apenas depois de qualquer tipo de nome de domínio. Se eles não tiverem esse arquivo, você vai vê-lo exibido como um arquivo de texto em seu site navegador. Clique no link abaixo para ver esse arquivo para Amazon.comhttp: / / www.Amazon.com / robots.txtYou pode ver o conteúdo de qualquer site que o arquivo robots.txt robots.txt dum modo mostrado acima é o que uso atualmente em Publish101 Web Content Distribuidor, acaba de lançar, em maio de 2005. Nós fizemos um estudo de caso e publicou uma extensa série de artigos sobre o comportamento de lagartas e atrasos indexação conhecido como o Google Sandbox. Que o Google Sandbox Estudo de caso é altamente instrutivo em muitos níveis para webmasters em toda parte sobre a importância deste frequentemente ignorados coisa file.One pouco texto nós não esperamos para colher a partir da pesquisa envolveu a indexação atrasos (conhecido como o Google Sandbox) foi a importância dos arquivos robots.txt rápida e eficiente para o rastreamento pelas aranhas dos motores de busca grandes e pesadas o número de rastreamentos de robôs que não fará nenhum terreno bom para o proprietário do site, ainda rastrear sites mais amplamente e fortemente, forçando os servidores para o ponto de ruptura com os pedidos de páginas que vem tão rápido quanto 7 páginas por second.We descoberto em nosso lançamento do novo site que o Google eo Yahoo vão rastrear o site ou não usar um arquivo robots.txt, mas parece MSN para exigi-lo antes que eles vão começar o rastreamento de todo. Todo o motor de busca robôs parecem solicitar o arquivo em um regularmente para verificar se ele não tem changed.Then quando você mudar isso, eles vão parar de rastejar por períodos breves e repetidas vezes pedir para que o arquivo robots.txt, durante esse tempo, sem qualquer rastreamento páginas adicionais. A maioria (Talvez eles tinham uma lista de páginas a visita, que incluiu o diretório ou arquivos que você instruiu-os a ficar de fora e deve agora ajustar sua programação de rastreamento para eliminar estes ficheiros da sua lista.) webmasters instruir os robôs para ficar de fora da "imagem" e os diretórios "cgi-bin directory", bem como quaisquer diretórios que contêm arquivos ou de propriedade privada destinada apenas para os usuários de uma intranet ou senha secções protegidas do seu site. Obviamente, você deve direcionar os bots para ficar fora de todas as áreas privadas que você não quer indexados pela importância engines.The busca de robots.txt raramente é discutido por média webmasters e eu ainda tinha alguns dos meus negócios do cliente "webmasters me perguntar o que é e como implementá-lo quando lhes digo o quanto é importante tanto para a segurança do site e eficiente indexação dos motores de busca. Este conhecimento deve ser padrão pelos webmasters em empresas importantes, mas isto ilustra como pouca atenção é dada ao uso de spiders do mecanismo de busca robots.txt.The realmente deseja ver as suas orientações e este texto tiny arquivo é a melhor maneira de fornecer crawlers e bots uma placa de sinalização clara para avisar invasores e proteger a propriedade privada - e calorosamente convidados, como os três grandes motores de busca ao mesmo tempo pedindo-lhes muito bem ficar de fora privado areas.Copyright ÃƒÆ'Ã ¢ â, ¬ Å ¡Ãƒâ € šÃ, Â © 17 de agosto de 2005 por Mike Banks ValentineGoogle Sandbox Case Study http://publish101.com/Sandbox2 Mike Banks Valentine opera http://Publish101.com Free Web Content Distribution artigo para comerciantes e permite a agregação de conteúdo, otimização de imprensa e conteúdo personalizado para web Search Engine Positioning

Artigo Fonte: Messaggiamo.Com

» Credit Secrets Bible
» Cash Making Power Sites
» Home Cash Course
» Automated Cash Formula

Webmaster começa O Código do HTML
Adicionar este artigo para o seu site agora!

Webmaster enviar seus artigos
Nenhum registro necessário! Preencha o formulário e seu artigo está no Messaggiamo.Com Diretório!

Envie os seus artigos para Messaggiamo.Com Directory

Categorias

Hosting by webhosting24.com
Dedicated servers sponsored by server24.eu