English version
German version
Spanish version
French version
Italian version
Portuguese / Brazilian version
Dutch version
Greek version
Russian version
Japanese version
Korean version
Simplified Chinese version
Traditional Chinese version
Hindi version
Czech version
Slovak version
Bulgarian version
 

Arañas de los motores de búsqueda, sin pérdida de orientación - puesto este signo!

Seo RSS Feed





El archivo robots.txt es una exclusión nivel requerido por todos los rastreadores web / robots para decirles qué ficheros y directorios que quieras que permanezcan fuera de su sitio. No todos los rastreadores / robots siguen la exclusión estándar y continuará el rastreo de su sitio de todos modos. Me gusta llamarlos "Mala bots" o intrusos. Bloqueamos por la exclusión de direcciones IP, que es otra historia entirely.This es muy simple visión de conjunto de elementos básicos de robots.txt webmasters. Para una completa y exhaustiva lección, visite http://www.robotstxt.org/To ver el formato correcto para un archivo robots.txt algo normal mirar directamente a continuación. Ese archivo debe estar en la raíz del dominio, porque que es donde los rastreadores esperamos que sea, no en algunas secundarias directory.Below es el formato correcto para un archivo robots.txt -----> User-agent: * Disallow: / cgi-bin / Disallow: / imagenes / Disallow: / grupo / User-agent: MSNBot Crawl-delay: 10User-agent: Teoma Crawl-delay: 10User-agent: Slurp Crawl-delay: 10User-agent: aipbot Disallow: / User-agent: BecomeBot Disallow: / User-agent: psbot Disallow: / --- -----> Fin de robots.txt fileThis diminuto archivo de texto se guardará como un documento de texto plano y siempre con el nombre de "robots.txt" en la raíz de su domain.A revisión rápida de la lista de información de la anterior siguiente archivo robots.txt. El "agente de usuario: MSNBot "es de MSN, Yahoo Slurp y es de es de Teoma AskJeeves. Los otros se muestran son" Mala "que los robots de rastreo muy rápido y nadie a su propio beneficio, sino, por lo que pedimos que se queden en su totalidad. El asterisco * es un comodín que significa "todos" los rastreadores / arañas / bots deben permanecer fuera de ese grupo de archivos o directorios listed.The los robots debido a la instrucción "Disallow: /" significa que debe mantenerse al margen por completo y las personas con "Crawl-delay: 10" son los que rastrean nuestro sitio demasiado rápido y ha causado a atascar el servidor y el uso excesivo de recursos. Google rastrea más lentamente que los demás y no requiere que la instrucción, por lo que no es específicamente enumerados en el anterior archivo robots.txt. Crawl-delay instrucción sólo es necesario en sitios de gran tamaño con cientos o miles de páginas. El comodín asterisco * se aplica a todos los rastreadores, los robots y arañas, incluyendo Googlebot.Those que siempre que "Crawl-delay: 10" se solicita a la instrucción hasta 7 páginas cada segundo y por lo que les pidió a ralentizar. El número que usted ve es segundo y se puede cambiar para adaptarse a la capacidad de su servidor, sobre la base de su frecuencia de rastreo. Diez segundos entre solicitudes de páginas es mucho más placentero y deja de pedir más páginas que el servidor de plato. (Usted puede descubrir qué tan rápido y los robots las arañas son el rastreo en busca de crudo en su servidor de registros - que muestran las páginas solicitadas por precisa a veces dentro de una centésima de segundo - a disposición de su web host web o preguntar a su persona o de TI. Registros de su servidor puede se encuentra en el directorio raíz si tiene acceso al servidor, por lo general usted puede descargar los archivos de registro de servidor comprimido por día natural al lado de su servidor. Usted necesitará una utilidad que puede ampliar para abrir archivos comprimidos y texto sin leer los archivos de registro bruto servidor.) Para ver el contenido de cualquier archivo robots.txt robots.txt justo después de cualquier tipo de nombre de dominio. Si tienen este archivo, usted verá que aparece como un archivo de texto en tu web navegador. Haga clic en el enlace de abajo para ver ese archivo para Amazon.comhttp: / / www.Amazon.com / robots.txtYou puede ver el contenido de cualquier sitio web archivo robots.txt way.The robots.txt que se muestra arriba es lo que actualmente utilizan en Publish101 el Contenido Web Distribuidor, lanzado en mayo de 2005. Hicimos un extenso estudio de caso y publicó una serie de artículos sobre el comportamiento y la indexación rastreador retrasos conocido como el Google Sandbox. Que Google Estudio de caso Sandbox es muy instructivo en muchos niveles para los webmasters de todo el mundo acerca de la importancia de este texto a menudo ignorados file.One poca cosa que no esperaba para recoger a partir de la investigación que participan en la indexación retrasos (conocido como el Google Sandbox) la importancia de los archivos robots.txt de forma rápida y eficiente el rastreo de las arañas de los motores de búsqueda principales y el número de rastreos de robots pesados que no hacen terrenal bueno para el propietario del sitio, pero la mayoría de los sitios de rastreo y muy ampliamente, forzar a los servidores de punto de ruptura con las peticiones de páginas tan rápido como de 7 páginas por second.We descubierto en el lanzamiento de nuestro nuevo sitio Google y Yahoo que rastreará el sitio o si no se utiliza un archivo robots.txt, pero MSN parece exigir que antes de empezar a rastrear a todos. Todos los robots de los motores de búsqueda parecen pedir al archivo en un periódicamente para verificar que no ha changed.Then cuando se cambian, dejarán de rastreo por períodos breves y en repetidas ocasiones para pedir el archivo robots.txt que durante ese tiempo sin que el rastreo de páginas adicionales. (Tal vez había una lista de páginas que visita, que incluye el directorio o archivos que han dado instrucciones a permanecer fuera de ahora y debe ajustar su horario de rastreo para la eliminación de estos archivos de su lista.) Más instrucciones a los webmasters los bots para permanecer fuera de la "imagen" y los directorios "cgi-bin" directorio así como los directorios que contienen archivos de propiedad privada o sólo para los usuarios de una intranet o la contraseña protegidas secciones de su sitio. Evidentemente, usted debe dirigir los bots para permanecer fuera de toda las áreas privadas que no desea que la búsqueda indexada por engines.The importancia de robots.txt rara vez es discutido por medio webmasters y he tenido algunos de mis clientes de negocios' webmasters me preguntan qué es y cómo ponerla en práctica cuando les digo lo importante que es tanto la seguridad del terreno y el rastreo eficiente de los motores de búsqueda. Este conocimiento debería ser la norma por los webmasters en empresas importantes, pero esto ilustra cómo se presta poca atención al uso de las arañas de los motores de búsqueda robots.txt.The realmente quiere que su orientación y de este pequeño texto archivo es la mejor manera de proporcionar los bots rastreadores y una clara señal para advertir a los intrusos fuera y proteger la propiedad privada - y una cálida bienvenida a invitados, como los tres grandes motores de búsqueda, mientras que ellos piden muy bien para mantenerse fuera de areas.Copyright privado ÃÆ'à ¢ â, ¬ Å ¡Ãƒâ € SA, © 17 de agosto de 2005 por Mike ValentineGoogle Bancos Sandbox Case Study http://publish101.com/Sandbox2 Mike opera Bancos de San Valentín http://Publish101.com Free Web de distribución de contenidos para el artículo de marketing y proporciona agregación de contenidos, el comunicado de prensa y de optimización de contenido web personalizado para Posicionamiento en buscadores

Artículo Fuente: Messaggiamo.Com

Translation by Google Translator





Related:

» Credit Secrets Bible
» Cash Making Power Sites
» Home Cash Course
» Automated Cash Formula


Webmaster obtener el código html
Añadir este artículo a su sitio web ahora!

Webmaster Envíe sus artículos
No es necesario que se registre! Completa el formulario y su artículo está en el Messaggiamo.Com Directorio!

Add to Google RSS Feed See our mobile site See our desktop site Follow us on Twitter!

Envíe sus artículos a Messaggiamo.Com Directorio

Categorías


Derechos de autor 2006-2011 Messaggiamo.Com - Mapa del sitio - Privacy - Webmaster enviar sus artículos a Messaggiamo.Com Directorio [0.01]
Hosting by webhosting24.com
Dedicated servers sponsored by server24.eu