English version
German version
Spanish version
French version
Italian version
Portuguese / Brazilian version
Dutch version
Greek version
Russian version
Japanese version
Korean version
Simplified Chinese version
Traditional Chinese version
Hindi version
Czech version
Slovak version
Bulgarian version
 

搜索引擎蜘蛛没有失去指导-张贴此标志!

徐 RSS Feed





robots.txt文件是一个排除标准,要求所有网络抓取/机器人告诉他们哪些文件和目录,您希望他们留在您的网站出来的。并非所有的抓取工具/机器人按照排除 标准,并会继续抓取您的网站无论如何。我喜欢称他们为“坏机器人”或入侵者。我们阻止IP排除他们是另一回事entirely.This是robots.txt的基础非常简单概述 网站管理员。为了全面,彻底的教训,请访问http://www.robotstxt.org/To看到有一定标准的robots.txt文件中的正确的格式,直接看下面。该文件应在域的根因 那里是抓取希望它是,在一些中学directory.Below不会是正确的robots.txt文件格式----->用户代理:*禁止:/的cgi - bin /不允许:/图片/不允许:/组/用户代理: MSNBot爬的Crawl - delay:10User代理:TEOMA的的Crawl - delay:10User代理:嘟嘟地喝的Crawl - delay:10User代理:aipbot不允许:/用户代理:BecomeBot不允许:/用户代理:psbot不允许:/ --- ----->结束的robots.txt fileThis 小文本文件作为一个纯文本文件的名称为“robots.txt在您domain.A从上述的robots.txt文件中列出的信息快速审查根”始终保存如下。在“用户代理: MSNBot爬“是从MSN,嘟嘟地喝,是雅虎和TEOMA的是来自正是凭借着。所列的其他人”坏“漫游器抓取很快,所有人的利益,而是他们自己,所以我们要求他们留出完全。*星号的 外卡,这意味着“所有”爬虫/蜘蛛/机器人应保持该文件或目录listed.The组进行机器人的指示“不允许:/”是指他们应留出完全和那些与 “的Crawl - delay:10”是指那些我们的网站抓取过快,导致它陷入瘫痪和过度使用的服务器资源。谷歌抓取速度比其他人,不要求指令,因此不 特别是在上面列出的robots.txt文件。抓取延迟指令只需要与数百或数千页的大型网站。通配符星号*适用于所有的搜寻器,机器人和蜘蛛 包括Googlebot.Those我们规定“的Crawl - delay:10”指令多达7页,要求每一秒,所以我们要求他们放慢。你看到的数字是秒,你可以改变它,以适应 您的服务器容量,根据他们的检索速度。 10个页面请求秒之间更为轻松和您的服务器比要求更多的网页可以抛出停止他们。(你可以发现机器人和多快 蜘蛛在抓取您的服务器日志寻找原料-这表明所要求的精确的时间内第二个-从您的虚拟主机提供的百分之一的网页或询问您的网络或资讯科技的人。您的服务器日志 发现在根目录如果您有服务器的访问,通常可以下载压缩日历服务器关闭一天正确的服务器日志文件。你需要一个可扩展压缩文件打开, 纯文本阅读这些原始服务器日志文件。)为看不到有任何的robots.txt文件的内容后,任何域名只需要输入的robots.txt。如果他们有这个文件,你将看到它作为您的网页显示文本文件 浏览器。下面的链接查看,对Amazon.comhttp文件:/ / www.Amazon.com / robots.txtYou可以看到任何网站的robots.txt文件,way.The的robots.txt上面显示的内容是我们目前使用在 Publish101网络内容分销商,仅在2005年五月推出。我们做了大量的案例研究,并出版了履带的行为和已知的谷歌沙盒系列文章索引延误。 ,谷歌 沙盒案例研究是很有启发性的多层次的网站管理员到处对于这个往往被忽视小文file.One的事情,我们没有想到从索引中收集所涉及的研究的重要性 延迟(称为谷歌沙盒)是robots.txt文件的重要性,迅速而有效的从各大搜索引擎蜘蛛和重工业的机器人爬行,将做很多爬行没有世俗 好网站的所有者,但大多数网站抓取广泛和严重,紧张服务器与前来为百分之七在我们推出新的网站,发现second.We页页请求的速度突破点 ,谷歌和雅虎将抓取网站您是否使用robots.txt文件,但MSN似乎需要它,才开始抓取的。搜索引擎的机器人似乎要求所有在该文件 定期核查,并没有changed.Then当你改变它,他们就会停止爬行短时间多次要求,在此期间的robots.txt文件,而无需任何额外的网页抓取。 (也许他们有一个列表的网页访问,其中包括目录,或者您已指示他们留出来的,现在必须调整他们的抓取时间表,以消除他们的名单上的文件档案。)大部分 网站管理员指示漫游留出“形象”目录和“的cgi - bin”目录中的目录以及任何含有私人或专有文件仅用于企业内部网用户或密码 您网站的保护部分。很明显,你应该指示机器人留任何你不希望的robots.txt的重要性索引搜索engines.The私人领域内很少讨论平均 网站管理员和我什至有我的客户业务'某些网站管理员问我是什么,以及如何实现它,当我告诉他们是多么重要的两个网站的安全性和高效率的搜索引擎抓取。 这在相当公司的网站管理员应该是标准的知识,但是这说明了很少关注支付给robots.txt.The搜索引擎使用真的想你的指导和这个小文 文件是最好的方式提供抓取和漫游一个明确的路标,提醒过擅自闯入者,保护私有财产-和特邀嘉宾表示热烈欢迎,如三大搜索引擎,而要求他们 留出很好的私人areas.Copyright ÃÆ'à ¢ â,¬ Å ¡ ÀSA公司©由Mike银行ValentineGoogle沙箱为例http://publish101.com/Sandbox2麦克银行情人节2005年8月17日运作 http://Publish101.com免费的网络内容分发和营销条提供内容聚合,新闻稿优化和自定义搜索引擎网页内容定位

文章来源: Messaggiamo.Com

Translation by Google Translator





Related:

» Credit Secrets Bible
» Cash Making Power Sites
» Home Cash Course
» Automated Cash Formula


网管得到HTML代码
加上这条到你的网站!

网站管理员提交你的文章
无须登记!填写好的表格和你的文章是在 Messaggiamo.Com 目录!

Add to Google RSS Feed See our mobile site See our desktop site Follow us on Twitter!

提交你的文章,以 Messaggiamo.Com 目录

分类


版权 2006-2011 Messaggiamo.Com - 网站地图 - Privacy - 网站管理员提交你的文章,以 Messaggiamo.Com 目录 [0.01]
Hosting by webhosting24.com
Dedicated servers sponsored by server24.eu