English version
German version
Spanish version
French version
Italian version
Portuguese / Brazilian version
Dutch version
Greek version
Russian version
Japanese version
Korean version
Simplified Chinese version
Traditional Chinese version
Hindi version
Czech version
Slovak version
Bulgarian version
 

搜索引擎蜘蛛沒有失去指導-張貼此標誌!

徐 RSS Feed





robots.txt文件是一個排除標準要求所有網頁檢索/機器人告訴他們哪些文件和目錄,你想讓他們避開在您的網站。並非所有的抓取工具/機器人按照排除 標準,並會繼續抓取您的網站無論如何。我喜歡稱他們為“壞機器人”或入侵者。我們阻止他們的IP排除這是另一回事entirely.This是一個非常簡單的概述為基礎的robots.txt 網站管理員。為了全面,徹底的教訓,請訪問http://www.robotstxt.org/To看到正確的格式為標準的robots.txt文件有點直視如下。該文件應在網域的根因 那裡是抓取期望它,而不是部分中學directory.Below是正確的格式robots.txt文件----->用戶代理:*禁止:/的cgi - bin /不允許:/圖片/不允許:/組/用戶代理: MSNBot爬的Crawl - delay:10User代理:TEOMA的的Crawl - delay:10User代理:嘟嘟地喝的Crawl - delay:10User代理:aipbot不允許:/用戶代理:BecomeBot不允許:/用戶代理:psbot不允許:/ --- ----->結束的robots.txt fileThis 小文本文件保存為純文本文件,始終與名稱為“robots.txt”根在你的domain.A快速審查中列出的信息從上面的robots.txt文件如下。在“用戶代理: MSNBot爬“是從MSN,嘟嘟地喝,是雅虎和TEOMA的是從正是憑藉著。所列的其他人”壞“漫遊器抓取很快,所有人的利益,而是他們自己,所以我們要求他們留出完全。*星號的 外卡,這意味著“所有”爬蟲/蜘蛛/機器人應留出該集團的文件或目錄listed.The機器人的指示“不允許:/”是指他們應留出完全和那些與 “的Crawl - delay:10”是指那些我們的網站抓取過快,導致它陷入癱瘓和過度使用的服務器資源。谷歌抓取速度比其他人,不要求指令,因此不 特別是在上面列出的robots.txt文件。抓取延遲指令只需要在大型網站上有數百或數千頁。通配符星號*適用於所有的搜尋器,機器人和蜘蛛 包括Googlebot.Those我們規定“的Crawl - delay:10”指令的要求多達7頁每一秒,所以我們要求他們放慢。你看到的數字是秒,你可以改變它,以適應 您的服務器容量,根據他們的檢索速度。 10秒之間的頁面請求更為悠閒並停止他們的要求比你更多的網頁服務器可以拋出。(你可以發現機器人和多快 蜘蛛爬行通過查看您的原始服務器日誌-這顯示網頁所要求的精確的時間內百分之一秒的-可從您的網頁主機或詢問您的網絡或資訊科技的人。您的服務器日誌 發現在根目錄如果您有服務器的訪問,您通常可以下載的壓縮服務器日誌文件的日曆天權關閉您的服務器。你需要一個可擴展壓縮文件打開, 純文本閱讀這些原始服務器日誌文件。)要查看的內容有任何的robots.txt文件後,只需輸入robots.txt的任何域名。如果他們有這個文件,你將看到它顯示為一個文本文件在您的網頁 瀏覽器。點擊下面的鏈接看到文件Amazon.comhttp:/ / www.Amazon.com / robots.txtYou可以看到內容的任何網站的robots.txt文件,上面顯示的robots.txt way.The是我們目前使用在 Publish101網絡內容分銷商,剛推出2005年5月。我們做了大量案例研究,發表了一系列文章,履帶行為和索引延誤稱為谷歌沙盒。 ,谷歌 沙盒案例研究是很有啟發性在許多層面上到處網站管理員了解的重要性,這往往忽視小文file.One一件事我們沒有預料到從研究中收集涉及索引 延遲(稱為谷歌沙盒)是robots.txt文件的重要性,以快速,高效的蜘蛛爬行從各大搜索引擎和數字重爬的漫遊是永遠沒有世俗 好網站的所有者,但大多數網站抓取廣泛和嚴重,緊張服務器到臨界點的要求,未來的網頁快7頁每second.We發現我們推出新網站 ,谷歌和雅虎將抓取網站您是否使用robots.txt文件,但MSN似乎需要它,才開始抓取的。所有的搜索引擎機器人似乎要求文件1 定期核查,並沒有changed.Then當你改變它,他們將停止抓取過一段時間,一再要求該robots.txt文件在此期間,沒有任何其他網頁抓取。 (也許他們有一個列表的網頁訪問,其中包括目錄或文件,您已指示他們留出來的,現在必須調整他們的抓取時間表,以消除這些文件從他們的名單。)大部分 網站管理員指示漫遊留出“形象”目錄和“的cgi - bin”目錄中的目錄以及任何含有私人或專有文件僅用於企業內部網用戶或密碼 受保護的章節您的網站。很明顯,你應該指示漫遊留出任何私人領域,您不希望索引的搜索engines.The重要性robots.txt是按平均很少討論 網站管理員和我什至有一些我的客戶業務'管理員問我是什麼,以及如何實現它,當我告訴他們是多麼重要的兩個網站的安全性和高效檢索的搜索引擎。 這應該是標準知識的網站管理員在大量的公司,但是這說明了如何支付很少注意使用robots.txt.The搜索引擎確實想你的指導和這個小文 文件是最好的方式提供抓取和漫遊一個明確的路標,提醒過擅自闖入者,保護私有財產-並邀請的客人表示熱烈歡迎,如三大搜索引擎,同時要求他們 留出很好的私人areas.Copyright ÃÆ'à ¢ â,¬ Å ¡ ÀSA公司© 2005年8月17日由Mike銀行ValentineGoogle沙箱為例http://publish101.com/Sandbox2麥克銀行經營情人 http://Publish101.com免費的網絡內容分發和營銷條提供內容聚合,新聞稿優化和自定義網頁內容定位的搜索引擎

文章來源: Messaggiamo.Com

Translation by Google Translator





Related:

» Credit Secrets Bible
» Cash Making Power Sites
» Home Cash Course
» Automated Cash Formula


網管得到HTML代碼
加上這條到你的網站!

網站管理員提交你的文章
無須登記!填寫好的表格和你的文章是在 Messaggiamo.Com 目錄!

Add to Google RSS Feed See our mobile site See our desktop site Follow us on Twitter!

提交你的文章,以 Messaggiamo.Com 目錄

分類


版權 2006-2011 Messaggiamo.Com - 網站地圖 - Privacy - 網站管理員提交你的文章,以 Messaggiamo.Com 目錄 [0.01]
Hosting by webhosting24.com
Dedicated servers sponsored by server24.eu