建站推廣熱線|在線留言

198.2155.1721   188.1771.8466 

什么是robots文件?

發布時間:2017-12-03 22:47:57訪問人數:作者:百度站長

    什么是robots,你可以理解為搜索引擎蜘蛛抓取的規則。當蜘蛛來到你的網站的時候首先會看下robot.txt這個文件,它會告訴蜘蛛哪些頁面可以抓取,哪些頁面要屏蔽掉不能抓取和收錄。Robots是站點與spider溝通的重要渠道,站點通過robots文件聲明本網站中不想被搜索引擎收錄的部分或者指定搜索引擎只收錄特定的部分。

    9月11日,百度搜索robots全新升級。升級后robots將優化對網站視頻URL收錄抓取情況。僅當您的網站包含不希望被視頻搜索引擎收錄的內容時,才需要使用robots.txt文件。如果您希望搜索引擎收錄網站上所有內容,請勿建立robots.txt文件。如您的網站未設置robots協議,百度搜索對網站視頻URL的收錄將包含視頻播放頁URL,及頁面中的視頻文件、視頻周邊文本等信息,搜索對已收錄的短視頻資源將對用戶呈現為視頻極速體驗頁。此外,綜藝影視類長視頻,搜索引擎僅收錄頁面URL。

018371511338675.png

robots.txt文件的格式 robots文件往往放置于根目錄下,包含一條或更多的記錄,這些記錄通過空行分開(以CR,CR/NL, or NL作為結束符),每一條記錄的格式如下所示:

        ":"

 在該文件中可以使用#進行注解,具體使用方法和UNIX中的慣例一樣。該文件中的記錄通常以一行或多行User-agent開始,后面加上若干Disallow和Allow行,詳細情況如下:

        User-agent:該項的值用于描述搜索引擎robot的名字。在"robots.txt"文件中,如果有多條User-agent記錄說明有多個robot會受到"robots.txt"的限制,對該文件來說,至少要有一條User-agent記錄。如果該項的值設為*,則對任何robot均有效,在"robots.txt"文件中,"User-agent:*"這樣的記錄只能有一條。如果在"robots.txt"文件中,加入"User-agent:SomeBot"和若干Disallow、Allow行,那么名為"SomeBot"只受到"User-agent:SomeBot"后面的 Disallow和Allow行的限制。


        Disallow:該項的值用于描述不希望被訪問的一組URL,這個值可以是一條完整的路徑,也可以是路徑的非空前綴,以Disallow項的值開頭的URL不會被 robot訪問。例如"Disallow:/help"禁止robot訪問/help.html、/helpabc.html、/help/index.html,而"Disallow:/help/"則允許robot訪問/help.html、/helpabc.html,不能訪問/help/index.html。"Disallow:"說明允許robot訪問該網站的所有url,在"/robots.txt"文件中,至少要有一條Disallow記錄。如果"/robots.txt"不存在或者為空文件,則對于所有的搜索引擎robot,該網站都是開放的。


        Allow:該項的值用于描述希望被訪問的一組URL,與Disallow項相似,這個值可以是一條完整的路徑,也可以是路徑的前綴,以Allow項的值開頭的URL 是允許robot訪問的。例如"Allow:/hibaidu"允許robot訪問/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一個網站的所有URL默認是Allow的,所以Allow通常與Disallow搭配使用,實現允許訪問一部分網頁同時禁止訪問其它所有URL的功能。


        使用"*"and"$":Baiduspider支持使用通配符"*"和"$"來模糊匹配url。

        "*" 匹配0或多個任意字符

         "$" 匹配行結束符。


最后需要說明的是:百度會嚴格遵守robots的相關協議,請注意區分您不想被抓取或收錄的目錄的大小寫,百度會對robots中所寫的文件和您不想被抓取和收錄的目錄做精確匹配,否則robots協議無法生效。 具體詳情可以訪問:https://ziyuan.baidu.com/college/courseinfo?id=267&page=12#h2_article_title28





贊+1
分享:

版權:【非特殊說明,本站文章均為原創,轉載請注明出處。注明為本站原創的文章,轉載請注明出處與原文地址!英雄還是要問下出處的!本站部分轉載文章能找到原作者的我們都會注明,若文章涉及版權請發至郵箱:[email protected],以便我們及時處理,可以領紅包哦。向本站投稿或者需要本站向貴司網站定期免費投稿請加微信:18817718466(褚百萬)】

robots、robots.txt
域名注冊
網站設計
SEO按天計費

今標網絡 Copyright ? 2012-2019 All Rights Reserved.未經許可,不可拷貝或鏡像 備案號:滬ICP備16009217號   微信圖片_20190830163302.png 滬公網安備:31010702005298   網站地圖    代理商查詢    君搜寶    

  • QQ
  • 電話
  • 首頁
  • 留言
  • 返回頂部
  • 便利店不赚钱又累 麻将胡牌公式图解 娱乐棋牌 36选7复式中奖计算 大东海a股票最新消 波克棋牌账号申请 怎样在网上兼职赚钱 股票数据导出exc 网上真钱的棋牌游戏 属牛的吉祥数字是什么 上港集团股票行情