1robots 檔案 究竟是幹什麼用的

2021-08-27 16:06:02 字數 4843 閱讀 7747

1樓:手機使用者

搜尋引擎爬去我們頁面的工具叫做搜尋引擎機器人,也生動的叫做“蜘蛛”

蜘蛛在爬去**頁面之前,會先去訪問**根目錄下面的一個檔案,就是robots.txt。這個檔案其實就是給“蜘蛛”的規則,如果沒有這個檔案,蜘蛛會認為你的**同意全部抓取網頁。

robots.txr檔案是一個純文字檔案,可以告訴蜘蛛哪些頁面可以爬取(收錄),哪些頁面不能爬取。

舉個例子:建立一個名為robots.txt的文字檔案,然後輸入

user-agent: * 星號說明允許所有搜尋引擎收錄

disallow: index.php? 表示不允許收錄以index.php?字首的連結,比如index.php?=865

disallow: /tmp/ 表示不允許收錄根目錄下的tmp目錄,包括目錄下的檔案,比如tmp/232.html

2樓:匿名使用者

robots.txt基本介紹

robots.txt是一個純文字檔案,在這個檔案中**管理者可以宣告該**中不想被robots訪問的部分,或者指定搜尋引擎只收錄指定的內容。

當一個搜尋機器人(有的叫搜尋蜘蛛)訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜尋機器人就會按照該檔案中的內容來確定訪問的範圍;如果該檔案不存在,那麼搜尋機器人就沿著連結抓取。

另外,robots.txt必須放置在一個站點的根目錄下,而且檔名必須全部小寫。

robots.txt 允許收錄**所有頁面 怎麼寫 20

3樓:

什麼是robots.txt?

搜尋引擎使用spider程式自動訪問網際網路上的網頁並獲取網頁資訊。spider在訪問一個**時,會首先會檢查該**的根域下是否有一個叫做robots.txt的純文字檔案。

您可以在您的**中建立一個純文字檔案robots.txt,在檔案中宣告該**中不想被robot訪問的部分或者指定搜尋引擎只收錄特定的部分。

請注意,僅當您的**包含不希望被搜尋引擎收錄的內容時,才需要使用robots.txt檔案。如果您希望搜尋引擎收錄**上所有內容,請勿建立robots.

txt檔案或者建立一個內容為空的robots.txt檔案。

robots.txt 放置位置

robots.txt檔案應該放置在**根目錄下。舉例來說,當spider訪問一個**(比如http:

//www.180186.com)時,首先會檢查該**中是否存在http:

txt這個檔案,如果 spider找到這個檔案,它就會根據這個檔案的內容,來確定它訪問許可權的範圍。

robots.txt 格式

檔案包含一條或更多的記錄,這些記錄通過空行分開(以cr,cr/nl, or nl作為結束符),每一條記錄的格式如下所示:”:”。

在該檔案中可以使用#進行註解。該檔案中的記錄通常以一行或多行user-agent開始,後面加上若干disallow和allow行,詳細情況如下。

user-agent:

該項的值用於描述搜尋引擎robot的名字。在”robots.txt”檔案中,如果有多條user-agent記錄說明有多個robot會受到”robots.

txt”的限制,對該檔案來說,至少要有一條user-agent記錄。 如果該項的值設為*,則對任何robot均有效,在”robots.txt”檔案中,”user-agent:

*”這樣的記錄只能有一條。如果在”robots.txt”檔案中,加入”user- agent:

somebot”和若干disallow、allow行,那麼名為”somebot”只受到”user-agent:somebot”後面的 disallow和allow行的限制。 disallow:

該項的值用於描述不希望被訪問的一組url,這個值可以是一條完整的路徑,也可以是路徑的非空字首,以disallow項的值開頭的url不會被robot訪問。例 如”disallow: /help”禁止robot訪問/help*.

html、/help/index.html, 而”disallow: /help/”則允許robot訪問/help*.

html,不能訪問/help/index.html。

"disallow:"說明允許robot訪問該**的所有url,在”/robots.txt”檔案中,至少要有一條disallow記錄。

如果”/robots.txt”不存在或者為空檔案,則對於所有的搜尋引擎robot,該**都是開放的。

allow:

該項的值用於描述希望被訪問的一組url,與disallow項相似,這個值可以是一條完整的路徑,也可以是路徑的字首,以allow項的值開頭的url是允許robot訪問的。例如”allow:/hibaidu”允許robot訪問/hibaidu.

一個**的所有url預設是allow的,所以allow通常與disallow搭配使用,實現允許訪問一部分網頁同時禁止訪問其它所有url的功能。

需要特別注意的是disallow與allow行的順序是有意義的,robot會根據第一個匹配成功的 allow或disallow行確定是否訪問某個url。

使用”*”和”$”: baiduspider 支援使用萬用字元”*”和”$”來模糊匹配url。 “$” 匹配行結束符。 “*” 匹配0或多個任意字元。

robots.txt檔案用法舉例:

1. 允許所有的robot訪問

user-agent: * allow: / 或者 user-agent: * disallow:

2. 禁止所有搜尋引擎訪問**的任何部分

user-agent: *

disallow: /

3. 僅禁止baiduspider訪問您的**

4. 僅允許baiduspider訪問您的**

5. 禁止spider訪問特定目錄

user-agent: *

disallow: /cgi-bin/

disallow: /tmp/

disallow: /~joe/

6. 允許訪問特定目錄中的部分url

user-agent: *

allow: /cgi-bin/see

allow: /tmp/hi

allow: /~joe/look

disallow: /cgi-bin/

disallow: /tmp/

disallow: /~joe/

7. 使用”*”限制訪問url

禁止訪問/cgi-bin/目錄下的所有以”.htm”為字尾的url(包含子目錄)。

user-agent: *

disallow: /cgi-bin/*.htm

8. 使用”$”限制訪問url

僅允許訪問以”.htm”為字尾的url。

user-agent: *

allow: .htm$

disallow: /

例9. 禁止訪問**中所有的動態頁面

user-agent: *

disallow: /*?*

僅允許抓取網頁,禁止抓取任何**。

11. 僅允許baiduspider抓取網頁和.gif格式**

允許抓取網頁和gif格式**,不允許抓取其他格式**

12. 僅禁止baiduspider抓取.jpg格式**

還有其他不懂,可以看看我寫的方案,應該對你有啟發

4樓:三源茶行

user-agent: *

disallow:

allow: /

怎麼把robots.txt檔案放在**根目錄下?**根目錄是什麼?在哪個位置?能詳細一些嗎

5樓:李明傑

你通過ftp連線你**的空間,這個空間一般就是**的根目錄;

通過ftp直接將robots.txt上傳到空間就行;

**根目錄可以簡單理解為可以放置子目錄或者說資料夾的地方。

6樓:匿名使用者

ftp登陸**後,一般會有資料夾www,進入www資料夾(這才是**的根目錄,**中可以訪問的程式檔案都要放在這個資料夾內),上傳robots.txt到www資料夾內。為了形象說明,見附圖:

7樓:萌起來

**根目錄copy,可以這樣理解:比如你的c盤裡有一個資料夾叫img,img資料夾中有一個123.txt,

c:/ -> img資料夾 -> 123.txt那麼c:盤就是根目錄,img則算是一個子目錄。

**的道理也是一樣,一般來說,

當用ftp連線到**的空間時,直接開啟的就是**的根目錄。

robots.txt必須放在**根目錄中才是有效的,放在子目錄中是無效的。

比如http://www.xiuzheng.net/robots.txt

是正確的。

愛情究竟是什麼啊愛情究竟是什麼?

真正的愛不是用言語可以表達的,是發自內心的,愛上乙個人你的整顆心都會被你愛的人所吸引,為他 她 著迷,為他 她 牽掛,但願每一分鐘都可以見到他 她 見不到的時候時時刻刻都會想著他 她 見到的時候你會興奮,心跳加快,在一起的時候你會感覺很溫暖很安全,與他 她 相濡以沫,你會期待用你的全部愛心來帶給他 ...

獻血究竟是好還是壞,獻血究竟是否有害?

獻血最大的好處就是 不用捨己,就能救人 很值,這會使人很開心,而心情好當然是有益健康的。還有,獻血者為保證能持續按規定參加獻血,往往都能注意健康的生活方式,這就更有益健康。獻血可以讓自己和家人在需要的時候免費用血,這個是真的,但各地用血政策不一樣,如果您是為了這個獻血,那麼我建議您可以打聽一下當地的...

這究竟是什麼,這究竟是什麼意思?

指路明燈明哥哥 目測這是野果子。野果子營養很豐富的哦。希望你是第一個吃螃蟹的人。不過你弄的這麼多,肯定是有朋友推薦,不然你不會有這樣的膽子。吃吧,好吃給我郵一點。 大倫大倫大倫 好像是田螺。蝸牛什麼的。這東西可不能吃。有寄生蟲的。 這個不是你所說的菩提子,應該是龍眼晒乾後的桂圓。 所幻天 我覺得黃色...