Robots協(xié)議的約束力
“Robots的約束力固然僅限于自律,無(wú)強(qiáng)制性,但這不等于說(shuō)它背后反映的精神,沒有法律基礎(chǔ)。,讓其切實(shí)有效地授權(quán)或者拒絕他人采集和使用其個(gè)人信息”,可見遵守規(guī)則就是要遵守公平競(jìng)爭(zhēng),不是沒有強(qiáng)制力就可以不公平競(jìng)爭(zhēng)。
例子
允許所有的機(jī)器人:
User-agent: *
Disallow:
另一寫法
User-agent: *
Allow:/
僅允許特定的機(jī)器人:(name_spider用真實(shí)名字代替)
User-agent: name_spider
Allow:
攔截所有的機(jī)器人:
User-agent: *
Disallow: /
禁止所有機(jī)器人訪問(wèn)特定目錄:
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/
僅禁止壞爬蟲訪問(wèn)特定目錄(BadBot用真實(shí)的名字代替):
User-agent: BadBot
Disallow: /private/
禁止所有機(jī)器人訪問(wèn)特定文件類型[2]:
User-agent: *
Disallow: /.php$
Disallow: /.js$
Disallow: /.inc$
Disallow: /.css$
非標(biāo)準(zhǔn)擴(kuò)展協(xié)議
自動(dòng)發(fā)現(xiàn)Sitemaps文件
Sitemap指令被幾大搜索引擎支持(包括Google、Yahoo、Bing和Ask),指定了網(wǎng)站Sitemaps文件的位置。Sitemaps文件包含了網(wǎng)站頁(yè)面所在的URL的一個(gè)列表。Sitemap指令并不受User-agent指令的限制,所以它可以放在robots.txt文件中的任意位置。[3] 唯一要注意的就是要使用網(wǎng)站地圖指令,<sitemap_location>,并將URL的"location"值換成網(wǎng)站地圖的地址,
————————————————
版權(quán)聲明:本文為CSDN博主「韓毓航」的原創(chuàng)文章,遵循CC 4.0 BY-SA版權(quán)協(xié)議,轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/Smileal/article/details/123867695