分享

谷歌开源robots.txt正推动官方网络爬虫标准

ppge 发表于 2019-7-2 16:39:29 [显示全部楼层] 只看大图 回帖奖励 倒序浏览 阅读模式 1 1033
201811151621143997_47.jpg

7月2日 消息:据外媒报道,谷歌希望将几十年前的拒绝蜘蛛协议 (REP)变成为官方互联网标准。为了推动该项计划,谷歌正在制作自己的 robots.txt 解析器开源。

据venturebeat介绍,早在 1994 年,荷兰软件工程师Martijn Koster就提出了REP标准,它几乎已经成为网站用来告诉自动爬虫程序的哪些部分不应该被处理的标准。例如谷歌的网页抓取机器人Googlebot(类似百度蜘蛛)在为网站建立索引时会扫描robots.txt文件,以检查应该忽略哪些部分的特殊说明。它最大限度地减少了无意义的索引,有时会隐藏敏感信息。此外,这些文件并不仅仅用于给出直接的爬行指令,还可以填充某些关键字,以改善搜索引擎优化,以及其他用例。

不过,谷歌认为需要对其爬虫技术进行改进,该公司正在公开寻找用于解码robots.txt解析器,试图建立一个真正的网络爬行标准。理想情况下,这将从如何揭开robots.txt文件神秘面纱,并创造更多通用格式。

谷歌倡议向国际互联网工程任务组提交自己方法,将“更好地定义”爬虫应该如何处理 robots.txt,并减少一些意外。

该草案并不完全可用,但它将不仅适用于网站,还包括最小文件大小、设置最大一天缓存时间以及在服务器出现问题时让网站休息。
回复

使用道具 举报

已有(1)人评论

跳转到指定楼层
木木子 发表于 2022-1-9 10:39:40
<script type="text/javascript">var jd_union_pid="608851640356767048";var jd_union_euid="";</script><script type="text/javascript" src="//ads-union.jd.com/static/js/union.js"></script>
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则