本站不提供港澳台、国外IP资源。所有IP均为自营，我们会保留用户的对代理IP的请求日志，如有发现用户违法违规行为，我们会保留日志数据并举报到网监部门。用户不得传输或发表：煽动抗拒、破坏宪法和法律、行政法规实施的言论，煽动颠覆国家政权，推翻社会主义制度的言论，煽动分裂国家、破坏国家统一的的言论，煽动民族仇恨、民族歧视、破坏民族团结的言论；不得利用本站资源从事洗钱、窃取商业秘密、窃取个人信息等违法犯罪活动；不得侵入计算机信息系统或者采用其他技术手段，获取该计算机信息系统中存储、处理或者传输的数据，或者对该计算机信息系统实施非法控制；不得传输或发表任何违法犯罪的、骚扰性的、中伤他人的、辱骂性的、恐吓性的、伤害性的、庸俗的，淫秽的、不文明的等信息资料；不得传输或发表损害国家社会公共利益和涉及国家安全的信息资料或言论；不得发布任何侵犯他人著作权、商标权等知识产权或合法权利的内容；不可进行其他违反宪法和法律、行政法规、社会公德的行为。

谷歌推网页爬虫新标准，开源robots.txt解析器

作者：GET 时间：2020-09-18 13:24:53

对于接触过网络爬虫的人来说 robots.txt 绝不陌生，这一存放于网站根目录下的 ASCII 码文件标明了网站中哪些内容是可以抓取的，哪些内容又是禁止抓取的。今年，robots.txt 就满 25 周岁了，为了给这位互联网MVP庆祝生日，谷歌再度出手，开源 robots.txt 解析器，试图推助机器人排除协议（REP）正式成为互联网行业标准。

REP 以其简单高效征服了互联网行业

在为互联网行业服务了25年之后，rep 仍然只是一个非官方的标准。这可带来了不少麻烦。比如拼写错误。有很多人会忽视 robots.txt 规则中的冒号，而把 disallow 拼成 dis allow 这种让爬虫抓瞎的情况也不是没有出现过。此外，rep本身并没有涵盖所有的情况，比如出现服务器错误 500 时，爬虫是啥都可以抓还是啥也不能抓？对于网站所有者来说，模糊的事实标准使得正确地书写规则变成了一件难事。这就够让人头疼的了，更别提并非所有的爬虫都尊重 robots.txt 这件事了。

哪些内容又是禁止抓取的

对于接触过网络爬虫的人来说 robots.txt 绝不陌生，这一存放于网站根目录下的 ascii 码文件标明了网站中哪些内容是可以抓取的，哪些内容又是禁止抓取的。今年，robots.txt 就满 25 周岁了，为了给这位互联网mvp庆祝生日，谷歌再度出手，开源 robots.txt 解析器，试图推助机器人排除协议（rep）正式成为互联网行业标准。机器人排除协议（robots exclusion protocol）是荷兰软件工程师 martijn koster 在1994 提出的一项标准，其核心就是通过 robots.txt 这样一个简单的文本文件来控制爬虫机器人的行为。

谷歌大笔一挥

rep 的尴尬，以搜索起家的谷歌看在眼里。于是在 rep 诞生25周年之际，谷歌大笔一挥，献上一份厚礼，宣布将与 rep 原作者 martijn koster 网站管理员和其他搜索引擎合作，向互联网工程任务组 ietf 提交规范化使用 rep 的草案，努力助其成为真正的官方标准为此，谷歌还开源了其用于抓取网络的工具之一—— robots.txt 解析器，来帮助开发人员构建自己的解析器，以期创建更多的通用格式，促进标准的完善。此番开源的 c++ 库已存在20年之久，涵盖了谷歌生产历程中经历的许多有关 robots.txt 文件的案例。开源软件包中还包含了一个测试工具，可以帮助开发者们测试一些规则。谷歌表示，他们希望帮助网站所有者和开发者们在互联网中创造出更多惊人的体验，而不是成天担心怎么去限制爬虫。草案内容目前尚未全面公布，但大致会聚焦于以下几个方向：谷歌此番开源再次引起热议。有网友表示，谷歌作为搜索行业的领军人物，大多数的搜索引擎都愿意紧随其后，他们愿做先锋统一行业标准是一件很有意义的事情。还有网友对谷歌愿意开源 robots.txt 解析器感到既兴奋又惊奇，谷歌将来还会开源与搜索相关的其他模块吗？想想都有点刺激呀。而 martijn koster 本人也说出了一些网友的心声：谷歌真是棒呆了！

引用文献

谷歌推网页爬虫新标准，开源robots.txt解析器 http://baijiahao.baidu.com/s?id=1638017207685445009

福利：现在通过开发者购买代理IP，购买后联系客服最高可获返现20% 到你的支付宝（最低35元，最高1440元）

谷歌推网页爬虫新标准，开源robots.txt解析器

REP 以其简单高效征服了互联网行业

哪些内容又是禁止抓取的

谷歌大笔一挥

新手上路

支付方式

常见问题

关于我们