【太平洋科技快讯】近期,百度百科已起始屏蔽包含谷歌、必应等在内的都数搜索引擎的抓取权限,此举旨在防止这些搜索引擎和其他爬虫未经授权抓取其内容,用于训练人工智能模型。
按照百度百科的robots.txt文件更新表示,日前仅有百度搜索、搜狗搜索、中国搜索(Chinaso)、YYSpider和宜搜搜索(EasouSpider)等少许搜索引擎被准许抓取其内容。
谷歌搜索、必应搜索、微软MSN、UC浏览器的Yisouspider以及其他非白名单爬虫均被知道禁止拜访百度百科的数据。尽管360搜索无在封禁列表中单独列出,但百度百科的策略是禁止一切非白名单爬虫抓取,因此360搜索和其他搜索引擎亦都是被屏蔽的。
尽管百度百科采取了以上办法,但有业内人士指出,这些办法可能只能防止大部分合法的爬虫抓取,没法完全阻止哪些经过特殊手段绕过限制的小型爬虫继续获取内容,用于AI训练。返回外链论坛:www.fok120.com,查看更加多
责任编辑:网友投稿
|