蜜蜂采集器运用教程 - 检测百度网盘链接是不是有效
建站过程中,可能需要运用到百度网盘等第三方网盘。而不少状况下,网盘分享链接可能已然失效。倘若网站长时间存在海量失效链接,对网站用户留存的影响非常大。对此,比较好的处理办法,便是检测链接是不是有效。
本文以蜜蜂采集器为例,调用百度网盘链接有效性验证插件,实现链接有效性检测功能。
插件介绍
蜜蜂采集器的插件功能,分为列表页网址插件、数据处理插件、标签数据处理插件、文件上传插件、内容发布插件、信息通告插件。每一种插件都支持PHP、Python、Nodejs、Go四种编程语言。
其中,标签数据处理插件是在数据采集过程中对单个标签字段进行标签数据二次处理时调用的,针对的是单条数据记录的单个标签字段。
针对链接有效性检测功能,通常是在内容采集周期,对标签内容进行处理。因此,这儿是采用标签数据处理插件实现的。
插件运用说明
运用办法 添加外边程序(Python)。添加或导入标签数据处理插件,添加标签数据处理配置。python需要安装urllib3组件: pip install urllib3 。 如安装后还是提示找不到组件,可重启采集器进程。
返回内容
以网址链接形式 + 检测结果组合返回,一行表示一条检测结果。
返回结果可能包括以下字符串:检测失败,无找到百度网盘链接,检测失败,xxx,检测成功,链接状态正常。因此呢,倘若期盼所有链接必须所有有效,能够添加内容过滤:不得包含检测失败;倘若期盼最少一个链接有效,能够添加内容过滤:必须包括检测成功;倘若对无网盘链接的,亦做为成功处理,则能够先字符串替换,替换检测失败,无找到百度网盘链接为检测成功,再添加内容过滤:必须包括检测成功。
插件返回结果示例: .../s/abcdabcdabcdabcdabcdabcdabcd?pwd=1234 : 检测成功,链接状态正常
.../s/abcdabcdabcdabcdabcdabcdabcd?pwd=1234 : 检测成功,链接状态正常
.../s/abcdabcdabcdabcdabcdabcdabcd?pwd=1234 : 检测成功,链接状态正常功能实现
关于采集规则的编写,这儿略过。重点说一下链接有效性检测功能。
打开主菜单“帮忙”——“应用市场”。类型选取“标签数据处理插件”。搜索“百度网盘链接有效性”,能够看到“百度网盘链接有效性验证公共版”。“百度网盘链接有效性验证公共版”无需申请百度网盘开放平台接口权限,但有运用频次限制。选取对应插件,点击“下载”导入。
导入插件
如上图,导入时,需要指定外边程序。该插件采用Python语言实现,倘若还无安装Python,请先到外边程序管理器中,下载安装Python,再添加Python到外边程序中。导入时,意见选取“同期自动创建标签数据处理配置”。创建标签数据处理配置后,能够在“标签数据处理配置管理”列表中找到对应的配置项。
转到采集规则的编辑窗口。对某个标签,启用“标签数据二次处理”,并添加“调用插件”处理项,选取刚才配置好的标签数据处理配置,就可。点击下方的“测试”,测试是不是正常执行。如图:
调用插件
这儿调用插件后,会替换标签内容的,因此,用于检测链接的标签应该是单独的“检测”标签,仅仅用于检测有效性,不消于采集内容输出。对此检测标签,还能够添加内容过滤,例如,不得包括检测失败,则需求所有提取的网盘链接都是有效的。
至此,咱们就能够在自己的采集规则中检测百度网盘链接是不是有效了。
|