【新】火车头python插件,根据关键词全网文章组合聚合采集插件-世界杯365买球
大家好 ,我是淘小白~
最新又开发了一款插件,来和大家说明一下这款插件的功能~
1、插件测试数据网址
(https://www.hoqi8.com/msh/)这个站点全部是插件的测试数据,自从开始写插件之后,已经写了n个版本了,因为有好多个版本的插件,所以,测试的数据都发布到这里面来了,为了避免找不到是哪个插件的数据,下面单独提供一个详情页的网址,如果后面插件升级或者更新,可以看下这个典型页面的上下页。
https://www.hoqi8.com/msh/111583.html
2、插件功能介绍
首先,入口是百度,因为插件刚做出来了,只写了百度入口的插件,后面可能会陆续增加其他入口进行采集;
其次,插件自动双标题,双标题调用的是 小段落的文章标题,相关度更好一些,之前淘小白用过很多双标题的逻辑,但是都会存在少部分的问题,小标题的生成逻辑是根据原文章的标题采集百度相关词,然后对比相关度提取相关度高的关键词作为小标题,这样测试相关度更好一些。
第三,插件自动提取网页的文章内容,然后对内容做过滤筛选,得到需要的主体内容。
第四,自动配图,根据关键词自动配图,图片来源搜狗,图片可以下载到本地,也可以使用远程的图片链接。
第五、速度稳定,目前测试来说,成功率较高,并且经过条件筛选之后,得到的数据满足需求,之前写的插件通过头条采集,有些行业确实信息不全,曾经有客户反馈过这个问题,现在通过走大搜的入口,基本解决了行业文章不足的问题。
第六、按照关键词采集的,可以直接批量挂词采集
第七、这个插件已经有客户在使用了,客户反馈说要增加导读和图片的alt标签,并限定图片的宽度,高度自适应,目前已经解决,图片宽度640px,高度自适应,提取搜狗大图网址,alt标签自动匹配关键词。
第八、有朋友可能担心直接调用搜狗图片会存在网址失效的问题,这个问题已经解决了,采集搜狗图片时,会对搜狗图片网址进行测试,测试如果不是200正常访问,则丢失,提取下一张图片使用。
第九、速度大约1分钟1篇
3、插件语言
该插件使用的是python写的,需要配置python环境,购买的朋友,淘小白可以远程帮调试。
有些朋友喜欢单独使用python脚本运行程序,也可以单独转成python脚本使用,需要单独增加部分费用。
4、关于服务
远程调试安装;
免费升级维护,单独增加个性化功能,单独计费,价格100起;
长期服务,丢失包补;
5、插件价格
目前这个版本插件只有一个版本,价格:1000