火车头采集小说遇上了这种漏洞,做小说的要看下这文章 -世界杯365买球
前几天有个朋友让淘小白给采集一下分销后台的小说;
分销后台的小说可以看到一些数据,但是只是提供了部分章节,需要进行穷举章节id来进行采集,仔细分析了下,发现火车头采集规则的结束标签匹配不上;
后面发现生成图片文案,可以看到数据,但是图片文案生成只能生成一部分章节的,大部分的章节是没法生成的,打开采集的目标网址,都有报错情况出现。
告知这个朋友,无法从分销后台采集,只能通过前台来采集了。
该朋友把前台的微信公众号给推送过来,抓包分析之后,可以采集。
采集规则的要求有三个参数:标题 内容 序号;
这个是比较好弄的,因为在小说的文章页都是有这些数据的。
采集规则写完之后,发现收费的版块,通过源码可以直接采集,前台访客需要充值的部分,火车头通过请求章节网址,可以直接采集到,程序没有做数据的隐藏。
这种漏洞,对于站点来说太糟糕了;
这里告诫大家,一定要做好自己的程序检查,避免这种问题的出现。
该站点的网址不做公开,因这位朋友也是用的同样的小说系统,所以,该朋友已经把问题提交给了技术方,目前在修复中。
需要火车头小说采集规则的朋友,可以联系qq1290654348
世界杯365买球的版权声明:如无特殊标注,文章均为本站原创,转载时请以链接形式注明文章出处。