微信公众号小说采集遇到“请从公众号访问书城”,看我怎么解决的! -世界杯365买球

seo工具 08-13 19:56:00

今天有一客户发过来一个微信公众号小说的文章链接,让我看下,能不能用火车头爬取下来,在手机打开之后,发现没有问题,十有八九是可以爬取到,一般采集这种微信公众号小说站,我都是从pc端的公众号爬取的,抓包也非常方便,但是当我在pc端打开发现是这样的:

在pc端打不开,这个麻烦了,pc客户端打不开,就没法抓到数据了,怎么办?

因为之前在安卓模拟器中抓包过app,微信的没有抓过,然后就在模拟器装了一个微信,登录上去,然后抓包居然可以顺利抓包,顺利抓包就什么都好说了。

点击图 看大图

题外话:抓包微信还是用的fiddler,需要对fiddler,还需要对模拟器进行设置,因为这其中有很多细节,这里不在赘述了。


抓到包之后,然后就开始分析了,分析列表页,分析内容页,这种站点,一般内容页的章节是需要付费的,这种情况,可以通过vipcookies解决,章节内容没有问题。


分析列表页的时候,发现,前15个章节是get请求,剩下的都是通过post请求的,一半是get一半是post请求,这在火车头中很难设置,除非用插件,淘小白仔细观察了下每个章节的特点,发现可以直接跳过小说目录页的请求,直接对章节进行穷举,每个章节最后的数字都是递增的,有200个章节,最后一章节的url最后的数字是200,那么,就直接对每个小说进行穷举就可以了。


最后,填上vipcookies可以顺利爬取了,以上写的是单本采集的,该客户是针对性的进行采集,好的热门的小说爬下来传到自己平台。


有需要采集微信公众号小说站的朋友,可以联系站长