火车头微信公众号小说采集多本小说,怎么保存? -世界杯365买球

seo工具 10-15 14:45:00

大家好,我是淘小白(qq1290654348)

今天和大家说一下火车头公众号小说多本采集然后保存的问题。

首先我们先来看下采集要求:

1、采集章节标题和章节内容;

2、一个本小说一个文件夹;

3、小说文件夹里面每一章保存为一个记事本;

4、采集到的章节记事本用章节标题命名;

5、批量进行小说采集;

6、目标公众号:黑白文学。

按照要求的保存方式,使用火车头进行采集其实是有一定难度的,为何呢?


1、按照上面的方式必须要采集到“书名”这个标签,需在列表页进行获取,通过7.6破解版虽然可以获取,但是不一定能够实现采集;有时需要把http头写全才可以采集,这个站点也属于这种情况。


2、按照上面的要求,多级网址获取之后,必须把所有的章节网址给列举出来,也就是在采集标题和内容之前把所有的章节网址采集到;


第二条是比较难实现的,通过对该公众号的分析,采集思路如下:

多本小说列表页网址--拼接采集单本小说章节所有网址-采集章节网址-采集内容

1、抓包分析小说列表页;

2、在列表页获取到小说id,及书名标签。

3、拼接采集单本小说章节所有网址,一般的小说站点无法这样获取,但是这个站点在请求小说章节列表的最后一页时,会把前面所有的列表页地址显示出来,这样就可以直接盲猜最后一页的列表页网址,然后进行采集就可以把所有的章节网址获取到了。具体如下图所示:

黑白文学.png

4、请求出来所有的小说网址之后,采集就简单多了。

5、保存为本地时,设置自己的保存路径,保存格式按照:书名/标题 这样来进行保存就可以实现所有要求了。


注意事项:

1、采集公众号需开通vip账号;

2、通过抓包获取vipcookies;

3、测试7.6批量采集出问题,单本采集没问题,v9以上版本可以使用;

4、因在列表页获取数据,所以,免费版的v9火车头用户,不能使用,怎么办?联系我告诉你办法。

5、批量采集可能会遇到封ip或者cookies失效的情况,如果存在哪些问题,采集的数据可能就会出错,导致大量返工,所以,淘小白建议大家慎用批量采集。


有采集需求,请联系本文作者qq:1 2 9 0 6 5 4 3 4 8