火车头采集搜狐作者世界杯365买球主页的文章,2022年更新,高级玩法! -世界杯365买球

seo工具 04-08 14:31:00

souhu.jpg

火车头采集搜狐号作者世界杯365买球主页的文章,一直可以流畅使用,但是就在前几天,搜狐的文章图片全部被加密了,导致搜狐的规则使用体验不太好了,因为淘小白也有客户在用,反馈之后就开始找解决办法了。


之前写过一篇搜狐作者世界杯365买球主页采集规则的编写方法,按照这个方法,还可以采集到文字内容,但是图片弄不了了。


在这里:http://i-uni.cn/post-680.html


下面就和大家来说一下,怎样采集到搜狐作者下面的文章,这次用了新玩法,整体的逻辑会告诉大家,但是需要大家自己去尝试,因为不同电脑会存在不同的情况,还需要多多尝试才行,下面来说一下逻辑:


1、pc的文章内容不行了,那就抓app


这也是我首先想到的解决办法,那就直接上手,模拟器、fiddler、搜狐app,抓包,直接上手会发现,只要使用代理,app会直接报错,禁止抓包,现在大部分的app都是这样的,所以,还得解决这个问题。


2、安装xposed justtrustme插件


这两个东西,可以解决抓包错误的问题,但是过程可能有些坎坷,淘小白很早之前就知道这两个东西,但是经过多次尝试,经常出现错误,这个问题也是纠结了很久,有空就去尝试一下,我这边把注意点整理一下,注意这几个地方,你会省去很多麻烦事!


使用夜神模拟器(别用其他的)

直接官方下载xposed,安装完成之后,官方会弹出使用教程,点击链接进去了解,

使用安卓5.0版本

justtrustme插件网上下载,安装到模拟器

fiddler证书在模拟器上安装


以上几个点非常重要,运气好一次成功,运气不好,就折腾起来~


3、能够抓包app还没完,麻烦的在后面


搜狐世界杯365买球主页进去之后,就开始分析数据了,分析数据永远都是最麻烦的,需要对数据包进行分析,本来之前的规则没法用了,主要是因为搜狐内容页的问题,想着就直接把内容页的网址给替换过去就可以了吧,但是分析了一下,行不通,pc内容页的网址和pc内容页的网址id不同,这就麻烦了,那就需要单独从app爬数据了。


4、搜狐作者世界杯365买球主页批量的规律


一般的网址列表页都是有规律的比如,https://www.........page=1,https://www.........page=2,https://www.........page=3。。。

搜狐app作者世界杯365买球主页列表的规律和头条作者世界杯365买球主页列表规律相似,第一个列表页中抓包数据中,带着下一个列表的分页字段,需要在第一个列表获取,然后自动分页下去就可以了,火车头可以轻松解决。


5、搜狐内容页网址


搜狐内容页网址的变化规律是通过一个id实现的,然后内容页网址还自带了作者的验证信息,我们在采集的时候,需要单独抓包一下作者的一个文章页地址,然后替换掉变化的id,就可以了,不同作者需要进行不同的内容页网址,这个也是相当麻烦了。


备注:也可能是我没有分析出来,昨天分析数据分析的头昏眼花,规则能用就没再继续折腾,有兴趣的朋友,可以去折腾一下。


6、图片文字分离


搜狐作者世界杯365买球主页的文章抓包的数据,和哪一个平台类似来着,我记不太清楚了,也是图片和文字分离出来的 ,数据在一个json包中,本来想用插件做一下处理,但是后面想了想太麻烦了,直接循环匹配p标签,再循环匹配img标签,再让这两个标签再循环组合,就把图片和内容拼合在一起了,虽然不是原文的样式,但是图片和文字都是带着的。


有些朋友喜欢用搜狐的文章,有些朋友不喜欢用,我之前一直在用,其实会收录的,原封不同的搬过来都会收录,对这些作者每天监控采集新数据即可。


确实挺折腾的,后面淘小白也陆续抓包了一下之前不能抓包的一些app,虽然数据就在眼前,但是从看到到抓到,相差很远,需要具备非常多的知识才能够顺利提取到数据,爬虫这行,真是懂的越多越好