火车头采集淘宝商品详情页数据!采集规则!就这1个难点! -世界杯365买球

seo工具 04-26 15:13:00

最近测试火车头爬取淘宝的商品的数据,今天终于搞定了!!!下面来说下采集过程中的难点:


须知:按照店铺-某个分类进行采集


1、产品采集列表


采集产品列表是没有什么难度的,用过火车头的应该知道怎么获取到产品列表,做火车头采集规则记住一条:源码中找不到就去抓包!


2、主图采集


产品主图采集在源码中可以找到,详情页源码中有5条主图地址,直接采集就好了。


3、难点


产品详情页的图片下载是最难的一点,需要先找到详情页图片的隐藏网址,然后把图片给提取出来,然后再把图片下载到本地,这里要啰嗦几句,淘小白 在这个难点上,鼓捣了2天才搞明白,从网上找的知识都是过期的,关于火车头淘宝商品数据的采集,真的很少!


我走的弯路:在淘宝详情页图片的采集方面,其次是在标签的拼接方面,搞得我大半夜又找出火车头的帮助手册,重新看了一遍,到最后得出结论:火车头没有我们想象的那么完美。


不过经历了2天的仔细钻研,终于还是搞定了这条采集规则,采集截图如下:

01.png02.png03.png


不想在淘宝采集规则上面浪费时间的:联系我q1290654348