火车头采集网站内页url(图文)教程! -世界杯365买球

seo工具 10-24 15:20:00

导读:通过火车头采集器,采集网站指定栏目下的url,对采集到的url进行分析,查看收录未收录情况,针对未收录的url进行处理,促进收录。

如果栏目页没有规则,需要单条处理。一般来说,栏目页分类都有一定的规则。

对于企业站优化来说,常更新的栏目即为资讯页面,每天都会更新一些资讯,时间久了,我们也不了解哪些是否被收录,哪些没有被收录,尤其对于大批量更新的网站。下面小编就来讲解一下,如何通过火车头进行url采集,案例站www.hdfj11.com

1、下载火车头采集器

自行搜索下载即可。

2、登录火车头

不需要注册,直接登录即可。

3、点击--新建--新建分组--命名分组“url采集”
3新建分组.png
4、点击选中--url采集--点击“新建”--新建任务,此时弹出新窗口,命名任务名为:华东风机标题url采集
4新建任务.png
然后点击“添加”,如图:
5-0点击添加.png
5、此时会出现新窗口,“添加开始采集网址”--“批量/多页”选型卡,
因为我们采集的资讯页面,直接进入“华东风机”网站的“资讯”页面,将资讯页面的第一页url填写进去,然后选中“1”,使用通配符替换。
5-2采集10页.png
6、修改“项数”为10,这里我只采集10页的文章url。 然后点击“添加”,“添加”完成之后,然后点击“完成”。
注:案例网站按照等差数列来的,所以,按照第一项的规则即可。
6通配符更换.png
7、点击“完成”回到这个界面,然后点击下面的“测试网址采集”,如下图所示,选中一条点击“测试该页”。
7测试该页.png
8、进入该页面之后,然后选中“出处”点击左侧“删除”,选中“时间”点击左侧“删除”,选中“作者”点击左侧“删除”,选中“标题”点击左侧“删除”,只留下“内容”,然后勾选上“添加为新记录”
8删除多余项.png
9、选中“内容”,点击“修改”,弹出下图:
9编写规则.png
10、这条是重点,我们选择的采集规则是前后截取,返回到网站,然后进入栏目页,ctrl u查看源代码,找到文章标题url,选中一条标题网址url前面的代码,复制粘贴到火车头“开始字符串”选框中。


同上原理截取后面的代码复制到“结束字符串”选框中。

11、完成上面的工作如下图所示:然后点击“确定”

12、点击“测试”,如下图所示:

13、点击火车头选型卡,然后进入“第三步发布内容设置”,启用第二种方式,保存到本地为表格,点击几下就可以完成,具体步骤不再填写。最后点击“保存”。

14、返回到这个界面,如下图所示:

15、最后选中任务,点击上面的“开始”,或者右键“开始任务”,即可!

16、整理采集到的url


小结:采集到了这些url,然后通过网销客软件或者奏鸣网,批量查询收录情况,然后将标题url导出到表格,针对未收录的url进行处理,可以去站长平台提交,也可以拿去发外链。


qq群交流:343524707  文件下载