火车头采集器使用通用教程

文档目的

SO资源作者在发布很多内容平台的源码时,很多源码都附带了火车头采集器且都内置好了采集规则。但是,很多源码采集的源站有的已经关闭,有的已经进行板块更新,导致了我们分享的源码内附火车头采集器无法直接使用,需要站长有一定的修改能力。本文,就是站在这个角度,给大家提供一版通用的使用教程。大家注意,通用教程只能确保基本使用,如果大家想使用高级的一些功能,建议去火车头采集器官网论坛或阅读火车头采集器官方文档进行学习。

软件说明

火车头采集器可以说是目前市面上使用人数最多的一套采集系统软件了,主要原因是它强大的内容抓取分析能力,还有一部分原因要归功于破解版软件很多,很容易获得。

我们先看一下官方对它的说明:

火车采集器,一款专业的互联网数据抓取、处理、分析,挖掘软件,可以灵活迅速地抓取网页上散乱分布的数据信息,并通过一系列的分析处理,准确挖掘出所需数据。

实际使用过程中,专业版旗舰版的软件是十分强大的:
1.强大的采集能力;它的采集能力附带自主分析、精准挖掘,换句话就是说可以设置智能采集内容。
2.内容发布系统;支持很多内容管理平台(CMS),如:帝国CMS
3.老牌软件,活跃的社区论坛提供了非常多的精准采集规则分享,拿来即可用

安装教程

一般的内容资讯类整站源码都会自带火车头采集器并且是包含采集规则的,这时候,你无需额外安装软件,直接使用内置的即可。

大家可以直接访问火车头采集器官网下载正式版采集器,并推荐升级为旗舰版,功能使十分强大的。小编本人也十分推荐大家支持正版。但是如果你是刚起步,想学习使用一下旗舰版功能,也可以选择我们在互联网收集到的火车头采集器V9破解版下载安装,大家需要任何站长工具可以访问我们的精品软件栏目,其中有站长工具。另外,站长教程栏目也是十分有用的。

使用教程

我们这次使用教程使用火车头采集器V9版本,以采集腾讯《时政新闻》模块作为示例,大家可以在实际使用过程中,根据自己的需求来进行过程微调即可。

我们本次演示的采集任务为:

采集腾讯-时政新闻,

1.设置网址采集规则

这一步主要是设置采集的目标网址,可以是单页或者有规律的分页,什么是有规律的分页呢?网址栏里有明确的标注_1/_2或者-1,-2这样清晰表述当前第几页的标志。我们本次设置采集列表的前10页。
注意,由于本次采集的网页中第一页是没有明显的数字标志,所有在网址采集内,我加了两条采集规则,如下:

火车头采集器采集网址规则设置
火车头采集器采集网址规则设置

上一步的目的,主要是根据是通过文章列表页,来采集文章页,就是下面一张图圈出来的区域,然后再通过进入文章页采集文章内容。原理很简单,大家琢磨一下就可以很明白了。

火车头采集器通过列表采集文章地址
火车头采集器通过列表采集文章地址

那么问题来了,我们知道火车头采集器要采集文章页,整个页面链接很多,怎么去识别哪些是文章页呢?其实,现在网上很多采集工具,都附带智能识别,也就是通过框选文章列表区域,然后读取其中的a标签获取的,火车头采集器是通过设置a标签规则,来识别文章地址,如下:

我们紧接着,通过浏览器的查看源码功能(快捷键F12),然后定位到文章标题那里,具体需要有一定的查看代码的能力,在这里就不赘述了。我们定位到文章标题以后,可以看到文章链接的规则:

火车头采集器查看文章链接规则
火车头采集器查看文章链接规则

那么,我们通过查看多个文章标题,就可以得到文章链接的规则了,把规则写入火车头采集器《采集规则配置》,并且设置《手动设置规则获取》,虽然可以自动获取链接,但是精度是没有手动设置高,参照下图,你会发现我们设置的规则在a前面写了li元素,这是为了区别其他非文章的a标签影响,使得文章链接定位更准确。

<li>·
    <a target="_blank" href="http://news.qq.com/a/20201227/009985.htm">
        中英间定期客运航线航班暂停运行
    </a>
    <span class="pub_time">12月27日 17:04</span>
</li>
火车头采集器设置文章链接地址规则
火车头采集器设置文章链接地址规则

大家有没有注意到,【拼接地址】这部分,其实很好理解,我们在提取规则里面【参数】,可以用作后面使用;比如这次,我们在文章列表页获取到的是http: //news.qq.com /a/20201227/009985.htm ,但是在点击后访问地址是https的,还是有差别的,所以我们在这里设置了【拼接地址】,原理就是Https:+上面的参数,获取到真正的文章地址。

另外,上图的第③步,是为了圈定文章列表的区域,我们F12可以找到文章列表的开始,方法同找文章的地址区域,就不再描述过程了。

紧接着,我们点击【网址采集测试】,能够获取到列表页并且列表页下面有内容页,基本就是成功了

火车头采集器采集文章地址成功
火车头采集器采集文章地址成功

最后,我们设置一下网址采集【分页规则】,就可以分页采集文章地址了,参照下图:

火车头采集器分页地址采集设置
火车头采集器分页地址采集设置

点击【网址采集测试】,查看效果

火车头采集分页地址规则效果
火车头采集分页地址规则效果

2.设置内容采集规则

这部分,我们只演示正则提取以及前后截取的方法,提取文章内页的内容,其他高级功能可以参照官方文档。基本这两个可以解决80%的采集需求了。

这里,我们先演示利用【正则提取】方式,从html源码里的meta标签提取title作为我们文章的标题,如下图:

火车头采集正则提取文章标题
火车头采集正则提取文章标题

上图中,可能的难点是【匹配内容】的写法,其实这里就是写的一般正则表达式,不过软件内置了一些常用的表达式,比如最简单的参数,换成正则,就是截取【参数】所在位置的所有字符,这种方法非常适合内容就在一个固定的区域内时候的获取。

比如,我们提取html标签里面的keywords,title,description等,如下图可以看到源码:

火车头采集器采集文章标题
火车头采集器采集文章标题

提取标题比较简单,下面我们讲一下,如何提取文章内容,我们这里使用【前后截取】的方法,进行文章内容提取,首先通过F12查看网页源码,定位到文章内容区域,如下图:

火车头采集器采集文章内容定位
火车头采集器采集文章内容定位

我们可以通过多查看几篇文章,发现到文章内容都有一个很明显的模块:

<div id="Cnt-Main-Article-QQ" class="Cnt-Main-Article-QQ" bosszone="content">
文章内容
</div>

此时,文章内容就可以定位到了,就是这个div块,标志就是bosszone="content",且结束都是

结束的,我们把规则写入【开头字符串】和【结尾字符串】中,如下图:

火车头采集器文章内容采集规则设置
火车头采集器文章内容采集规则设置

其中,我们注意到【数据处理】模块,我们新增了两条规则,如果你想对采集到的内容进行处理,比如:替换文章内的style样式内容,或者去掉文章内页的html标签,可以根据实际需求选择数据处理的条件,也都很简单,大家试试就知道了。

我们点击测试,可以看到我们的采集结果:

火车头采集器文章采集测试
火车头采集器文章采集测试

如果,你做到了这里,其实采集内容的这一步已经完成了,由于我们做的是一个采集器使用的基本教程,在接下来的内容发布、其他设置会简单的讲讲一笔带过,不过深挖,因为每个CMS系统的发布规则都可能是不一样的,我们介绍一下常用的发布设置。

3.设置内容发布规则

我们可以用火车头采集器,设置采集任务+自动发布实现24小时无人值守网站内容的更新。新版的火车头V9内置了许多web发布规则,常用的建议直接选择即可,如下图。

火车头采集器发布设置
火车头采集器发布设置

注意,网站发布地址一般就是网站的网址,登录设置建议不设置。

4.其他设置

在其他设置中,一般都是比较高级但是实用的功能,大家在使用过程中,可以多看看,学一下,比较常用的是【发布设置】,这里有对发布内容管理的一些设置功能。

火车头采集器其他设置
火车头采集器其他设置

注意事项

在这里还是要强调一下,我们在使用一个工具便利性的同时,由于工具功能的不断强大,我们想要使用高级的功能,就要不断的学习和熟悉它。

本篇教程,小编在书写的过程中,也十分头疼,因为功能多,不能全面的铺开,只能把一条最简单的学习线介绍一下。如果你在学习过程中有任何不懂,可以多看看论坛,多看看教程。

SO资源郑重声明:
1. 本站所有资源来源于用户上传和网络,因此不包含技术服务请大家谅解!如有侵权请邮件联系客服!3187589@qq.com
2. 本站不保证所提供下载的资源的准确性、安全性和完整性,资源仅供下载学习之用!如有链接无法下载、失效或广告,请联系客服处理,有奖励!
3. 您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容资源!如用于商业或者非法用途,与本站无关,一切后果请用户自负!

SO资源 » 火车头采集器使用通用教程