火车头采集器怎么用?
软件程序的获取:大家可以从百度中搜索“火车头采集器”,并进入对应官方来获取程序的最新版本下载地址。当然也可以从小编所提供的网盘地址中获取最新版本程序:请点击输入图片描述请点击输入图片描述2安装并运行“火车头采集器”程序,在弹出的登陆界面中直接点击“登陆”按钮就可以以免费版身份登陆。请点击输入图片描述3在程序主界面中,点击“新建”下拉箭头,从中选择“任务”项。请点击输入图片描述4在弹出的窗口中,输入“任务名”,同时点击“起始网址”栏目右侧的“添加”按钮。请点击输入图片描述5接下来就极为重要的一步,就是对要进行采集的网站进行分板,对所采取的网站中各片文章的URL进行综合分析并找出规律,最后按如图进行填写。请点击输入图片描述6然后切换至“第二步:采集内容规则”选项卡中,我们需要对网页内容进行分板。在此以“搜狗浏览器”为例,右击要进行分析的网页,从弹出的菜单中选择“审查元素”项。请点击输入图片描述7在“开发式模式”界面中,点击“选择页面中的一个元素去透视”按钮,接着点击“标题”内容,此时就可以在“开发者”窗口中显示标题所对应的标签,此例为“h2"。请点击输入图片描述8接下来在”采集内容规则“界面中,点击“添加”按钮来添加“标题”项,或者直接双击“标题”项进行修改。在弹出的界面中,勾选”前后截取“,将设置前后辍分别为"“、”".请点击输入图片描述9利用同样的方法添加其它采集内容的规则。切换至“第三步:发布内容设置”选项卡,勾选“启用 方式二”,并进行如图设置。请点击输入图片描述10最后从任务列表中,勾选要采集的内容,点击“开始”按钮就可以按规则采集网站中的网页内容啦。请点击输入图片描述如果还有啥问题,请留言或者私信,如果回答的还算可以,请列为最佳答案
如何使用火车头采集器采集网页图片详细图文教程
火车头采集器采集信息分两个步骤:
1,采网址。这一步也是就告诉软件,有多少个网页需要去采,并给出具体的网页地址。
2,采内容。有了网址之后,就可以去这个网址上采集信息了,但网页上信息众多,软件不知道你想采哪些。在采内容部分,就要做规则了。告诉软件我想采什么。
1,采网址。
网页上的产品信息就是所想采的,即为目标。
在采集链接页面里,输入采集地址的列表页,这里要注意无用链接的过滤。
然后点击测试按钮测试所填信息的正确性:
测试正确以后,我们对地址进行扩展,现在我们只不过是采了一张列表页的文章地址,还有其它的列表要需要采集,其它的列表页就在它的分页上,我们观察这些分布的链接形式,找出规律,然后批量填入网址规则。
2,内容的采集
经过上面的处理,目标产品页的链接都已经能够采到,下面我们进入内容的采集。
明确好要采集的内容以后,我们开始编写采集规则,火车头采集内容是采集网页的源代码,因此我们要打开产品页的源代码,找到我们要采集信息所在的位置。比如,Description字段的采集:
找到Description的位置,找到之后,如何填写采集规则呢,很简单,只要将采集目标的开始字符串与结束字符串填入采集的对应位置。这里我们选取Description:作为开始字符串,为结束字符串。值得注意的是,开始字符串必须在本页面是唯一的,并且在其它产品页面也存在这个字符串。本页面唯一能使软件找到要采集的位置,其它页面通用,保证软件能够采到其它页面的数据。
填完以后并不表示就能采集正确了,还需测试一下,排除一些无用数据,排除可在HTML标签排除和内容排除中进行。测试成功后,这样一个标签就制作好了。
这里我们使用通配符来实现这一要求。我们把不通用的地方用(*)通配符来表示任意。而要采集的地址我们用参数(变量)来表示。最后我们将这段内容变为:(*)Compare Prices(*)Product Details,填入模块,并测试是否成功。
如果测试没有成功,那说明你填入的内容还不符合唯一且通用的标准,还需要调试。测试成功以后,可以保存,进入标签的制作了。
这里的标签制作与上面的是一样的,找到要采集信息的所在地,填入开始结束字符串,并做好过滤,唯一的不同的在于所属页面选项里要选择刚才制作好的模块,这里就不赘述,直接显示结果了。
这样标签就制作完成了。点击更新以后,去掉发布选项,就可以进行任务的采集了。
火车头采集文章怎么发缩略图
亲你就差一步操作了,具体步骤如下,版本不一样但是基本都是一样的操作。在采集内容规则设置缩略图步骤如下 第一步第一步双击打开这个缩略图标签第二步第二步选择添加,里面有个高级功能 选择就会看到提取第一张图片,然后选择!最后别忘点击确定第三步然后试试 就可以提取第一张为缩略图了。纯手工,也是根据你的图片个人摸索的 希望采纳!
火车头如何采集还有缩略图的文章呢
1、首先在采集列表页的源码中将带有缩略图的那部分源码复制下来,如图:2、查看网站的源码,找到这行代码,如图:3、打开火车头,进入采集网址规则—添加多级网址采集规则,选中手动填写链接地址规则,并将第二步骤中选中的代码粘贴进去,如图:4、将代码进行如下修改:5、改好后保存并进行采集测试,如图所示6、然后再在采集内容规则里进行修改,选中“缩略图”标签,打开,进行内容替换,如图:7、然后点击文件下载,选中下载图片,并填好缩略图保存路径及命名方式,如图:8、在“文件保存及部分高级设置”里设定缩略图的保存盘符及其前缀,我设定为桌面,前缀为“./”,如图:9、我们保存后测试一下,一起顺利,缩略图顺利采集下来了
火车头采集器怎么过滤删除无用信息
火车头采集器怎么过滤删除无用信息?大家在使用火车头采集器的过程中难免会遇见某些无用的信息或者是自己不想要采集的数据,但是因为各种各样的原因而无法避免。
对于文章内容页出现的垃圾信息,我们可以通过内容替换功能将其删除。
相对进阶一点的使用替换功能过滤删除垃圾信息还可以使用星号功能来进行模糊删除,
举例,我们通过采集规则设置需要采集一批新闻内容,结果这些新闻内容的标题中混入了几个软件下载地址,这时候我们利用过滤功能就能够方便的解决问题。
我们可以打开标题标签的编辑界面,选择内容过滤,在不得包含的内容中填入下载,这样在标题中所有包含“下载”字样的标题就会被过滤出来。
之后,我们在详细设置中对于过滤处理选择删除,就可以删除这些我们不想要的采集内容。
合理利用火车头采集器自带的过滤垃圾信息的功能,就可以大大提高我们的采集质量,避免了人工审核内容的烦恼。
火车头采集图片不显示是什么原因?
你设置了下载了吗? 你是想把图片下载下来还是只是想采集图片的网址呢? 火车头很强大 不可能采集不到 如果你是采集地址 要看源地址是绝对路径还是相对路径 如果是相对路径 那么你采集下来的地址就要加上你采集的目标网站图片才能正常显示 希望对你有用 看我的网站 百度搜 女人淘宝屋 就能看见 上面的图片都是采集的 有什么不懂得可以给我留言
火车头采集下来怎么发布到网站上?
1、运行火车头软件,点击发布到发布窗口界面;
2、点击添加,依次选择发布接口,选择网站编码、填写后台路径、(因为是免登陆接口)选择不需要登录&http请求,然后获取列表看看是否成功,成功后请保持配置。
(注意:如果无法获取列表说明没有配置成功,检测接口文件是否上传,后台路径是否正确等)
3、如果你需要同时发布到多个网站,请重复2操作,原则上可以发布N个。
4、配置完发布接口后回到火车头界面,双击你要发布的采集规则,进入采集规则 编辑任务窗口,切换到第三步:发布内容配置;
5、点击 启用 Web在线发布到网站,然后添加发布配置,在弹出Web发布配置窗口选择你你的发布配置,点击添加,多个网站发布可以多选;
6、双击你添加的网站发布,点击获取列表 绑定你要发布到网站的指定栏目的栏目ID,保存规则,到此你的采集规则发布到网站已经配置好了;
7、如果你要一条采集规则多个网站发布就重复第6步,原则上可以发布N个站。
火车头怎么排除采集到失效的图片?
为了得到一个标准的内容,在采集上必须下足功夫才行!
我对标准内容的衡量:
1.每一个段落都是
2.没有多余的HTML标签和与主题无关的字符
提取数据方式
选择 正则提取,组合结果填[参数1]
有些内容开始和结尾并没有p标签,换行是用br标签来完成,所以我们要创造p标签
数据处理
第一步把火车头默认的HTML标签排除中没有的标签都替换为空;如果发布到免费平台,还要过滤些无法转换的HTML特殊字符;另外就是与正文无关的内容,如中间的广告什么的也可在这里清除。
纯正则替换 |||[\s\S]*? 为空
其中'[\s\S]*?'是去除与正文内容无关的规则案例,不用的话可以去掉;要去除HTML特殊字符,在末尾加入'|&.*?;'即可
第二步:把非标准的段落标签替换为标准的p标签。
1、把普通换行替换为段落换行,用内容替换
2、把形式的标签都替换成,同时也要替换为
内容替换 div(*)> 为 p> 内容替换为
那么这里我为什么不用纯正则 div.*?>|p.*?> 替换为 p> 呢,因为比较常出现的
第三步:清理工作
1、HTML标签排除
点击全选,把 '所有标签
2、清理p标签前后的空白字符,如果不清理干净会影响到后面的规则
纯正则替换 \s*()\s* 为 $1
3、删除所有空段落
一般情况下只要设置了 内容替换当文中出现嵌套标签
如果这组嵌套标签出现在正文中间,这问题不难解决,只要在
){2,}|(){2,} 为 $1$2 这样无论嵌套多少层标签,最终都只剩下一对,之后内容替换
如果出现在文章开头或结尾,那就比较麻烦了。为了照顾非p标签换行的文章,我们在正则提取时已经设置好 组合结果为
[参数1],那么一旦出现嵌套标签,会出现如下情况
1、针对采集页的规则,从一开始就把这些嵌套标签替换为空。缺点是不同网站的采集页规则不同,工作量就增强了。
2、进行多次
符合我们的要求。一般设置3次够了,大多数网站的标签不会超过3次嵌套。需要注意的是,采用这种方法就需要把多个p标签替换为1个的正则替换规则往后移。
3、清理多余的p标签,纯正则替换
只要连续出现2个以上的或都会替换成一个
4、清理可能出现的标签,并把文中所有连续2个以上的空格过滤掉
纯正则替换 |\s{2,} 为空
p标签和img标签外的所有标签都会被过滤掉,不用担心有杂七杂八的标签出现
为什么要选择2个以上的空格替换为空呢?因为文章中出现一个空格是有利于整洁的,如果包含英文那就更需要留这个空格了,而2个以上的空格一般是多余的,对正文没有意义。