1.介绍火车头
什么是信息收集?
3.什么是火车头?
4.火车头是干什么的?
5.定制火车头规则
6.规则编写流程
7.详细采集网站
8.详细说明采集内容
9、注意事项
火车头是什么?

我们打开一个网站,看到一篇文章很好,所以我们复制了文章的标题和内容,并将文章转移到我们的网站上.我们的过程可以称为收集,将他人网站上有用的信息转移到自己的网站上;互联网上的大部分内容都是通过复制、修改和粘贴的过程产生的,因此信息收集非常重要和普遍,我们平台上发送的大多数文章都是这样的过程;为什么很多人觉得新闻更新很麻烦,因为这项工作是重复的,无聊的,浪费时间;
火车头是中国用户数量最多、功能最完善、网站程序支持最全面、数据库支持最丰富的软件产品;现在是大数据时代,它可以快速、批量、大量地获取互联网上的数据,并以我们需要的格式存储;简单地说,对我们有什么用?我们需要更新新闻和发商机。如果你准备1000篇文章,你需要多长时间?5个小时?火车头有规则只需5分钟!前提是有规则,所以首先要学会写规则。如果写规则数量多,一个规则几分钟就好了,但是刚开始学的时候会比较慢;
名称解释和规则编写流程
n以火车头8.6版为准 第一步:打开-登录 步骤2:新建分组

第三步:右击分组,新任务,填写任务名;

第四步:写收集网站规则(获取起始网站和多级网站)

第五步:写收集内容规则(如标题、内容)

第六步:发布内容设置:
勾选启用方式二
(1)保存格式:一个记录保存txt;
(2)自定义存储位置;
(3)文件模板不动;
(4)文件名格式:点右侧倒立笔型;
(5)可以先选择文件编码utf-8.如果测试时数据正常,但保存的数据有乱码,则选择gb2312;

第七步:采集设置,均选100;
a.单任务收集内容线程数量:同时收集多个网站;
b.收集内容间隔时间m秒:两个任务的间隔时间;
c.单任务发布的内容线程数:一次保存多少数据;
d.发布内容间隔时间m秒:保存数据两次的时间间隔;

注:如果网站有防屏蔽采集机制(如果数据很多,但只能收集部分,或提示页面可以打开多久),则适当调整a值和大B值;
第八步:保存、检查和开始任务(如果是同一组,可以分组选择)

以前的方式:比如要准备n篇文章,首先要找出这篇文章在哪个网站(比如收集同行A或者同行A)B),它在哪个栏目下(如产品信息或新闻信息),在这个栏目下有n条信息,我想选择哪一条,然后复制标题,复制内容到另一页复制标题内容,等等,然后我想执行相同的过程n次;
如何转换:如何将此过程转换为软件操作?我想准备n条新闻,这表明我想要n个标题+相应的内容是n个新闻链接。这个新闻链接是从一个网站的新闻栏中找到的,而这个网站的新闻栏可能有很多页面,比如10页,然后从同行a的网站-栏目-内页;也就是说,首先找到要收集的网站,打开网站的栏目页面(确定是收集新闻还是产品),在网站规则收集栏下编写所有新闻链接,然后编写内容规则收集所有新闻链接中的标题和内容,最后保存;
网站详解-具体操作
找到要收集网站的栏目页面,比如新闻栏目
复制列的第一页链接url,添加起始网站右侧的中点,在单个网站中粘贴栏的第一页链接,如
用右边的(*)替换,因为第一页已经添加,还有9页,所以在等差列中将项数改为9,第一个项目是2(因为第二页的链接是,然后点击添加-完成;

1.点对应右侧的添加,然后示例如下图所示,说明右侧的大图;

2.保存后点击右下角
看看能否收集到新闻网站,
如果可以收集,则正确,双击新闻网站进入下一步;如果收集不正确,返回修改直到成功;网站过滤可以观察相应的规则;

1.在收集内容规则后,选择作者、时间和来源并删除它们,边的第一张图片,因为这些标签在正常情况下不能使用;
修改标题标签点,或直接双击标签进入编辑界面;

3.不要更改进入标签名的标题。更改后,应更改相应的模板;
4.以下数据提取方法:前后截取,开始结束字符串,尽量使用默认情况,不熟练时不要更改;
5.点击以下数据处理的添加-内容替换,如右图所示;
6.内容替换将标题后面的所有内容替换为空。如果不替换,则收集页面title,此时,您需要打开两个新闻页面,看看这两个新闻页面的公共部分是什么,并共部分
例如,以下两个标题, – 是公共部分,即用空代替;
您知道螺旋加料机的加工方法吗? 你知道螺旋加料机的原理吗?
气动加料机的优点是什么? 你知道粉末加料机的工作原理吗?

1.选择内容点编辑,或直接双击进入内容标签编辑界面,不要更改标签名称;
2、写开始和结束字符串,是找到所有的新闻,在所有的新闻页面,是唯一的字符串;即页面模板中唯一的代码串;

例如:在收集内容时,您需要选择内容区域,因为您可能需要收集n篇文章,如100篇文章。此时,您需要思考如何写一个收集到所有内容。方法是打开两个新闻链接,如查看第一条新闻的源文件,找到新闻文本,然后向上找到最接近新闻第一句话的代码(如果不是唯一的,软件能知道从第一个开始吗?),但不是新闻的内容,比如<div id=“zoom”>,复制后,搜索第二个新闻页面源文件,看看是否有,如果有,可以使用;找到新闻的最后一句话,找到最近页面上唯一的代码,搜索第二个新闻页面源文件,如果有,可采用;数据处理:由于收集了其他网站的信息,可能有其他网站的信息,如公司名称、联系信息、品牌等信息,也可能有其他网站的超链接等信息,此时需要过滤信息;数据处理-添加-以下相应的参数HTML标签过滤:滚动轴横向拉到最后,在所有标签前钩后确定;内容替换:用自己的信息替换本网站的信息。原则是先完整后拆卸,包括公司名称、电话号码(拆分)、手机号码(拆分)、电子邮件、公司地址(拆分)、品牌名称、网站(拆分);拆分意味着拆卸和更换此数据。此时,需要进行以下更换:因为在新闻中,是时候拆卸和更换它们以便更换它们,你可以看看他的新闻中可能使用的格式;
注:数据处理有很多技能,需要在使用过程中思考,是收集的核心,如果处理不好,可能是为他人做婚纱,所以必须仔细观察,综合考虑,如果处理好,收集文章甚至可以直接发布(不是自己的企业站)
注意事项()
1.右击分组:下图菜单会出现,可以正常使用;
新任务:在这个小组中新任务;
分组下的所有任务:顾名思义;
新任务:在分组下重建分组;
编辑/删除分组:编辑/删除当前分组;
导入/导出分组规则:可导出当前分组下的所有任务,并导入同一版本的火车头;
将导出的单个任务导入分组;
粘贴任务分组:复制任务后,可粘贴多个相同的任务,然后粘贴任务编辑;

开始任务:和菜单栏上的开始一样;
编辑任务:编辑已编写的任务;
导出任务:您可以导出当前规则并在同一版本的其他工具上导入,但在导入数据时,您需要重复上述步骤6-发布内容设置,您必须重新选择/填写;
将任务复制到粘贴板:复制后,选择任务组并右击,将不同数量的任务粘贴到组中,避免多次编写相同的任务;
清空任务的所有收集数据:如果以前收集的任务想要重新收集,则需要先清空;

3.其他设置:点击顶部菜单栏中的工具选项,配置全局选项和默认选项;
全局选项:可同时调整最大运行任务,正常为5,可不调整;
默认选项:是否忽略大小写点;

2022-03-20 10:43:31
admin
328次阅读