蜂集采集器视频逐字稿

更新于 2021年10月16日 未分类

欢迎使用蜂集采集器,现在给大家分享蜂集采集器的使用教程。

一个完整的采集需要采集模块、发布模块和任务组成。首先,我们添加一个采集模块。

蜂集在安装的时候自带一个通用网页采集模块,新手可以从修改通用网页采集模块开始。

基本信息这里有规则名称,默认不需要修改。

下一步是列表规则,列表规则是我们获取文章列表的规则,这里以lz13为例子,我们采集它里面的所有文章,

打开目标采集站,打开调试模式,windows按f12,mac按command+option+i,可以看到它里面的链接规律是以html结尾,那我我们就在网址包含里面写上.html,为了不采集器到外站的地址,我们还可以添加一个限制,让采集到的链接里面包含域名,通过两个and符号组合就可以达到目的。

接下来我们添加内容规则。

蜂集采集器内置了wordpress的主要字段,先从文章标题开始,打开目标采集站,打开文章页面,打开调试模式,可以看到它的标题是h2,但是需要确认一下这个页面是不是只有一个h2,打开源代码,搜索h2,可以发现这个页面有多个h2,搜索一下h1,发现只有一个h1,正好是我们所需要的标题,于是标题部分不需要修改。

现在匹配一下正文这部分,蜂集可以自动适配大部分的正文内容,如果不是特别难匹配的页面,这里可以选择智能获取。

接下来是分类页面,还是打开目标站点的调试模式,可以看到分类的规则是分类后面的字符,规则可以这样写。

都弄好了之后就可以找一个页面测试一下。

复制首页链接,看看抓取的链接是什么。

再复制一下正文链接,看看抓取的内容是否符合预期。可以看到,基本符合预期,那么就可以保存了。

接下来介绍一下发布模块,发布模块是将采集到的字段转换成wordpress的发布字段的步骤。蜂集采集器内置了一个默认的发布规则,发布普通文章可以不用修改,直接使用这个默认规则。

接下来可以开始创建一个采集任务了,还是以lz13为例子,添加任务名称,添加入口地址,入口页面间隔可以不用改,正文抓取间隔可以不用改,选择采集模块,选择发布模块,选择草稿,任务选择暂停,后面我们测试好了再选择自动执行。

回到任务列表,点击手动执行,可以看到任务已经在执行了,如果我们不离开这个页面,任务将会一直执行下去。现在我们可以去看看采集到的文章,可以看到文章已经入库了。现在已经没问题了,我们可以点击开始,任务将会在后台执行。

进入文章,可以看到任务已经再后台自动运行了。

你可能还喜欢下面这些文章

蜂集采集器,一款全自动的wordpress采集插件蜂集采集器,一款全自动的wordpress采集插件

imwprobot(蜂集)是一款功能强大的全自动智能采集插件,专为WordPress设计。它能在服务端自动运行,无需人工监督或额外的电脑环境。主要特点包括全自动无人值守定时采集、自动同步目标站更新、AI自动生成关键词和摘要等。蜂集支持多种站点

蜂集采集器快速入门蜂集采集器快速入门

如下图:现在我们可以建立一个简单的采集任务,我们现在可以采集一个新闻网站。现在可以添加任务,采集模块和发布模块选择我们刚才建立的模块,如下图:填写完毕之后,点击提交即可。

如何编写蜂集的采集模块如何编写蜂集的采集模块

测试采集当所有的规则都编写完毕之后,我们需要验证一下采集器是不是可以根据该规则正确采集,进入测试抓取Tab,填写链接和页面层级,点击抓取测试,查看效果,如下图:如果对采集器有使用上的疑惑,可以到蜂集采集交流群(群号在采集器的关于我们中可以找到

蜂集添加自动采集任务蜂集添加自动采集任务

设定作用任务名称为任务设置一个名字入口URL采集插件抓取的第一个网页,也就是采集入口采集模块这个任务都会使用这里绑定的采集模块去采集发布模块这个任务都会使用这里绑定的发布模块去发布文章发布状态设置这个任务下的文章发布时候的发布状态添加任务完成

蜂集采集器发布模块是什么蜂集采集器发布模块是什么

在新建发布模块的时候,可以看到左侧有标题、正文、分类目录等信息,这个时候将采集的字段填写到右侧的内容框即可。在没有新增自定义的采集字段的时候都可以使用默认发布模块,默认发布模块只保证标题,正文有值即可发布。

wordpress支持采集吗wordpress支持采集吗

wordpress本身并没有采集功能,不过可以通过插件来实现采集功能,目前wordpress上比较好的采集插件是imwprobot(蜂集采集),可以实现全自动采集,虚拟主机也可以运行。

蜂集设置采集分页列表方法蜂集设置采集分页列表方法

首先我们需要找到分页链接和其他链接不一样的地方,例子中的分页的链接都有“page”这个单词而其他的链接都没有这个单词,那么我们在列表规则中的链接包含框填上“page”,这样就可以采集到所有的翻页链接,如下图:填写完了之后,我们将测试的链接填入

蜂集采集如何进行全站采集蜂集采集如何进行全站采集

比如我们使用首页测试一下抓取,可以看到下面抓取了很多链接我们再用内部文章页面测试抓取,可以看到下面依然有新的链接第二步:设置正文规则如果你懂XPath或者正则,那么写一个抓取正文的规则是一件很容易的事情。