如何编写蜂集的采集模块
蜂集采集是一款全自动的wordpress采集插件,如果还没有下载,可以去蜂集采集下载页面去下载。想要采集,首先从添加采集模块开始,本文将介绍蜂集采集器如何添加采集模块!
安装蜂集采集器后,后台将会新增一个名为“蜂集”的菜单。依次进入 蜂集 -> 采集模块 中,点击“添加文章采集模块”按钮来创建一个新的采集模块。
一个完整的采集模块需要设定:基本信息、列表规则、内容规则。
设置基本信息
基本信息由规则名称和网页完整性检测两个填写项,如下图
规则名称为必填项,这里以采集腾讯新闻为例子。规则名称填写腾讯新闻采集,网页完整性检测是为了确保下载的网页是完整的,避免采集失败。一般情况下不用填写,如果您发现采集的时候很多网页都没采集到内容,那么你需要在网页完整性检测中填写</html>或者网页最后面一些标志性文本。 简单来说,一般不填,出现经常网页采集不完整填写
编辑列表规则
点击列表规则,进入列表规则编辑栏。列表规则的作用是收集一些内容页面的链接供我们后续采集。
以腾讯新闻为例子,我们用chrome打开腾讯新闻的首页 www.qq.com。
打开网页之后,再打开chrome的开发者工具(windows通过按F12或者ctrl+shift+i,MAC通过cmd+option+i打开)点击开发者工具左上角的小箭头,然后把鼠标放在你想要采集的链接上,你就能看到这片链接所处的区域和格式了。
我们发现列表页里面链接的特点,发现新闻链接都包含new.qq.com和html,我们可以在网址包含里面写上 new.qq.com&&html,意思是同时包含new.qq.com和html。如果我们只需要采集入口页面的地址,那么可以勾选终止列表获取,这样这个规则就不会对下一级的网页生效。网址区域大部分情况下可以不用填写,一般来说使用网址包含/不包含,标题包含/不包含足够覆盖大部分场景,如果场景必须要填写网址区域,那么此处的网址区域是一个正则表达式。
最终效果如下图,请根据图填写在你的采集规则中
接下来可以测试一下链接获取是不是正确。点击抓取测试,然后填上文章测试地址,这里填写https://www.qq.com,由于这个是我们的入口页面,因此层级为0(注意,层级从0开始,从0级页面上获取到的页面层级为1,从层级为1的页面获取到的地址层级为2,以此类推…)。
填写之后点击抓取测试,你应该可以看到下面获取到的链接和标题了,如下图。
编辑内容规则
我们最终都需要采集内容,因此内容规则关系到我们采集的内容。下图中,内容规则的左侧是采集的字段名称,默认涵盖了wordpress的文章基本信息字段,title为文章标题,content为文章内容,category为文章分类,tag为文章标签,author为文章作者。
采集标题: title
标题用h1匹配,系统已经给了你默认值,大多数情况可以不用更改,使用系统默认的即可。如下图
如果网页的标题不是h1,可以使用多种方式去匹配您需要的内容,蜂集支持使用正则,xpath,固定字符这三种方式。
采集正文:content
conten可以使用自动获取正文的方式,该方式可以智能分析网页中的正文,自动获取,蜂集采集器默认已经将该选项设置为是,如下图:
一般情况下,以文本为主的网站大多可以使用智能获取正文来抓取正文,如果只能获取抓取不到,您还可以使用正则,xpath来获取。
如果此时用正则或者xpath,那么请把智能获取正文选择为否,否则下面的规则不会生效
同样的方式,您还需要设置category, tag, author 这三个,这里就不再赘述。
测试采集
当所有的规则都编写完毕之后,我们需要验证一下采集器是不是可以根据该规则正确采集,进入测试抓取Tab,填写链接和页面层级,点击抓取测试,查看效果,如下图:
如果对采集器有使用上的疑惑,可以到蜂集采集交流群(群号在采集器的关于我们中可以找到)进行交流。
你可能还喜欢下面这些文章
imwprobot(蜂集)是一款功能强大的全自动智能采集插件,专为WordPress设计。它能在服务端自动运行,无需人工监督或额外的电脑环境。主要特点包括全自动无人值守定时采集、自动同步目标站更新、AI自动生成关键词和摘要等。蜂集支持多种站点
如下图:现在我们可以建立一个简单的采集任务,我们现在可以采集一个新闻网站。现在可以添加任务,采集模块和发布模块选择我们刚才建立的模块,如下图:填写完毕之后,点击提交即可。
wordpress本身并没有采集功能,不过可以通过插件来实现采集功能,目前wordpress上比较好的采集插件是imwprobot(蜂集采集),可以实现全自动采集,虚拟主机也可以运行。
首先我们需要找到分页链接和其他链接不一样的地方,例子中的分页的链接都有“page”这个单词而其他的链接都没有这个单词,那么我们在列表规则中的链接包含框填上“page”,这样就可以采集到所有的翻页链接,如下图:填写完了之后,我们将测试的链接填入
设定作用任务名称为任务设置一个名字入口URL采集插件抓取的第一个网页,也就是采集入口采集模块这个任务都会使用这里绑定的采集模块去采集发布模块这个任务都会使用这里绑定的发布模块去发布文章发布状态设置这个任务下的文章发布时候的发布状态添加任务完成
在新建发布模块的时候,可以看到左侧有标题、正文、分类目录等信息,这个时候将采集的字段填写到右侧的内容框即可。在没有新增自定义的采集字段的时候都可以使用默认发布模块,默认发布模块只保证标题,正文有值即可发布。
比如我们使用首页测试一下抓取,可以看到下面抓取了很多链接我们再用内部文章页面测试抓取,可以看到下面依然有新的链接第二步:设置正文规则如果你懂XPath或者正则,那么写一个抓取正文的规则是一件很容易的事情。
spm=a2oq0.12575281.0.0.4ace1debEFUDXU&ft=t&id=618722676249收费标准时长原价优惠价折扣1个月9.99.9无1年118.899.08折2年237.9179.07.5折3年3