蜂集采集器,一款全自动的wordpress采集插件
imwprobot(蜂集)是一款wordpress采集插件。它能在服务端自动运行而不需要额外电脑环境以及人工监督,是一款丰富站点内容的采集神器。
蜂集简介
imwprobot(蜂集)是imwpweb开发的一款功能强大的全自动的智能采集插件。蜂集就可以采集绝大部分网页内容内容,功能强大,使用简单。
有什么功能 | 1. 全自动无人值守,定时采集 2. 自动同步目标站的更新 3. AI自动关键词、自动摘要生成 4. 直接发布到wordpress,无需额外的接口支持 5. 正文图片和缩略图均可本地化 6. 每个任务中的文章图片均可设置独立水印 7. 采集到的内容均支持正则和css选择器替换 8. 翻译采集到的内容 |
可以采集哪些站 | 1. 新闻资讯站 2. 文章范文站 3. BBS论坛 4. 博客站点 5. 资源站、下载站 |
支持哪些采集规则 | 1. 正则表达式 2. XPath规则 3. JQuery选择器(CSS选择器) |
代理支持 | 1. HTTP代理 2. Socks5代理 |
哪些主机可以运行 | 没有环境限制,虚拟主机都可运行 |
简介&用法
如果不想看过多的介绍,可以直接点击右侧导航栏的 “下载安装”直接定位到下载和安装区域或者滑动到最底部进行下载。
功能模块显示蜂集所有的功能,是蜂集的主要入口。
任务列表区显示所有的任务,包括运行中的和暂停中的任务。
任务编辑区展示的是对任务进行修改,删除,查看任务下面等待采集的文章等操作。
任务状态区展示的是任务的状态,任务通常有三个状态,暂停中,运行中以及等待调度运行。等待调度的时候会展示任务还有多久开始运行。
日志区展示的是当前的采集日志,可以快速查看当前的任务运行状态,方便观测任务进度。
1.采集模块
采集模块的职责是将网页内容整理成结构化的数据。一张网页上的数据是一片文本,里面的数据是不能直接发布到wordpress的,需要提取出标题,正文,分类,图片等等信息才能发布到我们的wordpress。没错,采集模块做的事情就是根据规则提取数据!
四步骤导航区展示的是编写规则需要经历的四个步骤:
- 填写基本信息,也就是给规则起个名字。
- 编写列表规则,也就是提取列表页面的文章url地址。
- 编写内容规则,也就是提取内容页的标题,内容,分类等数据。
- 测试抓取,可以测试编写的规则是否正确,如果正确则可以保存,一个规则就写好了。
采集模块支持一些预置的过滤器,过滤文章中不需要的内容,比如链接(包括文字链),比如列表,比如一些风格不好的html代码,以及一些干扰性的文字,这些都是无法在本地直接完成的,需要服务端才能够执行。
发布模块
发布模块负责的是将采集的内容通过一定的规则转换成符合你当前wordpress支持的字段。
任务模块
任务模块是执行的最小单元。通过添加任务模块,一个新的采集任务就完成了!
下载安装
采集器依赖wp扩展(imwpf) 和 蜂集(imwprobot)。注意:必须先安装并且启用imwpf之后才能安装蜂集采集器!(重要的事情需要加粗飘红)
第一步:下载wp扩展,通过wp后台安装并且启用。
第二步: 下载蜂集采集器,通过wp后台安装并且启用。
购买授权
实验网站建议购买一年授权,长期发展建议购买永久授权!
随着功能增加,可能随时可能涨价,购买永久授权更安心!
使用教程
教程导航:http://www.imwpweb.com/tag/imwprobot-course
视频教程:https://www.bilibili.com/video/BV1kg4y1q7pZ
附录
你可能还喜欢下面这些文章
如下图:现在我们可以建立一个简单的采集任务,我们现在可以采集一个新闻网站。现在可以添加任务,采集模块和发布模块选择我们刚才建立的模块,如下图:填写完毕之后,点击提交即可。
设定作用任务名称为任务设置一个名字入口URL采集插件抓取的第一个网页,也就是采集入口采集模块这个任务都会使用这里绑定的采集模块去采集发布模块这个任务都会使用这里绑定的发布模块去发布文章发布状态设置这个任务下的文章发布时候的发布状态添加任务完成
wordpress本身并没有采集功能,不过可以通过插件来实现采集功能,目前wordpress上比较好的采集插件是imwprobot(蜂集采集),可以实现全自动采集,虚拟主机也可以运行。
测试采集当所有的规则都编写完毕之后,我们需要验证一下采集器是不是可以根据该规则正确采集,进入测试抓取Tab,填写链接和页面层级,点击抓取测试,查看效果,如下图:如果对采集器有使用上的疑惑,可以到蜂集采集交流群(群号在采集器的关于我们中可以找到
在新建发布模块的时候,可以看到左侧有标题、正文、分类目录等信息,这个时候将采集的字段填写到右侧的内容框即可。在没有新增自定义的采集字段的时候都可以使用默认发布模块,默认发布模块只保证标题,正文有值即可发布。
spm=a2oq0.12575281.0.0.4ace1debEFUDXU&ft=t&id=618722676249收费标准时长原价优惠价折扣1个月9.99.9无1年118.899.08折2年237.9179.07.5折3年3
采集器的运行模式有两种:用户触发和定时任务(进入蜂集-系统配置-系统设置即可看到运行模式)。定时任务如果您安装了主机面板,设置定时任务十分方便,那么我们更推荐您使用定时任务模式。
支持ChatGPT内置ChatGPT引擎,支持从ChatGPT生成文章多数据源采集插件支持从多个数据源获取数据,不需要自己写规则。根据提示词让ChatGPT生成文章3个问答网站,根据关键词寻找合适的答案多种数据查找算法每一个数据源都支持选择第