蜂集采集器发布模块是什么
发布模块是将采集的字段转化为符合wordpress要求的文章字段的模块,转换之后可直接发布为文章。
在新建发布模块的时候,可以看到左侧有标题、正文、分类目录等信息,这个时候将采集的字段填写到右侧的内容框即可。
采集的时候会通过发布模块将采集的字段发布到wordpress中。
有时候我们希望正文是源网页中很多部分拼接起来,比如源站点中存在下载地址,而我们采集的时候想要将下载地址加入到正文中。这个时候采集的时候就需要content和download两个字段保存正文和下载地址,而发布的时候则需要将这两个字段合并到正文字段。
发布模块的拦截功能
发布模块另一个重要的作用在于根据条件拦截发布。举几个例子。
例子一:比如我们不希望采集到的空的文章,就可以使用最小长度来拦截这种文章被采集到。比如设置最小长度为10,那么源站中正文长度小于10的文章都不会被采集到。
例子二:我们不希望采集的内容包含某些词汇(可能是一些违禁词或者广告词),那么可以在不能包含中设置不能包含的词汇。这样源站点中包含我们设置的词汇的文章就不会被采集下来。
默认发布模块是什么?
很多时候,我们并不需要那么复杂的规则,只需要设置一些简单的分类和作者信息即可。这个场景下每个任务新建一个发布规则显得太复杂,因此任务中有一个默认发布模块。在没有新增自定义的采集字段的时候都可以使用默认发布模块,默认发布模块只保证标题,正文有值即可发布。
默认发布模块的分类可以是采集中的分类,也可以是任务中设置的分类。
你可能还喜欢下面这些文章
如下图:现在我们可以建立一个简单的采集任务,我们现在可以采集一个新闻网站。现在可以添加任务,采集模块和发布模块选择我们刚才建立的模块,如下图:填写完毕之后,点击提交即可。
imwprobot(蜂集)是一款功能强大的全自动智能采集插件,专为WordPress设计。它能在服务端自动运行,无需人工监督或额外的电脑环境。主要特点包括全自动无人值守定时采集、自动同步目标站更新、AI自动生成关键词和摘要等。蜂集支持多种站点
设定作用任务名称为任务设置一个名字入口URL采集插件抓取的第一个网页,也就是采集入口采集模块这个任务都会使用这里绑定的采集模块去采集发布模块这个任务都会使用这里绑定的发布模块去发布文章发布状态设置这个任务下的文章发布时候的发布状态添加任务完成
测试采集当所有的规则都编写完毕之后,我们需要验证一下采集器是不是可以根据该规则正确采集,进入测试抓取Tab,填写链接和页面层级,点击抓取测试,查看效果,如下图:如果对采集器有使用上的疑惑,可以到蜂集采集交流群(群号在采集器的关于我们中可以找到
wordpress本身并没有采集功能,不过可以通过插件来实现采集功能,目前wordpress上比较好的采集插件是imwprobot(蜂集采集),可以实现全自动采集,虚拟主机也可以运行。
上面xxx一般是发布字段,后面的一串以大括号包住的内容则是条件,min_len表示该字段里面的内容最小长度,比如设置1表示采集到的长度大于1才会入库,否则就会提示发布条件不通过。
介绍WordPress Auto Post(wpap)插件,它能在任意周期内自动发布文章,支持随机浮动间隔和多种发布模式。相比其他插件,wpap不阻塞网页访问,具有更高的效率和灵活性。安装和注册方法简单,解决发布时间不准和发布失败的问题也有相
摘要:imwpnovels从2.3.0版本开始新增小说发布接口,可自动创建小说。该接口包括添加小说meta信息和章节信息两个接口。meta信息包括小说名称、封面、描述、作者等,可通过imwpapi.php?op=add_novel增加。发布小