蜂集采集器插件如何对采集的内容进行文本替换?
通常情况下,采集到的内容不一定符合我们的要求。我们通常需要对采集到的内容进行文本替换。蜂集采集器提供了极其强大的文本替换来实现这一功能。
具体的位置在采集模块 -> 编辑任意采集规则 -> 内容规则,如下图:
内容替换操作可以将左边的词替换为右边的词,支持文本和正则表达式。下面举一些例子来介绍替换操作。支持正则替换和JQuery(CSS选择器)替换
一、文本替换
比如我要把内容里面所有的“问“替换为“有朋友很奇怪的问”,只需要在左侧填上“问“,在右侧填上“有朋友很奇怪地问”。
采集结果如下图:
原页面是这样:
可以发现,所有的“问“都已经替换成了“有朋友奇怪的问”。
二、空格替换
在采集标签或者分类的时候,有一些站点可能存在多个标签或分类。我们采集的时候需要通过替换操作将分类或者标签替换成wordpress可以识别的格式——用逗号隔开的字符串。
比如我们采集的到的内容分类有“新闻和娱乐新闻”,那么需要把这个字符串通过替换操作改成“新闻,娱乐新闻”。
举个例子
比如这个网页下面存在很多标签,
在没有替换之前,抓取的结果是这样的
这里的空格是可以替换的,在替换器的左侧输入一个空格,右侧输入半角逗号即可将空格替换成逗号。替换之后如图:
三、正则表达式替换
如果简单的文本替换不能满足你,那么可以试试正则表达式替换。比如采集过来这么一段文本:
以上就是小编给大家推荐的XXXX,喜欢的话就XXX!
这种文本就需要使用正则表达式替换了。我们用的最多的就是通配符替换,将
以上就是小编给大家推荐的.* 替换为 空白字符即可,如下图:
注:由于软件更新较频繁,截图可能与当前版本不一致。
你可能还喜欢下面这些文章
主要用途有:替换文中出现的其他网站的品牌、域名替换文中出现的广告词、联系方式替换文中出现的敏感词近义词替换你只需要添加或导入替换词,插件就可以自动替换标题和正文中的词汇。
这款插件的核心功能就是一点:找出文章中的违禁词、敏感词等措辞不当的词语,替换成你设置的更合适的词或者直接替换“*”号。请注意,需要同时下载站长工具箱和违禁词屏蔽插件,安装插件时也需要两个插件同时安装。
一个正确的标签是由逗号隔开的多个词组成(单个词就不用逗号隔开了)如下图所示:因此正确采集标签的方法应该是通过采集,过滤,替换操作,将内容整理成逗号分隔的内容。比如我们要采集的网页源码中的tag和下面的代码类似tag是在a标签中,那么jquer
imwprobot(蜂集)是一款功能强大的全自动智能采集插件,专为WordPress设计。它能在服务端自动运行,无需人工监督或额外的电脑环境。主要特点包括全自动无人值守定时采集、自动同步目标站更新、AI自动生成关键词和摘要等。蜂集支持多种站点
如下图:现在我们可以建立一个简单的采集任务,我们现在可以采集一个新闻网站。现在可以添加任务,采集模块和发布模块选择我们刚才建立的模块,如下图:填写完毕之后,点击提交即可。
wordpress本身并没有采集功能,不过可以通过插件来实现采集功能,目前wordpress上比较好的采集插件是imwprobot(蜂集采集),可以实现全自动采集,虚拟主机也可以运行。
测试采集当所有的规则都编写完毕之后,我们需要验证一下采集器是不是可以根据该规则正确采集,进入测试抓取Tab,填写链接和页面层级,点击抓取测试,查看效果,如下图:如果对采集器有使用上的疑惑,可以到蜂集采集交流群(群号在采集器的关于我们中可以找到
什么是内链内链,顾名思义就是在同一网站域名下的内容页面之间的互相链接(自己网站的内容链接到自己网站的内部页面,也称之为站内链接)。自动内链工作原理简单来说,我们设定一些词表以及词表对应的链接,比如词是wordpress插件,链接是http。