蜂集采集如何进行全站采集

更新于 2024年5月21日 说明书

蜂集采集如何进行全站采集

这篇文章教大家如何使用蜂集采集器制作一个全站采集模块。

全站采集是一个非常有用的采集方式,可以看作是模拟搜索引擎蜘蛛抓取,绝大多数网站都可以爬完整站。

工作方式

工作方式

可以看下面的示意图。以首页为入口。

蜂集采集在首页可以发现【链接一】、【链接二】、【链接三】。

采集器将会把这三个链接放入抓取队列,意思就是这三个链接排队等候抓取。

接下来采集器从队列中取出【链接一】,这时候可以抓取到【文章一】,同时采集器又能从文章一中发现【链接四】,因此把【链接四】又放入采集队列。

采集器就是不断这样操作,最终可以抓取整个站点的链接。

如果对编程知识有点了解的朋友,应该知道这就是典型的广度优先搜索。通过广度优先搜索,可以很方便遍历整个站点,达到整站抓取的目的。

采集模块编写

采集模块编写

一、写列表规则

想要抓取全站,就需要一个能够不断获取站内链接列表页规则

列表规则默认会获取当前页面上所有的链接,这点很重要!

再说一下,列表规则在不填写任何字段的情况下,会自动获取页面上所有的链接,无论是内部链接还是外部链接,都会获取。

我们需要做的就是通过规则把外部链接剔除掉!不然抓取的就是全网的页面了!(变成搜索引擎了)

以lz13为例,它所有的文章链接都以.html结尾,所以我们的网址包含规则里写上.html。

同时,我们还需要限制采集器只在采集这个网站的内部链接,因此网址还需要包含lz13.cn。

规则就是 .html&&lz13.cn

这里的&&表示且,意思就是一个链接需要同时满足这两个条件才会被匹配到。

抓取全站的重点就在于终止列表获取这个选项,不勾选表示所有的地址都会使用这个规则,这样就能源源不断获取新的链接,达到抓取全站的目的。

再说一遍,如果需要抓取全站,就不要勾选终止列表获取!

比如我们使用首页测试一下抓取,可以看到下面抓取了很多链接

我们再用内部文章页面测试抓取,可以看到下面依然有新的链接

二、设置正文规则

现在有更好写的JQuery规则,非常容易使用。

如果你懂XPath或者正则(jQuery可能比这两个都更容易使用),那么写一个抓取正文的规则是一件很容易的事情。这里以XPath为例。

如果你会XPath,那么可以看到下面的正文实际上是被PostContent这个class包住,那么XPath长这样 //*[@class=”PostContent”](如果你用jQuery,那么JQuery表达式就是是 .PostContent)。

如果不会,可以直接从浏览器复制xpath,长得可能不太一样。具体方法可以参考:如何利用浏览器复制XPath

如果要查看jQuery表达式如何使用,可以参考 蜂集采集器jQuery选择器采集教程

其他的字段同理可以这样获取,设置好抓取规则,添加任务,运行起来就可以抓取全站了!

小福利

为了让大家更好地理解如何做全站采集,这里把上面做的采集规则分享出来,大家可以去网盘下载。

地址 https://pan.baidu.com/s/1TjgMPCXGvJfC9aQqRZNSNw

密码 r7rg

如果链接过期,可以加群175991304,找群主获取即可!

你可能还喜欢下面这些文章

蜂集设置采集分页列表方法蜂集设置采集分页列表方法

首先我们需要找到分页链接和其他链接不一样的地方,例子中的分页的链接都有“page”这个单词而其他的链接都没有这个单词,那么我们在列表规则中的链接包含框填上“page”,这样就可以采集到所有的翻页链接,如下图:填写完了之后,我们将测试的链接填入

如何编写蜂集的采集模块如何编写蜂集的采集模块

测试采集当所有的规则都编写完毕之后,我们需要验证一下采集器是不是可以根据该规则正确采集,进入测试抓取Tab,填写链接和页面层级,点击抓取测试,查看效果,如下图:如果对采集器有使用上的疑惑,可以到蜂集采集交流群(群号在采集器的关于我们中可以找到

WordPress自动内链插件 WPKAL ,网站全自动增加锚链接必备插件WordPress自动内链插件 WPKAL ,网站全自动增加锚链接必备插件

什么是内链内链,顾名思义就是在同一网站域名下的内容页面之间的互相链接(自己网站的内容链接到自己网站的内部页面,也称之为站内链接)。自动内链工作原理简单来说,我们设定一些词表以及词表对应的链接,比如词是wordpress插件,链接是http。

蜂集采集器快速入门蜂集采集器快速入门

如下图:现在我们可以建立一个简单的采集任务,我们现在可以采集一个新闻网站。现在可以添加任务,采集模块和发布模块选择我们刚才建立的模块,如下图:填写完毕之后,点击提交即可。

wordpress去除index.php的方法wordpress去除index.php的方法

wordpress去除index.php的方法:首先登录wordpress后台。wordpress去掉index.php的方法主要有两个步骤:1-1)。/wordpress/index.php。

WordPress 添加链接WordPress 添加链接

在本章中,我们将学习在WordPress页面中添加链接。以下是在WordPress中添加链接的简单步骤。在WordPress中创建的页面列表将显示如下所示的屏幕。在这里,我们将在关于我们页面中添加链接。

wordpress怎么设置固定链接wordpress怎么设置固定链接

请查看更详细的设置教程:wordpress如何设置固定链接。登录wordpress后台,点击后台设置栏目下的“固定链接”按钮。wordpress提供了6种链接形式供我们选择。

wordpress去除index.php的方法wordpress去除index.php的方法

wordpress去除index.php的方法:首先登录wordpress后台。wordpress设置固定链接登录wordpress后台,依次选择‘设置/固定链接,在出现的页面中,选择‘自定义结构’,然后根据你的情况,设置好链接。/wordp