如何用浏览器获取XPath规则,蜂集XPath使用指南
蜂集采集器现在内置了一个非常方便的匹配规则——XPath!XPath的方便之处就在于可以用浏览器直接提取出来。
如何用浏览器提取XPath
使用chrome浏览器打开你想采集的网址。进入浏览器的开发者模式(windows系统按F12,MAC系统按cmd+option+i)。点击页面节点选择按钮(方框半包住箭头的按钮),然后到右侧的源代码栏,点击右键,就可以看到copy full xpath
为了避免div层级变化,可以用copy XPath来代替copy full XPath。
测试XPath
把提取到的XPath复制到规则中
点击测试抓取
由于有些占站点做了防盗链,直接采集时候可能图片不会展示,不过采集下来的时候,图片会自动本地化,此时图片可以展示。
到此,你就学会了使用浏览器提取xpath方法。
你可能还喜欢下面这些文章
方法第一步:使用chrome浏览器,打开目标网站。将会打开浏览器的开发者模式,切换到网络tab,再刷新网页。将会打开如下页面:选中首页,在请求标头中Cookie后面的一串字符串就是网站的cookie。
2、自动生成的图片并非真实在磁盘中的图片,而是动态生成的,如果保存到磁盘会占用大量空间,这个空间没必要浪费,因此修改主题代码,直接将缩略图的地址改为wpac自动生成的缩略图地址是一个非常好的方案。
imwprobot(蜂集)是一款功能强大的全自动智能采集插件,专为WordPress设计。它能在服务端自动运行,无需人工监督或额外的电脑环境。主要特点包括全自动无人值守定时采集、自动同步目标站更新、AI自动生成关键词和摘要等。蜂集支持多种站点
摘要:推荐功能强大的WordPress小说主题imwpnovels,支持付费多本小说,提供PC和移动端两套界面,流畅、安全且易用。该主题自动创建小说和章节,拥有精致的外观和丰富的功能,如SEO优化、广告位设置和极速体验等。主题可绑定一个域名,
为例子,点击开发者工具中的小箭头,如下图:然后鼠标放到网页中寻找需要采集的区域,在右侧中对应的源代码会被高量显示,如下图所示:因此我们左侧选中的区域的class就是content,写成xpath如下:意思就是匹配根结点下面任意class名称为
测试采集当所有的规则都编写完毕之后,我们需要验证一下采集器是不是可以根据该规则正确采集,进入测试抓取Tab,填写链接和页面层级,点击抓取测试,查看效果,如下图:如果对采集器有使用上的疑惑,可以到蜂集采集交流群(群号在采集器的关于我们中可以找到
wordpress本身并没有采集功能,不过可以通过插件来实现采集功能,目前wordpress上比较好的采集插件是imwprobot(蜂集采集),可以实现全自动采集,虚拟主机也可以运行。
如下图:现在我们可以建立一个简单的采集任务,我们现在可以采集一个新闻网站。现在可以添加任务,采集模块和发布模块选择我们刚才建立的模块,如下图:填写完毕之后,点击提交即可。