当前位置: 首页 > news >正文

如何使用Web Scraper爬虫抓取数据?

Web Scraper是一个基于Chrome/火狐浏览器的插件,能够在网页上自动爬取数据,提供了丰富的配置,支持自动翻页、登录认证、JavaScript渲染等等,可以解决多数爬虫难题。

Web Scraper的安装也很简单,在Chrome应用商店里搜索“Web Scraper”,找到该插件并点击“添加至Chrome”按钮。


安装好Web Scraper后,需要在开发者工具中使用它,按F12键打开开发者模式能找到Web Scraper功能区,在这里可以新建并配置爬虫,你也不需要写任何代码就能抓取数据。

下面讲讲如何用Web Scraper爬取抖音评论数据。

先F12打开开发者界面,点击Web Scraper按钮,会进入到操作界面。


接下来新建Sitemap name项目名称,英文随意取,Start URL就是想要爬取的网站的URL,输入完点击Create Sitemap。


然后点击“添加新的Selector”按钮,在网页中选择要爬取的数据所在的区域(如“抖音视频”模块中的评论区)。注意必须勾选Multiple,因为字样才会批量爬取。

在这里插入图片描述
这样对于评论的简单抓取设置就可以了,最后保存并导出评论数据。
在这里插入图片描述

使用Web Scraper需要对HTML结构有一定的了解,需要自己一步步去配置,可能对于初学者还有些门槛,适合IT从业者。而且Web Scraper抓取的数据形式有限,适合文本这样简单的数据需求,对于图片、视频就会比较困难。


http://www.mrgr.cn/news/4055.html

相关文章:

  • SQL Server数据库查询常用语句汇总
  • 迈入退休生活,全职开发ue独立游戏上架steam
  • VSCode 搭配 Windows 下各种 C/C++ 编译器使用
  • 计算机组成原理(4):指令系统/控制器
  • 高性能Web服务器-- Nginx 的架构与安装详解
  • 设计模式——工厂模式
  • C++之多态(下)
  • 一款免费的开源支付网关系统,支持X宝、某信、云闪付等多种支付方式,提供收单、退款、聚合支付、对账、分账等功能(附源码)
  • docker GBase 8sV8.8使用的常见错误
  • 设计模式——适配器模式
  • 这款新的 AI 工具会消灭 ChatGPT 吗?
  • C++ //练习 19.3 已知存在如下的继承体系,其中每个类分别定义了一个公有的默认构造函数和一个虚析构函数:
  • 《机器学习》 逻辑回归 大批量数据的过采样 <9>
  • 从用户体验说起,集运系统需要哪些重要的功能?
  • vue+echarts:echarts地图页面跳转
  • Mock模拟数据
  • Qt-connect总结
  • 升级 kubeadm 部署的 k8s 集群
  • 近年国际重大网络安全事件深度剖析:安全之路任重道远
  • Python中的常用的数据预处理所需工具