当前位置: 首页 > news >正文

python爬虫:selenium+browsermobproxy实现浏览器请求抓取(模块安装详解)

前言

        本来很多场景用beautiful和requests就能解决的,但是最近发现了某些网站会使用<link>来链接网页信息,让我没办法通过requests获取页面的具体内容;并且接口也加入了某种token的生成方案,导致我无从下手。

        因此,我使用了selenium+browsermobproxy的方案来解决这个问题(它可以抓取到你通过浏览器F12可以看到的几乎所有的资源)。

        这里是模块的安装方案,如需源码则关注后篇博客

模块安装 

        首先,你需要弄到两个东西,本机浏览器对应版本的driver驱动,还有浏览器代理程序

        下载

        浏览器代理程序:https://github.com/lightbody/browsermob-proxy/releases 

        chrome浏览器驱动下载地址:Chrome for Testing availability 

        如果你不想使用chrome浏览器,那么你需要自己去找这个驱动下载的链接 

  

        解压和所需的目标 

        解压后你将得到这两个东西,这是你后面要使用的关键

 

        python模块安装 

         如下安装这两个python模块

pip install browsermob-proxy
pip install selenium

 


http://www.mrgr.cn/news/8288.html

相关文章:

  • 【MySQL】MySQL 中 REGEXP 的用法
  • 第G6周:CycleGAN实战
  • [云计算] 虚拟化笔记
  • STM32要按复位键能够识别但是无法下载程序
  • Leetcode面试经典150题-11.盛水最多的容器
  • 速盾:cdn能防ip追踪吗?
  • 【Linux学习】Linux开发工具——vim
  • 打卡学习Python爬虫第五天|Xpath解析的使用
  • 面向对象05:什么是继承
  • 思科设备静态路由实验
  • 记录一次Android11系统证书安装失败
  • 《机器学习》 逻辑回归 大批量数据的下采样 <8>
  • Unity 资源 之 Photon Inventory 2 (Game Creator 2)
  • 【面试】jvm栈的大小通过什么参数设置?
  • Java 2.4 - JVM
  • WordPress简约响应式个人博客Kratos主题
  • 通过主成分分析实现检测金融中的异常交易模式
  • 游戏开发设计模式之状态模式
  • arm接口技术一--arm核总结
  • nas挂载到电脑上当文件夹使用(ubuntu 和windows电脑的挂载方式)