【爬虫】fake_useragent的使用、BeautifulSoup(find()和find_all())

news/2024/5/20 7:58:30

1 fake_useragent
2 BeautifulSoup
3 Beautiful Soup库的find()和find_all()

1 fake_useragent

fake_useragent是一个Python库,用于生成随机的用户代理字符串。
用户代理是在HTTP请求中发送给服务器的一种标识,它告诉服务器发送请求的客户端的类型、版本和其他信息,通常包括浏览器类型、操作系统等。
通过使用不同的用户代理,可以模拟不同的浏览器和操作系统,从而隐藏爬虫的身份,防止被网站识别为爬虫并被封禁。

使用fake_useragent可以轻松地获取随机的用户代理,而不需要手动定义。
这使得爬虫程序可以在每次请求时都使用不同的用户代理,增加了爬取成功的机会。

下面是一个简单的示例,演示如何使用fake_useragent库:

from fake_useragent import UserAgent
import requests# 创建一个 UserAgent 对象
ua = UserAgent()# 使用 UserAgent 对象生成随机的用户代理字符串
user_agent = ua.random# 构造 HTTP 请求的头部信息,包括用户代理
headers = {'User-Agent': user_agent}# 发送 HTTP 请求
response = requests.get('https://www.baidu.com', headers=headers)# 打印响应内容
print(response.text)

在这个示例中,首先导入了fake_useragent库和requests库。然后创建了一个UserAgent对象,使用它的random方法生成一个随机的用户代理字符串。接着构造了包含随机用户代理的请求头部信息,并使用requests库发送了一个HTTP GET请求。最后打印了响应内容。

通过这种方式,可以确保每次请求都使用不同的用户代理,提高了爬取成功的机会。

2 BeautifulSoup

Beautiful Soup 是一个用于解析HTML和XML文档的Python库,它提供了简单又强大的工具,帮助开发者从网页中提取所需信息。它可以处理不规范或不完整的HTML,能够以简单又高效的方式进行文档遍历、搜索和修改。

主要用途包括:

  1. 解析:Beautiful Soup可以将HTML或XML文档转换成一个解析树,可以遍历这棵树来获取所需的信息。

  2. 搜索:可以使用类似于CSS选择器或XPath的语法来搜索文档中符合条件的标签或标签组合。

  3. 提取:可以通过标签名、属性、CSS类名等方式来提取文档中的特定元素或信息。

  4. 修改:可以对解析树进行修改,包括添加、删除或修改标签和属性。

Beautiful Soup支持多种解析器,包括Python标准库的html.parser、lxml和html5lib。一般推荐使用lxml解析器,因为它的速度相对较快。

下面是一个简单的例子,演示了如何使用Beautiful Soup解析HTML文档:

from bs4 import BeautifulSoup# HTML文档内容
html_doc = """
<html>
<head><title>Example</title>
</head>
<body><div id="content"><h1>Hello, World!</h1><p>This is a paragraph.</p><p>This is another paragraph.</p></div>
</body>
</html>
"""# 创建Beautiful Soup对象
soup = BeautifulSoup(html_doc, 'lxml')# 获取标题
title = soup.title
print("Title:", title.text)# 获取第一个段落
first_paragraph = soup.p
print("First Paragraph:", first_paragraph.text)# 获取id为content的div内的所有段落
content_div = soup.find('div', id='content')
paragraphs = content_div.find_all('p')
print("All Paragraphs:")
for p in paragraphs:print(p.text)

这个示例中,首先使用Beautiful Soup解析了一个简单的HTML文档,然后通过不同的方式获取了标题、第一个段落和id为content的div内的所有段落,并打印出它们的文本内容。

3 Beautiful Soup库的find()和find_all()

在Python的爬虫中,find()find_all()是Beautiful Soup库中常用的两个方法,用于在HTML或XML文档中查找特定的标签或标签集合。它们的主要区别在于返回的结果集。

  1. find()

    • find()方法用于查找文档中第一个匹配给定标签的元素,并返回该元素。
    • 如果没有找到匹配的元素,则返回None
    • 适用于只需要获取第一个匹配结果的情况。
  2. find_all()

    • find_all()方法用于查找文档中所有匹配给定标签的元素,并返回这些元素的列表。
    • 如果没有找到匹配的元素,则返回一个空列表。
    • 适用于需要获取所有匹配结果的情况。

下面是一个简单的例子,演示如何在HTML文档中使用find()find_all()方法:

假设有以下HTML文档(saved as example.html):

<!DOCTYPE html>
<html>
<head><title>Example</title>
</head>
<body><div class="container"><h1>Hello, World!</h1><p>This is a paragraph.</p><p>This is another paragraph.</p></div>
</body>
</html>

然后使用Beautiful Soup来解析这个HTML文档:

from bs4 import BeautifulSoup# 读取HTML文件内容
with open("example.html", "r") as file:html_content = file.read()# 创建Beautiful Soup对象
soup = BeautifulSoup(html_content, "html.parser")# 使用find()方法查找第一个匹配的元素
first_paragraph = soup.find("p")
print("First Paragraph:", first_paragraph.text if first_paragraph else "Not found")# 使用find_all()方法查找所有匹配的元素
paragraphs = soup.find_all("p")
print("All Paragraphs:")
for p in paragraphs:print(p.text)

输出将会是:

First Paragraph: This is a paragraph.
All Paragraphs:
This is a paragraph.
This is another paragraph.

在这个示例中,find()方法用于找到第一个<p>标签,并输出其文本内容。而find_all()方法则用于找到所有的<p>标签,并逐个输出它们的文本内容。


http://www.mrgr.cn/p/74661148

相关文章

libvips 一个最好用的高性能、低内存、跨平台的图片处理库

一个可以媲美OpenCV的开源库,它具有高性能、低内存、跨平台、无内存泄漏的特性。 项目简介 这是用C++开发的图像处理库,支持的API超过300多个,涵盖了算术、颜色、图片转换、卷积、形态、马赛克、合并、切割等。 支持多种图像格式,包括:JPEG、JPEG2000、JPEG-XL、TIFF、PNG…

缓存淘汰算法中的LRU(Least Recently Used)算法

缓存淘汰算法中&#xff0c;LRU&#xff08;Least Recently Used&#xff09;算法是一种常见的算法。它的基本思想是根据最近的访问情况来决定哪些数据被保留在缓存中&#xff0c;哪些数据被淘汰出去。 具体来说&#xff0c;当需要从缓存中淘汰数据时&#xff0c;LRU算法会选择…

Messari 报告摘要 :Covalent Network(CQT)2024 年第一季度表现

摘要&#xff1a; 尽管 CQT 代币流通供应量增加了 20%&#xff08;新增 1.04 亿枚 CQT&#xff09;&#xff0c;但 CQT 的质押百分比仅从 2023 年第一季度的 22% 增长到了 2024 年第一季度的 29%。 CQT 的市值季度环比增长了 28%&#xff0c;多次达到 2.75 亿美元&#xff0c…

【设计模式】函数式编程范式工厂模式(Factory Method Pattern)

目录标题 定义函数式接口函数式接口实现类工厂类封装实际应用总结 定义函数式接口 ISellIPad.java /*** 定义一个函数式接口* param <T>*/ FunctionalInterface public interface ISellIPad<T> {T getSellIPadInfo();}函数式接口实现类 HuaWeiSellIPad.java pu…

Windows如何通过wsl2迅速启动Docker desktop的PHP的Hyperf项目容器?

一、安装WSL 什么是WSL&#xff1f; 官网&#xff1a;什么是WSL&#xff1f; Windows Subsystem for Linux (WSL) 是一个在Windows 10和Windows 11上运行原生Linux二进制可执行文件的兼容性层。 换句话说&#xff0c;WSL让你可以在Windows系统上运行Linux环境&#xff0c;而无需…

2022年最新的Asp.Net程序员学习路线图

给大家分享一个微软MVP整理的,2022年最新的Asp.Net程序员学习路线图。这个图的知识点,分为:1、个人必须掌握 2、进一步学习 3、兴趣 4、其他 5、可能需要学习。第1、2部分大家必须去掌握起来,其他的内容可以根据工作的需要、兴趣选择。 在Github已经针有人对路线图的每一个…

【复杂网络】如何用简易通俗的方式快速理解什么是“相对重要节点挖掘”?

什么是相对重要节点&#xff1f; 一、相对重要节点的定义二、如何区分相对重要节点与重要节点&#xff1f;1. 相对重要性与节点相似性2. 识别相对重要节点的两个阶段第一阶段&#xff1a;个体重要性值的计算第二阶段&#xff1a;累积重要性值的计算 三、相对重要节点挖掘算法1.…

【JAVA语言-第20话】多线程详细解析(二)——线程安全,非线程安全的集合转换成线程安全

目录 线程安全 1.1 概述 1.2 案例分析 1.3 解决线程安全 1.3.1 synchronized关键字 1.3.1.1 同步代码块 1.3.1.2 同步方法 1.3.2 使用Lock锁 1.3.2.1 概述 代码示例 1.4 线程安全的类 1.4.1 非线程安全集合转换成线程安全集合 线程安全 1.1 概述 指如果有多…

微信视频号怎么开店卖东西的?从开店到发货,具体流程来了

这两年&#xff0c;视频号逐渐展露头角&#xff0c;发展短&#xff0c;商家少&#xff0c;很多类目都没被商家占领&#xff0c;于是好多想创业的新手玩家就准备去视频号小店这个新平台闯一闯 那视频号小店是怎么开店卖东西的&#xff1f;今天我就给大家讲一讲视频号小店的正确…

Vue从入门到实战Day01

一、Vue快速上手 1. vue概念 概念&#xff1a;Vue是一个用于 构建用户界面的 渐进式 框架 构建用户界面&#xff1a;基于数据动态渲染页面渐进式&#xff1a;循序渐进的学习框架&#xff1a;一套完整的项目解决方案&#xff0c;提升开发效率 优点&#xff1a;大大提升开发效…

Star-CCM+通过将所有部件创建一个区域的方式分配至区域后发热功率的赋值方法介绍

前言 Star-CCM通过将所有部件创建一个区域的方式分配至区域后发热功率的赋值方法与上文介绍的方法基本一致。 赋值热源 ● 热源类型选择&#xff1a; 本文按照“总热源”的类型展开介绍。具体的操作方式如下图1所示&#xff0c;在区域内下的物理条件中的能量源选项选择总热…

API安全

一&#xff0c;什么是API API指的是应用程序编程接口&#xff08;Application Programming Interface&#xff09;&#xff0c;是一组定义了软件组件如何相互交互的规范。通过API&#xff0c;不同的软件可以相互通信和交换数据&#xff0c;实现不同软件之间的集成和互操作。 …

机器学习 | 时间序列预测中的AR模型及应用

自回归模型&#xff0c;通常缩写为AR模型&#xff0c;是时间序列分析和预测中的一个基本概念。它们在金融、经济、气候科学等各个领域都有广泛的应用。在本文中&#xff0c;我们将探索自回归模型&#xff0c;它们如何工作&#xff0c;它们的类型和实际例子。 自回归模型 自回…

英语学习笔记6——What make is it?

What make is it? 它是什么牌子的&#xff1f; make n.&#xff08;产品的&#xff09;品牌名称    v. 制作 区别&#xff1a;model n.&#xff08;产品的&#xff09;型号       n. 模型       n. 模特 make 指的是大的品牌名称&#xff0c; model 是旗下产品…

小组练习:拿出手机发朋友圈/微信群, 收集你的目标用户对你当前产品的NPS。 每个项目小组收集不少于

小组练习: 拿出手机发朋友圈/微信群, 收集你的目标用户对你当前产品的NPS。 每个项目小组收集不少于 30 条投票,截图展示 在学习通提交解答的同时,可以同步发布在团队和个人博客上,作为学习心得体会,记录下来。 我的答案: 【第二组】 NPS(Net Promoter Score)是一种用来…

商超物联网方案-Hotspot Service和客流分析方案概述

商超物联网方案-Hotspot Service和客流分析方案概述 场景概述 大型商场、大型综合体在相互竞争及线上消费的影响下&#xff0c;利润增长缓慢&#xff0c;迫切需要通过提供个性化服务提升顾客购物体验&#xff0c;促进利润增长。 向不同顾客推送其感兴趣的广告&#xff0c;不仅…

python在Scikit-learn中用决策树和随机森林预测NBA获胜者

原文链接:http://tecdat.cn/?p=5222 原文出处:拓端数据部落公众号在本文中,我们将以Scikit-learn的决策树和随机森林预测NBA获胜者。美国国家篮球协会(NBA)是北美主要的男子职业篮球联赛,被广泛认为是首屈一指的男子职业篮球联赛在世界上。它有30个队(美国29个,加拿大…

【Azure Function】Azure Function中的Timer Trigger无法自动触发问题

问题描述 在Azure Function中,部署了定时触发器函数(Timer Trigger),却无法按时触发。问题解答 登录Function的Kudu站点,查看 logfiles中 application/function/host目录下的日志文件,发现错误消息:Singleton lock renewal failed for blob xxxxxxxxxxxxxxxxxxxxxxxxxxxxx…

自学错误合集--项目打包报错,运行报错持续更新中

java后端自学错误总结 一.项目打包报错2.项目打包之后运行报错 二.项目运行报错 一.项目打包报错 javac: &#xfffd;Ҳ&#xfffd;&#xfffd;&#xfffd;&#xfffd;ļ&#xfffd;: E:\xx\xx\xx\docer-xx\src\main\java\xx\xx\xx\xx\xx\xx.java &#xfffd;&#xff…