当前位置: 首页 > news >正文

python网络爬虫(二)——数据的清洗与组织

  学会了网络爬虫发送请求后,我们可以获得一段目标的HTML代码,但是还没有把数据提取出来,接下来需要进行数据的清洗与组织。

for item in data:result={'title':item.get_test(),'link':item.get('href')}print(result)

  首先明确要提取的数据是标题和链接,标题在a标签中,提取标签的正文用get_text()方法;链接在a标签的href属性中,提取标签中的href属性用get()方法,在括号中指定要提取的属性数据,即get(‘href’)
  需要使用的正则符合如下:

\d:匹配数字
+:匹配前一个字符1次或多次

  在Python中调用正则表达式时使用re库,这个库不用安装,可以直接调用。可以用如下代码:

import requests
import re
from bs4 import BeautifulSoupurl = 'https://www.bilibili.com/video/BV1TC4y1N7dB/?spm_id_from=333.1007.0.0&vd_source=912d1bec97cad7dac820d2ba865f116a'
strhtml = requests.get(url)
#print(strhtml.text)soup = BeautifulSoup(strhtml.text,'lxml')
data = soup.select('#main >div >div.mtop.firstMod.clearfix>div.centerBox>ul.newsList>li>a')
print(data)for item in data:result={'title':item.get_test(),'link':item.get('href')'ID:'re.findall('\d+',item.get('href'))}print(result)

http://www.mrgr.cn/news/16453.html

相关文章:

  • 计算机毕业设计选题推荐-在线租房平台-房屋租赁系统-Java/Python项目实战
  • TeamTalk消息服务器(未读计数)
  • python网络爬虫(四)——实战练习
  • ref 和 reactive 区别
  • 深度学习项目实践——qq聊天机器人(transformer)(二)配置环境与部署
  • 【QNX+Android虚拟化方案】114 - QNX /dev/switch 节点创建 及 读写功能实现实例
  • 【推荐100个unity插件之30】只需拖放即可实现Unity UI动画——AnimationUI插件的视野
  • 计算机硬件的基本组成
  • 华为云征文|基于Flexus云服务器X实例体验大模型部署体验测评
  • Linux tee
  • 【机器学习】.fit_transform()跟.transform()的区别
  • 最小栈
  • NC 二分查找-II
  • 华为云征文|部署个人博客管理系统 Ghost
  • SAM 提示框和 Unet的语义分割的融合:自动驾驶车道线分割
  • Golang时间格式化的陷阱与解决方案
  • 【无人机设计与控制】使用 Simulink 进行四轴飞行器/四旋翼飞行器仿真
  • Windows系统中批量管理Windows服务器远程桌面工具——RDCMan
  • macos OneNote 2016 for Mac 官方pkg下载地址 - macos 10.15 Catalion 可用Onenote版本官方下载地址
  • 华为云征文|基于Flexus云服务器X实例部署caddy的教程