当前位置: 首页 > news >正文

打卡学习Python爬虫第三天|电影天堂案例

一、明确需求

目标:爬取最新更新的电影的豆瓣链接

观察网页和页面源代码,每部电影都有一个超链接去到子页面,我们需要的内容在子页面,如果我们一个一个子页面的去爬取会比较麻烦,可以尝试先通过首页爬取子页面的超链接,在通过子页面链接与首页url拼接的方式去访问每一个子页面。

首页:

 子页面:

 

二、编写代码:

import requests
import re
import csvurl = 'https://www.dyttcn.com/'resp = requests.get(url,verify=False)  # verify=False忽略证书错误
resp.encoding = 'gb2312'  # 指定编码格式
#print(obj1.text)# obj1拿到ul列表中的内容 obj2拿到超链接 obj3拿到子页面中的电影名和电影对应的豆瓣链接
obj1 = re.compile(r"最新更新.*?<ul>(?P<UL>.*?)</ul>",re.S)  # re.S表示.可以匹配换行符
obj2 = re.compile(r"<a href='(?P<url>.*?)'",re.S)
obj3 = re.compile(r"◎片  名(?P<name>.*?)</p>.*?◎豆瓣链接(?P<DBLJ>.*?)</p>",re.S)# result1是提取的ul列表中的内容
result1 = obj1.finditer(resp.text)# 利用列表保存提取后的链接
ZUrl_list = []for i in result1:# print(i.group('lianjie').strip())result2 = obj2.finditer(i.group('UL').strip())# 提取子页面的链接for j in result2:# 拼接子页面的链接ZUrl = url + j.group('url').strip('/')# 保存链接到列表中ZUrl_list.append(ZUrl)# print(j.group('url').strip('/'))# 提取子页面内容,子页面像提取首页那样来处理
for z in ZUrl_list:resp2 = requests.get(z,verify=False)  # verify=False忽略子页面证书错误resp2.encoding = 'gb2312'  # 指定编码格式result3 = obj3.finditer(resp2.text)  # result3是提取子页面中的电影名和豆瓣链接# print(resp2.text)# a的意思是追加  newline=''的意思是不换行with open('movieDBTT.csv', 'a', newline='', encoding='utf-8') as f:writer = csv.writer(f)# 写入数据for i in result3:dict = {'name': i.group('name').strip(),'DBLJ': i.group('DBLJ').strip()}writer.writerow(dict.values())  # 写入数据#print(dict)resp2.close()
f.close()
resp.close()
print('over')

三、最终结果:

保存为csv文件

 需要其它内容,修改获取子链接数据的正则表达式即可,按自己需求来。 

 


http://www.mrgr.cn/news/173.html

相关文章:

  • 美团笔试-测试方向
  • html+css网页设计 淘宝登录页面
  • Docker 日志管理
  • Go Channel 详解
  • docker 部署 遇到的一些问题
  • Redis 哈希(Hash)
  • leetcode108.把升序数组转换成二叉搜索树
  • 【速览】数据库-MySQL(更新中)
  • 百度AI智能云依赖库OpenSSL库和Curl库及jsoncpp库安装
  • ArcGIS Pro 实现人口分布栅格TIFF数据的网格提取与可视化
  • [C/C++] 基本数据类型
  • HTML常用标签和CSS的运用,以及使用HTML做一个简历
  • ASPICE标准与汽车网络安全:协同确保软件质量与系统安全
  • [数据集][目标检测]电力场景轭式悬架锈蚀分类数据集6351张2类别
  • http和https的区别
  • 软件测试---接口测试
  • arcgis打开不同tif格式编码的栅格数据
  • MySQL的IF语句详解
  • Android:动态更新app启动图标和应用名
  • apache-lotdb集群部署