当前位置: 首页 > news >正文

爬虫入门之爬虫原理以及请求响应

爬虫入门之爬虫原理以及请求响应

爬虫需要用到的库, 叫requests.

在导入requests库之前, 需要安装它, 打开cmd:
输入pip install 库名

pip install requests

后面出现successful或requirement already就说明已经下载成功了!!!

下载出现的问题:
1.有报错或者是下载慢
修改镜像(从国内的仓库下载)
一、临时修改:
pip install 库名 -i 国内仓库地址
pip install requests -i https://mirrors.aliyun.com/pypi/simple/
二、永久修改
pip config set global.index-url http://mirrors.aliyun.com/pypi/simple/
pip install requests

导入第三方库

下载好requests第三方库之后, 我们需要导入第三方库

import requests

get请求(获取百度网站的响应):

url = 'http://www.baidu.com'
res = requests.get(url)
# 获取响应输出的时候, 响应数据中有乱码
# 解决办法: 在输出内容之前, 设置响应编码
# 响应对象.encoding = '检查内容中charset的值'
res.encoding = "utf-8"
print(res.text)
# 关闭请求, 不关闭会导致资源浪费
res.close()

控制台输出:

<!DOCTYPE html>
<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content=always name=referrer><link rel=stylesheet type=text/css href=http://s1.bdstatic.com/r/www/cache/bdorz/baidu.min.css><title>百度一下,你就知道</title></head> <body link=#0000cc> <div id=wrapper> <div id=head> <div class=head_wrapper> <div class=s_form> <div class=s_form_wrapper> <div id=lg> <img hidefocus=true src=//www.baidu.com/img/bd_logo1.png width=270 height=129> </div> <form id=form name=f action

http://www.mrgr.cn/news/39071.html

相关文章:

  • 大厂面试真题-G1是怎么实现的按照设置的停顿时间执行垃圾回收
  • 【Linux】初识进程
  • matlab入门学习(二)矩阵、字符串、基本语句、函数
  • 轻松搞定.Net8+GitLab+Jenkins+k8s+Docker实现CICD
  • 【ambari-infra编译报错】org.apache.commons.io does not exist
  • 并发面试合集
  • [sql-04] 连续出现至少三次的数字
  • redis从入门到精通
  • 算法: FriendShip - Kruskal+并查集判环
  • 奔驰EQS450suv升级增强AR抬头显示HUD案例分享
  • 面积开运算bwareaopen
  • python正则表达式模块re.split方法介绍
  • Markdown 字体颜色
  • HIDL 和 AIDL 的历史背景
  • MongoDB的查询/超详细
  • 类和对象1
  • 16.网络编程(下篇)
  • [C++] bitset 按字节解析为std::string
  • 在Python中,使用Pillow(PIL的更新分支)库来合并两张图片成一张上下结构的图片
  • 存储技术(CXL、open-channel SSD)