本教程使用 Python 语言,需提前安装 Pip3 or Pip,例如 Linux 类的,请在命令行内输入:

1
sudo apt install python3-pip

# 安装

一条命令 (临时换源):

1
sudo pip install requests -i https://mirrors.aliyun.com/pypi/simple/

Pypi 包源官网: Requests
大概是这样的
在这可以看到有关这个第三方库的一切。

另一个就是 PIP 命令行安装,很简单,一条命令。

由于包源在国外,所以访问速度感人,可以先 Pip 换源,再试。(后面说)

1
pip install requests

加速 (阿里云):

1
pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/

本人无钱购买 Mac,所以没有钞能力去完成这个教程,各位有钱人施舍施舍?

# 使用

# 基础

1
2
3
4
5
6
import requests
data = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36'
} # 向服务器传递的数据
response = requests.get('https://bing.com',data=data).text # text函数:获取对应网址的源代码
print(response)

User-Agent 就像是浏览器的身份证,如果是 Requests 默认的 ua 的话,对应服务器会拒绝你的爬虫请求,简而言之,拿不到数据。

就在这拿User-Agent

# 进阶

官网教程

  1. 带数据的 post

1
2
3
4
5
6
7
8
9
10
11
12
# -*- coding:utf-8 -*-
import requests
import json

host = "http://httpbin.org/"
endpoint = "post"
url = ''.join([host,endpoint])
data = {'key1':'value1','key2':'value2'}

r = requests.post(url,data=data)
#response = r.json()
print (r.text)

  1. 多文件上传

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
# -*- coding:utf-8 -*-
import requests
import json

host = "http://httpbin.org/"
endpoint = "post"

url = ''.join([host,endpoint])
#多文件上传
files = [
('file1',('test.txt',open('test.txt', 'rb'))),
('file2', ('test.png', open('test.png', 'rb')))
]

r = requests.post(url,files=files)
print (r.text)

# 冷门

1
2
3
4
5
6
7
8
9
10
11
import requests
import json
url_put = "http://127.0.0.1:8080/"
headers_put = {
'Content-Type': "application/json"
}
param = {
'myObjectField': 'hello'
}
payload = json.dumps(param)
response_put = requests.put(url, data=payload, headers=headers_put)

# 项目实战:梨视频爬虫

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
# !/usr/bin/python3
# -*- coding:utf-8 -*-
"""
@author:
@file: 梨视频爬虫.py
@time: 2021/7/11 21:48
@desc:
"""
import requests

url = "https://www.pearvideo.com/video_1731260"
headers = {
"user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36",
"referer": url,
}
contId = url.split("_")[1]
videoStatusUrl = f"https://video.pearvideo.com/mp4/third/20210603/cont-{contId}-15316010-202041-hd.mp4"
# 'https://video.pearvideo.com/mp4/third/20210603/cont-1731260-15316010-202041-hd.mp4'

resp = requests.get(videoStatusUrl, headers=headers).content
with open("video.mp4", mode="wb") as file:
file.write(resp)

  1. 第 14 行,referer 的定义,因梨视频请求头中必须有 防盗链 ,即字典中的 referer ,如果没有,则获取不到视频数据。
  2. 第 16、17 行,通过抓包得知,梨视频的视频直链即为一串固定地址加上视频 ID 号,只需进行字符串分割即可。
  3. 第 20 行,向服务器发起 GET 请求,注意, .content 是获取网页的 二进制数据

# 总结

这库是真的好用,方便。比 Python 标准库 urllib 好 N 倍不止,平时爬虫爬个电影数据就好,不要太过分。

阅读次数