首頁 > 軟體

python中requests庫安裝與使用詳解

2022-07-07 10:01:59

前言

記得我剛學python-requests庫的時候總會有點暈,於是我做了以下關於requests庫的知識點整理,方便初學者可以更好的瞭解requests庫。如果有補充或錯誤,或者不懂的地方,可以評論區留言。

1、Requests介紹

Requests是Python一個很實用的HTTP使用者端,完全滿足如今網路爬蟲的需求

urllib庫和requests庫功能類似,但requests庫功能更多更實用

2、requests庫的安裝

pip命令安裝(方法一)

  • windows作業系統:pip install requests
  • Mac作業系統:pip3 install requests
  • Linux作業系統:sodo pip install requests

原始碼安裝(方法二)

  • 下載 requests原始碼 http://mirrors.aliyun.com/pypi/simple/ requests/
  • 下載檔案到本地之後,解壓到Python安裝目錄,之後開啟解壓文
  • 執行命令列輸入python setup.py install 即可安裝

測試

  • import requests
  • 如果沒提示錯誤,那說明已經安裝成功了!

3、requests庫常用的方法

序號

方法

描述

1

requests.request(url)

構造一個請求,支援以下各種方法

2

requests.get()

傳送一個Get請求

3

requests.post()

傳送一個Post請求

4

requests.head()

獲取HTML的頭部資訊

5

requests.put()

傳送Put請求

6

requests.patch()

提交區域性修改的請求

7

requests.delete()

提交刪除請求

最常用的方法為get()和post()分別用於傳送Get請求和Post請求

4、response物件的常用屬性

序號

屬性或方法

描述

1

response.status_code

響應狀態碼

2

response.content

把response物件轉換為二進位制資料

3

response.text

把response物件轉換為字串資料

4

response.encoding

定義response物件的編碼

5

response.cookie

獲取請求後的cookie

6

response.url

獲取請求網址

7

response.json()

內建的JSON解碼器

8

Response.headers

以字典物件儲存伺服器響應頭,字典鍵不區分大小寫

5、使用requests傳送get請求

  • 不帶引數的get請求
    • 案例:爬取百度主頁
  • 帶引數的get請求
    • 案例:貼吧
  • 獲取JSON資料
    • 案例:百度美女圖片
  • 獲取二進位制資料
    • 案例:下載百度logo

5.1  不帶引數的get請求

# 不帶引數的get請求
 
import requests
url='http://www.baidu.com'
resp = requests.get(url)
# 設定響應的經編碼格式
resp.encoding='utf-8'
cookie=resp.cookies    # 獲取請求後的cookie資訊
headers=resp.headers
print('響應狀態碼:', resp.status_code)
print('請求後的cookie:', cookie)
print('獲取請求的網址:', resp.url)
print('響應頭:', headers)
print('響應內容', resp.text)
----------------------------------以下為輸出結果----------------------------------
'''
響應狀態碼: 200
請求後的cookie: <RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>
獲取請求的網址: http://www.baidu.com/
響應頭: {'Cache-Control': 'private, no-cache, no-store, proxy-revalidate, no-transform', 'Connection': 'keep-alive', 'Content-Encoding': 'gzip', 'Content-Type': 'text/html', 'Date': 'Fri, 23 Apr 2021 00:10:35 GMT', 'Last-Modified': 'Mon, 23 Jan 2017 13:28:16 GMT', 'Pragma': 'no-cache', 'Server': 'bfe/1.0.8.18', 'Set-Cookie': 'BDORZ=27315; max-age=86400; domain=.baidu.com; path=/', 'Transfer-Encoding': 'chunked'}
響應內容 <!DOCTYPE html>
<!--STATUS OK--><html> <head><meta http-equiv=content-type.........
'''

5.2 帶引數的get請求

5.2.1 查詢引數params

  • params,資料型別為字典
  • 作用:對URL地址中的查詢引數自動進行編碼拼接
  • 使用範例:resp = requests.get(url=baseurl, params=params, headers=headers)
# 帶引數的get請求
 
import requests
url = 'https://tieba.baidu.com/f?'
params = {'kw':'大學吧', 'pn':'3'}
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64)'}
# 開始請求
html = requests.get(url=url, params=params, headers=headers).text
print(html)

5.2.2 SSL證書認證引數 verify

  • 引數值:True(預設)| False
  • 適用網站:https型別網站但是沒有經過 證書認證機構 認證的網站
  • 適用場景:當程式中丟擲SSLError異常則考慮使用此引數
  • 使用範例:requests.get(url=url,headers=headers,verify=False)
  • 當verify引數設定為False時,則不會再對網站進行SSL證書認證

5.2.3 設定超時時間 timeout

我們可以通過timeout屬性設定超時時間,一旦超過這個時間還沒獲得響應內容,就會提示錯誤。

import requests
requests.get('http://github.com', timeout=0.001)
 
---------------------以下為輸出結果(報錯)---------------------
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
requests.exceptions.Timeout: HTTPConnectionPool(host='github.com', port=80): Request timed out. (timeout=0.001)

5.2.4 代理IP引數 proxies

5.2.4.1 免費代理IP

  • 語法格式:proxies = { '協定':'協定://IP:埠號'}
  • 範例:
    • 當我們抓取的地址為http時,則會選擇proxies中http的代理,反之為https
import requests
 
url = 'http://httpbin.org/get'
headers = {'User-Agent':'Mozilla/5.0'}
# 定義代理,再代理IP網站中查詢免費代理IP
proxies = {
    'http':'http://112.85.164.220:9999',
    'https':'https://112.85.164.220:9999'
}
html = requests.get(url=url,proxies=proxies,headers=headers,timeout=5).text
print(html)

5.2.4.1 私密代理和獨享代理

語法格式:proxies = { '協定':'協定://使用者名稱:密碼@IP:埠號'}

範例:

5.3 獲取JSON資料

# 獲取json資料
 
# 案例:百度獲取宮崎駿動漫圖片
# 滑動頁面,URL沒變化,F12中的檔案越來越多,說明這是動態網頁
# 選擇XHR中的一個,複製其Request URL,貼上給url
 
import requests
url='https://image.baidu.com/search/acjson?tn=resultjson_com&logid=10167214135414424439&ipn=rj&ct=201326592&is=&fp=result&queryWord=%E5%AE%AB%E5%B4%8E%E9%AA%8F%E5%8A%A8%E6%BC%AB%E5%9B%BE%E7%89%87&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=&z=&ic=&hd=&latest=&copyright=&word=%E5%AE%AB%E5%B4%8E%E9%AA%8F%E5%8A%A8%E6%BC%AB%E5%9B%BE%E7%89%87&s=&se=&tab=&width=&height=&face=&istype=&qc=&nc=&fr=&expermode=&force=&pn=30&rn=30&gsm=1e&1619134335166='
resp=requests.get(url)
json_data=resp.json()
print(json_data)

5.4 獲取二進位制資料

一般來說,對於非文字請求,可以以位元組形式存取響應正文。

# 獲取二進位制資料
 
# 案例:儲存百度圖片
import requests
url='https://www.baidu.com/img/bd_logo1.png'
resp=requests.get(url)
# 儲存
with open('logo.png','wb') as file:
    # resp.content:把response物件轉換為二進位制資料
    file.write(resp.content)

6、使用requests傳送post請求

  • 語法結構
    • requests.post(url, data=None, json=None)
  • 引數說明
    • url:需要爬取的網站的網址
    • data:請求資料
    • json:json格式的資料
  • 案例:登入小說樓
    • https://www.xslou.com/login.php
import requests
url='https://www.xslou.com/login.php'
data={'username':'18600605736', 'password':'57365736', 'action':'login'}
resp = requests.post(url,data)
resp.encoding='gb2312'
print('響應狀態碼:', resp.status_code)   # 200
print('響應內容', resp.text)        # <html>......</html>

7、使用requests的session傳送請求

import requests
url='https://www.xslou.com/login.php'
data={'username':'18600605736', 'password':'57365736', 'action':'login'}
 
# 使用session傳送請求
session = requests.session()
resp=session.post(url,data=data)    # 使用session傳送post請求
resp.encoding='gb2312'
# print( resp.text)        # <html>..<title>登入成功</title>....</html>

總結

到此這篇關於python中requests庫安裝與使用的文章就介紹到這了,更多相關python requests庫詳解內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!


IT145.com E-mail:sddin#qq.com