Python常用標準庫詳解(pickle序列化和JSON序列化)

2022-05-26 18:03:31

常用的標準庫

序列化模組

import pickle

序列化和反序列化

把不能直接儲存的資料變得可儲存，這個過程叫做序列化。把檔案中的資料拿出來，回覆稱原來的資料型別，這個過程叫做反序列化。

在檔案中儲存的資料只能是字串，或者是位元組流，不能是其它的資料型別，但是如果想要將其儲存就需要序列化。

Python中的序列化模組叫做 pickle，PHP等其它的一些語言將其稱作serialize 或者unserialize，每個語言的序列化功能可以序列化它本身的一切資料型別。

使用場景

現在存在一段資料，現在並不需要他，但是說不定什麼時候我就要用它，那麼最好的方法就是將這段資料儲存起來。

儲存這段資料一般來說有那麼幾種方法（入庫或者儲存檔案），但是這段資料很複雜，而儲存在資料庫中需要特定的資料格式，入庫的話就非常的麻煩了，而且我不想破壞資料的原有格式，那麼可以選擇儲存為檔案。

如下所示：儲存檔案會遇到種種的麻煩問題。

# 這是我想要儲存的一段資料
lst = ['A', 'B', 'C']
# 直接使用open函數不能將非字串和非位元組流的資料寫入檔案
with open('data.txt', 'w', encoding='UTF-8') as fp :
fp.write(lst)
# ！！！ TypeError
# 將資料變成字串就破壞了原有的資料結構（如果很複雜的資料結構幾乎沒有復原的可能性）
lst = str(lst)
# 將資料變成位元組流：只能將字串變成位元組流資料！

現在就可以使用序列化功能，將資料序列化成為位元組流的格式，然後存在檔案當中，當需要的時候，再從檔案中讀取出來，然後反序列化成為資料原來的樣子，而且保證原資料的資料結構沒有變化。

而且可以序列化語言當中的任何資料型別，就是說不止是基本的資料型別，還有函數、類、物件……

dumps & loads

dumps將任意物件序列化成bytes資料，loads將序列化成為bytes的資料反序列成資料原本的格式。

注意：只能反序列化被序列化的資料

import pickle

# 這是我想要儲存的一段資料
lst = ['A', 'B', 'C']

# dumps 把任意物件序列化成bytes
res = pickle.dumps(lst)
print(res)  # b'x80x03]qx00(Xx01x00x00x00Aqx01Xx01x00x00x00Bqx02Xx01x00x00x00Cqx03e.'
print(type(res))  # <class 'bytes'>
# 序列化後的bytes資料可以寫入檔案中。

# loads 把任意bytes反序列化成為原來的資料
lst = pickle.loads(res)
print(lst)  # ['A', 'B', 'C']
print(type(lst))  # <class 'list'>

# 嘗試反序列化其它的bytes資料
char = '你好'
by_char = char.encode()
new_char = pickle.loads(by_char)  # _pickle.UnpicklingError: invalid load key, 'xe4'.

dump & load

含義和上述的相同，只是這個可以直接操作IO物件，省時省力。

import pickle

# 這是我想要儲存的一段資料
lst = ['A', 'B', 'C']

# dumps 和 loads 配合檔案操作
# 序列化後寫入檔案
with open('test.txt', 'wb') as fp:
    data = pickle.dumps(lst)
    fp.write(data)
# 讀取檔案反序列化
with open('test.txt', 'rb') as fp:
    data = fp.read()
    lst = pickle.loads(data)

# dump 和 load 配合檔案操作
# 序列化寫入檔案
with open('test.txt', 'wb') as fp:
    pickle.dump(lst, fp)
# 讀取檔案反序列化
with open('test.txt', 'rb') as fp:
    lst = pickle.load(fp)

JSON序列化模組

import json

使用場景

序列化後的資料，如果想在多種語言中都可以流通怎麼辦？每種語言都有自己的語言特性，有些語言中的資料是特有的，那麼序列化後的資料該怎麼流通呢？

每種語言雖然各有自己的特點，但是幾乎所以的語言都是師出同門，天下語言無不出C者。所以將每種語言共同存在的資料格式按照統一的標準去序列化就可以了，JSON誕生了。

json一般儲存為json檔案。

支援的資料型別

python中支援JSON序列化的資料一共有八種型別：

int、float、bool、str、list、tuple、dict、None

JSON序列化支援這幾種資料型別是因為JSON中就只支援這幾種資料型別：

如下為python中的資料型別對應json中的資料型別；

python資料型別	JSON資料型別
int	int
float	float
bool（True，False）	bool（true，false）
None	null
str	str（必須雙引號）
list（[]）、tuple（()）	Array（[]）
dict（{}）	Object（{}）（鍵必須是雙引號）

注意：

JSON中沒有元組型別，所以會變成列表；
JSON中的物件必須使用字串作為鍵，所以python中的字典資料中的非字串鍵，會變成對應的JSON資料然後強轉成為字串；

import json
dict_var = {1: 1, 2.2: 2.2, False: True, '123': '123', "234": "234", None: None}
json_obj = json.dumps(dict_var)
dict_var = json.loads(json_obj)
print(dict_var)
# {'1': 1, '2.2': 2.2, 'false': True, '123': '123', '234': '234', 'null': None}

JSON和pickle的區別

JSON可以序列化python八種資料，序列化為字串。

pickle可以序列化python所有的資料型別，序列化為位元組流。

序列化函數

JSON序列化函數和pickle的一樣，名稱和使用方法基本一樣：

方法	含義
dumps	序列化
loads	反序列化
dump	序列化寫入檔案
load	讀取檔案反序列化

這裡注意一下序列化方法的幾個常用引數：

ensure_asscii 預設為True，以ACSII格式編碼，以Unicode顯示；

sort_keys 預設為True，對字典的鍵進行排序；

indent預設為None， json格式化預設是一行不加縮排的，如果indent是一個正整數，就以該縮排級別進行換行，增強視覺化。

import json
# 開啟排序
dict_var = {'B': '2', 'A': '1'}
print(dict_var)  # {'B': '2', 'A': '1'}
json_char = json.dumps(dict_var, ensure_ascii=False, sort_keys=True)
dict_var = json.loads(json_char)
print(dict_var)  # {'A': '1', 'B': '2'}
# 關閉排序
dict_var = {'B': '2', 'A': '1'}
print(dict_var)  # {'B': '2', 'A': '1'}
json_char = json.dumps(dict_var, ensure_ascii=False, sort_keys=False)
dict_var = json.loads(json_char)
print(dict_var)  # {'B': '2', 'A': '1'}
# dump 也一樣哦

json和pickle實際使用過程中的一些問題

在對檔案進行操作的時候：

json可以連續dump，但是不能連續load
pickle可以連續dump和load

如下解釋：

# json 可以連續dump，但是不能連續load
import json
# 序列化資料
lst1 = [1, 2, 3]
lst2 = [4, 5, 6]
lst3 = [7, 8, 9]
# 序列化寫入檔案
with open('test.json', 'w', encoding='UTF-8') as fp:
    json.dump(lst1, fp)
    json.dump(lst2, fp)
    json.dump(lst3, fp)
# 讀取檔案反序列化
with open('test.json', 'r', encoding='UTF-8') as fp:
    data1 = json.load(fp)  # ERROR
    data2 = json.load(fp)
    data3 = json.load(fp)
# ！！！ json.decoder.JSONDecodeError: Extra data: line 1 column 10 (char 9)

因為 json.dump 方法序列化寫入檔案的時候，寫入了兩個及以上的資料，之後 json.load 方法在讀的時候又是一次性將整個檔案中的資料讀取出來，這個時候，反序列化的資料成了 [1, 2, 3][4, 5, 6][7, 8, 9] ，這明顯不是一個json支援的資料格式，所以 json.load 失敗了。

再來看pickle是怎麼樣的：

# pickle 可以連續dump，也可以連續load
import pickle
# 序列化資料
lst1 = [1, 2, 3]
lst2 = [4, 5, 6]
lst3 = [7, 8, 9]
# 序列化寫入檔案
with open('pickle.txt', 'wb') as fp:
    pickle.dump(lst1, fp)
    pickle.dump(lst2, fp)
    pickle.dump(lst3, fp)
# 讀取檔案反序列化
with open('pickle.txt', 'rb') as fp:
    data1 = pickle.load(fp)  # [1, 2, 3]
    print(data1)
    data2 = pickle.load(fp)  # [4, 5, 6]
    print(data2)
    data3 = pickle.load(fp)  # [7, 8, 9]
    print(data3)
# 嘗試先逐行讀取，再反序列化
with open('pickle.txt', 'rb') as fp:
    datum = fp.readlines()
    print(len(datum))  # 1
    
    for data in datum:
        data = pickle.loads(data)
        print(data)  # [1, 2, 3]   # 只能讀出一個

可以看到 pickle.load 將資料都讀出來了，這是因為 pickle.dump 在寫入資料的時候在每條資料後都加上了一個標記（有些人解釋說是換行，但是檔案中並沒有換行，逐行使用 fp.readlines 逐行讀取的時候也只能獲取一條，但是在檔案中所有的資料都是在同一行的，我也不太懂了(無奈)），然後 pickle.load 每次就只會讀一條資料，從IO指標讀到每條資料後的那個標記為止，所以，pickle 可以連續的 load。

怎麼解決json的這個問題？

其實上面的這個問題，我個人認為是一種不規範的操作。因為 json.load 會一次性的讀取整個檔案中的內容，你卻在一個檔案中寫入了不止一條的資料，那麼在反序列化的時候當然會報錯了。所以我認為：

json的主要作用多語言之前的資料傳遞和資料儲存，每個JSON檔案中最好只儲存一條完整的資料。

但是我就想在一個json檔案中存多個資料呢？

其實思路很簡單，關鍵就是讀取檔案然後反序列化的時候，必須是一條資料、一條資料的反序列化，類似如下：

import json
# 序列化資料
lst1 = [1, 2, 3]
lst2 = [4, 5, 6]
lst3 = [7, 8, 9]
# 序列化寫入檔案，每寫入一條資料插一個換行
with open('test.json', 'w', encoding='UTF-8') as fp:
    json.dump(lst1, fp)
    fp.write('n')
    json.dump(lst2, fp)
    fp.write('n')
    json.dump(lst3, fp)
# 讀取檔案反序列化（逐行讀取資料，然後反序列化）
with open('test.json', 'r', encoding='UTF-8') as fp:
    datum = fp.readlines()
    print(len(datum))  # 3
    for data in datum:
        data = json.loads(data)
        print(data)  # [1, 2, 3]
                     # [4, 5, 6]
                     # [7, 8, 9]