首頁 > 軟體

Python有關Unicode UTF-8 GBK編碼問題詳解

2022-08-18 22:01:59

1.統一碼(Unicode)

Unicode也叫萬國碼、單一碼,是電腦科學領域裡的一項業界標準,包括字元集、編碼方案等。對於世界上所有的語言文字再unicode中都可以檢視到。【漢】字的編碼解釋官網https://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=6C49

unicode編碼就是為了統一世界上的編碼,有一個統一的規範。但是它還存在一些問題。

Unicode的問題

需要注意的是,Unicode只是一個符號集,它只規定了符號的二進位制程式碼,卻沒有規定這個二進位制程式碼應該如何儲存。

比如,漢字“嚴”的unicode是十六進位制數4E25,轉換成二進位制數足足有15位(100111000100101),也就是說這個符號的表示至少需要2個位元組。表示其他更大的符號,可能需要3個位元組或者4個位元組,甚至更多。

這裡就有兩個嚴重的問題

  • 第一個:如何才能區別unicode和ascii?計算機怎麼知道三個位元組表示一個符號,而不是分別表示三個符號呢?
  • 第二個:我們已經知道,英文字母只用一個位元組表示就夠了,如果unicode統一規定,每個符號用三個或四個位元組表示,那麼每個英文字母前都必然有二到三個位元組是0,這對於儲存來說是極大的浪費,文字檔案的大小會因此大出二三倍,這是無法接受的。

它們造成的結果是:

  • 出現了unicode的多種儲存方式,也就是說有許多種不同的二進位制格式,可以用來表示unicode。
  • unicode在很長一段時間內無法推廣,直到網際網路的出現。

2.UTF-8編碼

網際網路的普及,強烈要求出現一種統一的編碼方式。UTF-8就是在網際網路上使用最廣的一種unicode的實現方式。其他實現方式還包括UTF-16和UTF-32,不過在網際網路上基本不用。重複一遍,這裡的關係是,UTF-8是Unicode的實現方式之一。

UTF-8最大的一個特點,就是它是一種變長的編碼方式。它可以使用1~4個位元組表示一個符號,根據不同的符號而變化位元組長度。

UTF-8的編碼規則很簡單,只有二條:

  • 對於單位元組的符號,位元組的第一位設為0,後面7位為這個符號的unicode碼。因此對於英語字母,UTF-8編碼和ASCII碼是相同的。
  • 對於n位元組的符號(n>1),第一個位元組的前n位都設為1,第n+1位設為0,後面位元組的前兩位一律設為10。剩下的沒有提及的二進位制位,全部為這個符號的unicode碼。

下表總結了編碼規則,字母x表示可用編碼的位。
Unicode符號範圍 | UTF-8編碼方式
(十六進位制) | (二進位制)
--------------------±--------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

Python程式碼舉例:

a = 'u6c49' # 漢的unicode編碼
print(a)
a = '漢'
print("漢字utf8格式:",a.encode('utf8'))
print('漢字unicode格式:',a.encode('unicode_escape'))
print('漢字gbk格式:',a.encode('gbk'))
print('漢字gb2312格式:',a.encode('gb2312'))
# 輸出結果
漢
漢字utf8格式: b'xe6xb1x89'
漢字unicode格式: b'\u6c49'
漢字gbk格式: b'xbaxba'
漢字gb2312格式: b'xbaxba'

可以看到以上結果,漢字的漢通過print列印時用的是unicode編碼,儲存時使用utf8,也即是我們儲存檔案時常用的編碼

with open('xxx.txt','w',encoding='utf-8') as f:
    f.write(xxx)

開啟的時候也要指定檔案編碼

with open(file_path, encoding='utf-8') as f:
    f.read()

當使用gbk編碼儲存的檔案使用utf8開啟時會報錯,使用gbk開啟即可

with open(r'gbk.txt','r',encoding='utf8') as f:
    print(f.read())
    
(result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd5 in position 0: invalid continuation byte

總結

  • UNICODE是一個符號集合,對全世界的語言都對應一個符號編碼
  • UTF-8是UNICODE在計算機中儲存時的具體體現,是儲存方案
  • UTF-16同理
  • UTF-32同理
  • GB 2312 或 GB 2312-80 是一個簡體中文字元集的中國國家標準,全稱為《資訊交換用漢字編碼字元集·基本集》,又稱為GB0,由中國國家標準總局釋出,1981年5月1日實施。
  • GBK: 漢字國標擴充套件碼,基本上採用了原來GB2312-80所有的漢字及碼位,並涵蓋了原Unicode中所有的漢字20902,總共收錄了883個符號, 21003個漢字及提供了1894個造字碼位。

參考連結

到此這篇關於Python有關Unicode UTF-8 GBK編碼問題詳解 的文章就介紹到這了,更多相關Python Unicode UTF-8 GBK編碼內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!


IT145.com E-mail:sddin#qq.com