2021-05-12 14:32:11
關於Python的預設字元集
本文將簡要介紹Python程式解析使用的字元集歷史和設定方法。
背景: 在寫指令碼程式的時候難免會設計一些和中文相關的變數內容。這個時候對於一個Python新手(包括我在內)來說如何設定python使之能夠正確識別程式內的中文內容就會變得非常頭疼。本文將會簡要介紹Python字元集的設定方法和一些相關歷史資訊。
Python的預設字元集
Python的預設字元集在幾個大版本中有過改變,以下是各個版本的預設字元集列舉:
- Python2.1及以前: latin1
- Python2.3及之後,Python2.5以前:latin1 (但是會對非ASCII字元集字元提出WARNING)
- Python2.5及以後:ASCII
此外在PEP上也有提議在後續版本中將預設字元集調整為UTF-8
如何設定預設字元集(Python2.5以前)
設定Python當前指令碼檔案解析使用的預設字元集在2.5以前是很困難的。因為這些老版本不支援類似shebang的coding設定方式。雖然2.5以前的老版本已經過時了,這裡還是提一下這些版本設定字元集的方法。具體設定原理是通過sys.setdefaultencoding()
函數。但是糾結的是,這個函數site.py
(一個在Python啟動時自動執行的指令碼)中被刪除了。於是網上就出現了以下幾種版本的方法:
- reload(sys)
- 修改
sitecustomize.py
設定全域性預設字元集
兩種方法都僅僅是能work,且不優雅。更具體的操作方式可以參看stackoverflow上的討論
如何設定預設字元集(Python2.5及以後)
Python2.5
以後的預設字元集設定方式就簡單了很多。只要在Shebang後面(即#! /usr/bin/python
這一行之後), 緊跟上一行字元集設定行即可。字元集設定行的書寫規則需要符合這麼一個正則coding[:=]s*([-w.]+)
。也就是說以下幾種寫法都可以生效:
#!/usr/bin/python
# coding=utf8
或者
#!/usr/bin/python
# -*- coding: utf8 -*-
更或者
#!/usr/bin/python
# vim: set fileencoding=<encoding name> :
這些都是可以work的。
--------------------------------------分割線 --------------------------------------
CentOS上原始碼安裝Python3.4 http://www.linuxidc.com/Linux/2015-01/111870.htm
《Python核心程式設計 第二版》.(Wesley J. Chun ).[高清PDF中文版] http://www.linuxidc.com/Linux/2013-06/85425.htm
《Python開發技術詳解》.( 周偉,宗傑).[高清PDF掃描版+隨書視訊+程式碼] http://www.linuxidc.com/Linux/2013-11/92693.htm
Python指令碼獲取Linux系統資訊 http://www.linuxidc.com/Linux/2013-08/88531.htm
在Ubuntu下用Python搭建桌面演算法交易研究環境 http://www.linuxidc.com/Linux/2013-11/92534.htm
Python 語言的發展簡史 http://www.linuxidc.com/Linux/2014-09/107206.htm
相關文章