python2編碼總結

昵稱10504424 2016-01-14

展開全文

以下依次列出python2常遇到的幾個問題及講解。

# -*- coding:utf-8 -*-

python2默認以ASCII編碼，但是在實際編碼過程中，我們會用到很多中文，為了不使包含中文的程序報錯，也是為了符合國際通用慣例，一般將我們的文件編碼設置為utf-8格式。

設定編碼的格式有很多種，只要第一行或者第二行的聲明符合正則表達式 "coding[:=]\s*([-\w.]+)" 即可，一般的聲明方式為#-*- coding:utf-8 -*-。

1 2	`str` `=` `"你好"` `print` `str`

　　運行以上代碼，程序會報錯：SyntaxError: Non-ASCII character '\xe4' in file D:/TestPython/test/111.py on line 1, but no encoding declared; see http:///dev/peps/pep-0263/ for details。這是提示程序中有非ASCII編碼的字符。如果加上utf-8聲明，程序就不會報錯。

# -*- coding:utf-8 -*-

str = "你好"

print str

　　雖然以上寫法不會報錯，但是輸出的卻是亂碼，為什么呢？這就是下面要講的內(nèi)容。

encode和decode

講解編碼和解碼之前，先來講講Unicode和utf-8的關系，推薦這篇博客給大家。

可以這樣來理解：字符串是由字符構成，字符在計算機硬件中通過二進制形式存儲，這種二進制形式就是編碼。如果直接使用 “字符串??字符??二進制表示（編碼）” ，會增加不同類型編碼之間轉換的復雜性。所以引入了一個抽象層，“字符串??字符??與存儲無關的表示??二進制表示（編碼）” ，這樣，可以用一種與存儲無關的形式表示字符，不同的編碼之間轉換時可以先轉換到這個抽象層，然后再轉換為其他編碼形式。在這里，unicode 就是 “與存儲無關的表示”，utf—8 就是 “二進制表示”。

python2中字符串有兩種表示形式，str和unicode。str可以理解為上面這段話中的二進制編碼格式，unicode可以理解為抽象層。encode是編碼，即從unicode格式到二進制的編碼格式如utf-8、gb2312等。decode是解碼，即從二進制編碼格式到unicode編碼格式。

下面請看代碼：

# -*- coding:utf-8 -*-

str1 = "你好"
print type(str1)
str2 = str1.decode("utf-8")
print type(str2)

　　str1是str類型，通過decode轉為了unicode類型。

下面看encode代碼：

# -*- coding:utf-8 -*-

str1 = u"你好"

print type(str1)

str2 = str1.encode("utf-8")

print type(str2)

　　str1是unicode類型，通過encode轉為了str類型。

我們再回頭看最開始留下的問題，那段代碼為什么會輸出亂碼呢。因為文件規(guī)定的編碼格式是utf-8,但是我們print是打印到控制臺的，控制臺無法顯示utf-8編碼格式的字符。所以我們要轉一下格式。

# -*- coding:utf-8 -*-

str = "你好"

str = str.decode("utf-8")

print str

　　很多時候編碼解碼的時候需要加ignore參數(shù)才能正確轉換，例如.encode('utf-8', 'ignore')或.decode('utf-8', 'ignore')，大家自行斟酌吧。

chardet獲取編碼格式

有些時候我們是無法知道字符串是什么編碼的，比如抓取網(wǎng)頁時，有些是utf-8的，有些是gb2312編碼的，那我們該怎么獲取編碼格式并轉換為unicode呢。這里就介紹到一個第三方庫chardet。使用方式大概如下：

# -*- coding: utf-8 -*-

import chardet

str = "xxxxx"

str_type = chardet.detect(str)

code = str_type['encoding']

　　code即為str的編碼格式。但有些人反映該方法得到的編碼格式不準確，速度也慢。本人親測，速度確實一般，但是目前還沒遇到不準確的情況。大家可以斟酌使用，我這里只是提供一個思路，如果誰那里有更好的方式，可以告知小弟，不吝賜教才是。

import sys

reload(sys)

sys.setdefaultencoding('utf8')

之前也遇到過很莫名其妙的編碼錯誤，網(wǎng)上搜到這種方法能解決就糊里糊涂的用上了，也不知是什么原理。今天看到一篇不錯的博客，推薦給大家：http://blog.csdn.net/crazyhacking/article/details/39375535。以下內(nèi)容引用自該篇文章：

Python 里面的編碼和解碼也就是 unicode 和 str 這兩種形式的相互轉化。編碼是 unicode -> str，相反的，解碼就是 str -> unicode。剩下的問題就是確定何時需要進行編碼或者解碼了.關于文件開頭的"編碼指示"，也就是

# -*- coding: -*- 這個語句。Python 默認腳本文件都是 UTF-8 編碼的，當文件中有非 UTF-8 編碼范圍內(nèi)的字符的時候就要使用"編碼指示"來修正. 關于 sys.defaultencoding，這個在解碼沒有明確指明解碼方式的時候使用。比如我有如下代碼：

#! /usr/bin/env python

# -*- coding: utf-8 -*-

s = '中文' # 注意這里的 str 是 str 類型的，而不是 unicode

s.encode('gb18030')

這句代碼將 s 重新編碼為 gb18030 的格式，即進行 unicode -> str 的轉換。因為 s 本身就是 str 類型的，因此 Python 會自動的先將 s 解碼為 unicode

，然后再編碼成 gb18030。因為解碼是python自動進行的，我們沒有指明解碼方式，python 就會使用 sys.defaultencoding 指明的方式來解碼。很多情況下 sys.defaultencoding 是 ANSCII，如果 s 不是這個類型就會出錯。拿上面的情況來說，我的 sys.defaultencoding 是 anscii，而 s 的編碼方式和文件的編碼方式一致，是 utf8 的，所以出錯了:

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position

0: ordinal not in range(128)

對于這種情況，我們有兩種方法來改正錯誤：

一是明確的指示出 s 的編碼方式

#! /usr/bin/env python

# -*- coding: utf-8 -*-

s = '中文'

s.decode('utf-8').encode('gb18030')

二是更改 sys.defaultencoding 為文件的編碼方式

#! /usr/bin/env python

# -*- coding: utf-8 -*-

import sys