2017年9月15日 星期五

編碼

常見的中文編碼格式


編碼格式
說明
ASCII
通用英文字規格,每個字 1 Byte
UNICODE
每個字元都是2-Byte
UTF-8
改良UNICODE,變成可變長度
1位元與 ASCII 相容
Big-5
通用於台灣,香港,澳門,繁體Windows採用此種編碼


以下是 wiki 的說明

UNICODE
目前實際應用的統一碼版本對應於UCS-2使用16的編碼空間。也就是每個字元占用2個位元組
基本多文種平面的字元的編碼為U+hhhh,其中每個h代表一個十六進位數字,與UCS-2編碼完全相同。而其對應的4位元組UCS-4編碼後兩個位元組一致,前兩個位元組則所有位均為0。


UTF-88-bit Unicode Transformation Format
是一種針對Unicode的可變長度字元編碼,也是一種字首碼。它可以用來表示Unicode標準中的任何字元,且其編碼中的第一個位元組仍與ASCII相容,這使得原來處理ASCII字元的軟體無須或只須做少部份修改,即可繼續使用。因此,它逐漸成為電子郵件網頁及其他儲存或傳送文字的應用中,優先採用的編碼。

Big5
又稱為大五碼五大碼,是使用繁體中文(正體中文)社群中最常用的電腦漢字字元集標準,共收錄13,060個漢字[1]
中文碼分為內碼交換碼兩類,Big5屬中文內碼,知名的中文交換碼有CCCIICNS11643
Big5雖普及於台灣香港澳門等繁體中文通行區,但長期以來並非當地的國家/地區標準或官方標準,而只是業界標準倚天中文系統Windows繁體中文版等主要系統的字元集都是以Big5為基準,但廠商又各自增加不同的造字與造字區,衍生成多種不同版本。
2003年,Big5被收錄到CNS11643中文標準交換碼的附錄當中,取得了較正式的地位。這個最新版本被稱為Big5-2003

Python3 將文字分成 str 及 byte,

沒有留言:

張貼留言

Python - UNICODE字串與bytes字串的關聯性與轉換

Python3 預設就是使用 UNICODE 字串 但我們處理文章或是網頁的時候,常會遇到編碼問題,這邊做個整理 1. 產生 UNICODE 字串 or bytes 字串的方法 2. UNICODE 與 bytes 字串間的轉換 3. 利用 encode 與 deco...