Python的ASCII, GB2312, Unicode , UTF-8
ASCII 是一种字符集,包括大小写的英文字母、数字、控制字符等,它用一个字节表示,范围是 0-127 Unicode分为UTF-8和UTF-16。
UTF-8变长度的,最多 6 个字节,小于 127 的字符用一个字节表示,与 ASCII 字符集的结果一样,ASCII 编码下的英语文本不需要修改就可以当作 UTF-8 编码进行处理。
Python 从 2.2 开始支持 Unicode ,函数 decode( char_set )可以实现 其它编码到 Unicode 的转换,函数 encode( char_set )实现 Unicode 到其它编码方式的转换。
比如
(“你好”).decode( “GB2312”)
将得到
u’/u4f60/u597d’,
即 “你”和“好”的 Unicode 码分别是 0x4f60 和 0x597d
再用
(u’/u4f60/u597d’).encode(“UTF-8”)
将得到
‘/xe4/xbd/xa0/xe5/xa5/xbd’
它是 “你好”的UTF-8编码结果。
python中使用 unicode的关键:unicode是一个类,函数unicode(str,”utf8″)从utf8编码(当然也可以是别的编码)的字符串str生成 unicode类的对象,而函数unc.encode(“utf8”)将unicode类的对象