Python的ASCII, GB2312, Unicode , UTF-8

  • Post author:
  • Post category:python




Python的ASCII, GB2312, Unicode , UTF-8




ASCII 是一种字符集,包括大小写的英文字母、数字、控制字符等,它用一个字节表示,范围是 0-127 Unicode分为UTF-8和UTF-16。

UTF-8变长度的,最多 6 个字节,小于 127 的字符用一个字节表示,与 ASCII 字符集的结果一样,ASCII 编码下的英语文本不需要修改就可以当作 UTF-8 编码进行处理。

Python 从 2.2 开始支持 Unicode ,函数 decode( char_set )可以实现 其它编码到 Unicode 的转换,函数 encode( char_set )实现 Unicode 到其它编码方式的转换。

比如

(“你好”).decode( “GB2312”)

将得到

u’/u4f60/u597d’,

即 “你”和“好”的 Unicode 码分别是 0x4f60 和 0x597d

再用

(u’/u4f60/u597d’).encode(“UTF-8”)

将得到

‘/xe4/xbd/xa0/xe5/xa5/xbd’

它是 “你好”的UTF-8编码结果。

python中使用 unicode的关键:unicode是一个类,函数unicode(str,”utf8″)从utf8编码(当然也可以是别的编码)的字符串str生成 unicode类的对象,而函数unc.encode(“utf8”)将unicode类的对象



版权声明:本文为Java2King原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。