gb2312中的英文字母占几个字节?

  • Post author:
  • Post category:其他



byte[] bb=”hello”.getBytes(“gb2312”);




System.out.println(“bb.length:::”+bb.length);




for(byte bb1:bb)




System.out.println((char)bb1);




运行代码得到如下结果:




bb.length:::5




h




e




l




l




o








我查了一些资料,都说gb2312中的所有字符都是用二个字节表示。如果是这样,那我上面的程序中bb字节数组的长度应该是10啊




可结果却是却是5.我想请问gb2312中的英文字母符号到底是用几个字节表示啊?




ASCII 英文一个字节

gb2312,gbk 中文两个字节,英文一个字节

在中文系统中ansi一般指gb2312或gbk

GB2312、GBK都属于双字节字符集 (DBCS)

Utf-8 中文三个字节,英文一个字节

Unicode 中文两个字节,英文两个字




嘿嘿,权威的如何解释GB2312不是sun公司,而是我们国家自己的标准啊,每一个大专、大学的任何学生,其计算机基础课程中都会详细讲解GB2312的啊。

byte[] bb=”hello”.getBytes(“gb2312”);

System.out.println(“bb.length:::”+bb.length);

我查了一些资料,都说gb2312中的所有字符都是用二个字节表示。如果是这样,那我上面的程序中bb字节数组的长度应该是10啊

可结果却是却是5.我想请问gb2312中的英文字母符号到底是用几个字节表示啊?

答:GB2312中1区到15区共682个字符或图形符号都是

全角方式下

的字符。即:

若byte[] bb=”hello”.getBytes(“gb2312”);(注意是全角方式下),bb字节数组的长度就会是10了。

因此:gb2312中的所有字符都是用二个字节表示(是因为:它的字符都是全角方式)。

gb2312中不会对半角方式下的字符编码的(这是ASCII码的事情

),因此:在getBytes(“gb2312”);转换时,半角的字符都是一个字节,全角的同样字符才是两个字节。

最后让我们再用文本编辑工具ultraEdit做个小实验:

新建一个txt文件,分别以ansi、unicode、utf-8编码另存三个文件,删除原始文件,如下所示:


可以看到unicode.txt、utf-8.txt两个文件在文件内容为空时文件大小已经不是0了,这个问题待会我们再讨论。

然后我们使用

ultraEdit工具打开三个文件,













在文件内容为空时几个文件的大小如上图所示。

接下来我们继续做实验,在三个文件中都输入一个英文字符

[a


]

,然后再看下每个文件大小的变化







通过对比可以发现:

(记得计算时要分别减去之前空文件所占的字符长度)

ansi_gbk英文字符占1Byte


unicode英文字符占2Byte


utf-8英文字符占1Byte


好,我们接着来测试中文字符的长度,然后再在每个文件中输入一个中文字符[



]







通过对比可以发现:

(记得计算时要分别减去之前空文件所占的字符长度)

ansi_gbk中文字符占2Byte

unicode中文字符占2Byte

utf-8中文字符占3Byte