几种常见密码形式

  • Post author:
  • Post category:其他



1、栅栏易位法。


即把将要传递的信息中的字母交替排成上下两行,再将下面一行字母排在上面一行的后边,从而形成一段密码。


举例:


TEOGSDYUTAENNHLNETAMSHVAED





解:





将字母分截开排成两行,如下





T E O G S D Y U T A E N N





H L N E T A M S H V A E D





再将第二行字母分别放入第一行中,得到以下结果





THE LONGEST DAY MUST HAVE AN END.


课后小题:请破解以下密码





Teieeemrynwetemryhyeoetewshwsnvraradhnhyartebcmohrie



2、恺撒移位密码。


也就是一种最简单的错位法,将字母表前移或者后错几位,例如:





明码表:ABCDEFGHIJKLMNOPQRSTUVWXYZ





密码表:DEFGHIJKLMNOPQRSTUVWXYZABC





这就形成了一个简单的密码表,如果我想写frzy(即明文),那么对照上面密码表编成密码也就是iucb(即密文)了。密码表可以自


己选择移几位,移动的位数也就是密钥。


课后小题:请破解以下密码





dtzwkzyzwjijujsixtsdtzwiwjfrx



3、进制转换密码。


比如给你一堆数字,乍一看头晕晕的,你可以观察数字的规律,将其转换为10进制数字,然后按照每个数字在字母表中的排列顺序,


拼出正确字母。





举例:110 10010 11010 11001





解:





很明显,这些数字都是由1和0组成,那么你很快联想到什么?二进制数,是不是?嗯,那么就试着把这些数字转换成十进制试试,得


到数字6 18 26 25,对应字母表,破解出明文为frzy,呵呵~


课后小题:请破解以下密码





11 14 17 26 5 25



4、摩尔斯密码。


翻译不同,有时也叫摩尔密码。*表示滴,-表示哒,如下表所示比如滴滴哒就表示字母U,滴滴滴滴滴就表示数字5。另外请大家不要


被滴哒的形式所困,我们实际出密码的时候,有可能转换为很多种形式,例如用0和1表示,迷惑你向二进制方向考虑,等等。摩尔斯


是我们生活中非常常见的一种密码形式,例如电报就用的是这个哦。下次再看战争片,里面有发电报的,不妨自己试着破译一下电报


内容,看看导演是不是胡乱弄个密码蒙骗观众哈~由于这密码也比较简单,所以不出小题。





A *- B -*** C -*-* D -** E * F **-* G –*





H **** I ** J *— K -*- L *-** M — N -*





O — P *–* Q –*- R *-* S *** T –





U **- V ***- W *– X -**- Y -*– Z –**





数字





0 —– 1 *—- 2 **— 3 ***– 4 ****-





5 ***** 6 -**** 7 –*** 8 —** 9 —-*





常用标点





句号 *-*-*- 逗号 –**– 问号 **–**





长破折号 -***- 连字符 -****- 分数线 -**-*


5、字母频率密码。


关于词频问题的密码,我在这里提供英文字母的出现频率给大家,其中数字全部是出现的百分比:





a 8.2 b 1.5 c 2.8 d 4.3





e 12.7 f 2.2 g 2.0 h 6.1





i 7.0 j 0.2 k 0.8 l 4.0





m 2.4 n 6.7 o 7.5 p 1.9





q 0.1 r 6.0 s 6.3 t 9.1





u 2.8 v 1.0 w 2.4 x 0.2





y 2.0 z 0.1





词频法其实就是计算各个字母在文章中的出现频率,然后大概猜测出明码表,最后验证自己的推算是否正确。这种方法由于要统计字


母出现频率,需要花费时间较长,本人在此不举例和出题了,有兴趣的话,参考《跳舞的小人》和《金甲虫》。


6、维热纳尔方阵。


上面所说的频率分析,很容易破解较长篇幅的密文,于是维热纳尔继承前人的经验,创造出了这个维热纳尔方阵,从而克服了词频分


析轻易能够破解密码的弊端,成为一种较为强大的密码编译形式。





a b c d e f g h i j k l m n o p q r s t u v w x y z





1 B C D E F G H I J K L M N O P Q R S T U V W X Y Z A





2 C D E F G H I J K L M N O P Q R S T U V W X Y Z A B





3 D E F G H I J K L M N O P Q R S T U V W X Y Z A B C





4 E F G H I J K L M N O P Q R S T U V W X Y Z A B C D





5 F G H I J K L M N O P Q R S T U V W X Y Z A B C D E





6 G H I J K L M N O P Q R S T U V W X Y Z A B C D E F





7 H I J K L M N O P Q R S T U V W X Y Z A B C D E F G





8 I J K L M N O P Q R S T U V W X Y Z A B C D E F G H





9 J K L M N O P Q R S T U V W X Y Z A B C D E F G H I





10 K L M N O P Q R S T U V W X Y Z A B C D E F G H I J





11 L M N O P Q R S T U V W X Y Z A B C D E F G H I J K





12 M N O P Q R S T U V W X Y Z A B C D E F G H I J K L





13 N O P Q R S T U V W X Y Z A B C D E F G H I J K L M





14 O P Q R S T U V W X Y Z A B C D E F G H I J K L M N





15 P Q R S T U V W X Y Z A B C D E F G H I J K L M N O





16 Q R S T U V W X Y Z A B C D E F G H I J K L M N O P





17 R S T U V W X Y Z A B C D E F G H I J K L M N O P Q





18 S T U V W X Y Z A B C D E F G H I J K L M N O P Q R





19 T U V W X Y Z A B C D E F G H I J K L M N O P Q R S





20 U V W X Y Z A B C D E F G H I J K L M N O P Q R S T





21 V W X Y Z A B C D E F G H I J K L M N O P Q R S T U





22 W X Y Z A B C D E F G H I J K L M N O P Q R S T U V





23 X Y Z A B C D E F G H I J K L M N O P Q R S T U V W





24 Y Z A B C D E F G H I J K L M N O P Q R S T U V W X





25 Z A B C D E F G H I J K L M N O P Q R S T U V W X Y





26 A B C D E F G H I J K L M N O P Q R S T U V W X Y Z





以上就是维热纳尔方阵,它由明码表(第一行的字母)、密码表(下面26行)和密钥组成,下面我举个例子说明。


举例:





密钥:frzy





密码:qfuc





解:第一个字母,看以f开头第五行,对应明码表查找q字母所标示的字母为l。以此类推找出后面字母。所得明文为love。





这个也不出小题了,只要有密钥,再复杂的密码也能查出来,就是个查表的问题~


一些新兴的密码形式:


1、利用键盘


无论是计算机键盘,还是收集键盘,都是出密码的好工具哦,可以用错位、或者排列形状等。使用手机键盘和这个同理。另外手机键


盘还可以在键盘的字母上做文章,例如你可以用51表示字母j,用73表示字母r等。


举例:





r4a6





这个密码利用计算机键盘,将明文字母分别向上移动一个位置,得到密文。破解结果为frzy。





852 74123 741236987 426978974123456 7412369





这排数字是不是很晕?其实很简单,对照小键盘,依次打这些字母,看组成的形状就行了。答案是I L O V E U。


课后小题:请破解以下密码





18 29 19 34 13 17


2、字母形状


本人曾经收到过这样一个密码短信,不幸被破解,导致发短信人被我非常严肃地奚落了一番!


前面我不记得了,只记得后面是hep poo6。这个你可以从手机里打出来,然后把手机倒过来看,形成了密码的明文,good day~~~


古典密码体现了现代密码学的两大基本思想-代替和置换(换位)。


代替密码:代替密码就是将明文字母表中的每个字符替换为密文字母表中的字符。这里对应密文字母可能是一个,也可能是多个。接收者对密文进行逆向替换即可得到明文


换位密码:在换位密码中,明文字符集保持不变,只是字母的顺序被打乱了。比如简单的纵行换位,就是将明文按照固定的宽度写在一张图表纸上,然后按照垂直方向读取密文。


1、单码加密法  具有固定替换模式的加密方法,即明文中的每个字母就由密文中的一个字母所替换。


1.1 移位密码





明文空间P、密文空间C都是和密钥空间K满足,即把26个英文字母与整数0,1,2,…,25一一对应。





加密变换,E={E:Z26→Z26, Ek (p) = p + k (mod26)| p∈P, k∈K }





解密变换,D={D:Z26→Z26, Dk (c) = c-k (mod26)| c∈C, k∈K }





解密后再把Z26中的元素转换英文字母。





显然,移位密码是前面一般单表替代密码的一个特例。当移位密码的 密钥k=3时,就是历史上著名的凯撒密码(Caesar)。根据其加密函数特 点,移位密码也称为加法密码。


1.2 仿射密码





仿射密码也是一般单表替代密码的一个特例,是一种线性变换。仿射密码的明文空间和密文空间与移位密码相同,但密钥空间为 K={(k1,k2)| k1,k2∈Z26,gcd(k1,26)=1}


对任意p∈P,c∈C,k = (k1,k2)∈K,定义加密变换为 c = Ek (p) = k1 p +k2 (mod 26)





相应解密变换为: p = Dk (c) = k1-1 (c-k2) (mod 26)





其中,K1K1-1=1mod26 。很明显,k1=1时即为移位密码,而k2=1则称为乘法密码。


2 多码加密法   多码加密法使用从明文字母到密文字母的多个映射来隐藏单字母出现 的频率分布,每个映射是简单替代密码中的一对一映射多表替代密码将 明文字母划分为长度相同的消息单元,称为明文分组,对明文成组地进 行替代,同一个字母有不同的密文,改变了单表替代密码中密文的唯一 性,使密码分析更加困难。


2.1 Vigenere加密法





该密码体制有一个参数n。在加解密时,同样把英文字母映射为0-25的数字再进行运算,并按n个字母一组进行变换。明文空间、密文空间及密钥空间都是长度为n的英文字母串的集合,因此可表示





加密变换定义如下:





设密钥 k=(k1,k2,…,kn), 明文p=(p1,p2,…,pn), 加密变换为:





Ek(p)=(c1,c2,…,cn),





其中ci(pi + ki)(mod26),i =1,2,…,n





对密文 c=(c1,c2,…,cn), 解密变换为:





Dk(c)=(p1,p2,…,pn), 其中 pi=(ci -ki)(mod26),i =1,2,…,n


2.2 Playfair密码





Playfair密码出现于1854年,它将明文中的双字母组合作为一个单元对待,该加密法是基于一个关键词的,该关键词填写在一个5*5的矩阵中(去出重复字母和字母j),通过该矩阵完成对明文、密文的加密、解密过程。





加密描述:Playfair加密算法将明文中的双字母组合作为一个单元对待,并将这些单元转换位密文双字母组合。加密过程把密钥填写在一个5*5的矩阵中(去出重复字母和字母j),矩阵中其它未用到的字母按顺序填在矩阵剩余位置中。





对明文加密规则如下:





1 若p1 p2在同一行,对应密文c1 c2分别是紧靠p1 p2 右端的字母。其中第一列被看做是最后一列的右方。





2 若p1 p2在同一列,对应密文c1 c2分别是紧靠p1 p2 下方的字母。其中第一行被看做是最后一行的下方。





3 若p1 p2不在同一行,不在同一列,则c1 c2是由p1 p2确定的矩形的其他两角的字母,并且c1和p1, c2和p2同行。





4 若p1 p2相同,则插入一个事先约定的字母,比如Q 。





5 若明文字母数为奇数时,则在明文的末端添加某个事先约定的字母作为填充。





解密描述:Playfair解密算法首先将密钥填写在一个5*5的矩阵中(去出重复字母和字母j),矩阵中其它未用到的字母按顺序填在矩阵剩余位置中,根据替换矩阵由密文得到明文。





对密文解密规则如下:





1 若c1 c2在同一行,对应明文p1 p2分别是紧靠c1 c2 左端的字母。其中最后一列被看做是第一列的左方。





2 若c1 c2在同一列,对应明文p1 p2分别是紧靠c1 c2 上方的字母。其中最后一行被看做是第一行的上方。





3 若c1 c2不在同一行,不在同一列,则p1 p2是由c1 c2确定的矩形的其他两角的字母,并且c1和p1, c2和p2同行。


3、换位密码 明文的字母保持相同,但顺序被打乱了


3.1 列置换密码





明文以固定的宽度水平的写在一张图表纸上,密文按垂直方向读出,解密就是密文按相同的宽度垂直的写在图表纸上,然后水平的读出明文。


四方密码





四方密码用4个5×5的矩阵来加密。每个矩阵都有25个字母(通常会取消Q或将I,J视作同一样,或改进为6×6的矩阵,加入10个数字)。





首先选择两个英文字作密匙,例如example和keyword。对于每一个密匙,将重复出现的字母去除,即example要转成exampl,然后将每个字母顺序放入矩阵,再将余下的字母顺序放入矩阵,便得出加密矩阵。





将这两个加密矩阵放在左上角和右下角,余下的两个角放a到z顺序的矩阵:





a b c d e E X A M P





f g h i j L B C D F





k l m n o G H I J K





p r s t u N O R S T





v w x y z U V W Y Z





K E Y W O a b c d e





R D A B C f g h i j





F G H I J k l m n o





L M N P S p r s t u





T U V X Z v w x y z





加密的步骤:





两个字母一组地分开讯息:(例如hello world变成he ll ow or ld)





找出第一个字母在左上角矩阵的位置





a b c d e E X A M P





f g h i j L B C D F





k l m n o G H I J K





p r s t u N O R S T





v w x y z U V W Y Z





K E Y W O a b c d e





R D A B C f g h i j





F G H I J k l m n o





L M N P S p r s t u





T U V X Z v w x y z





同样道理,找第二个字母在右下角矩阵的位置:





a b c d e E X A M P





f g h i j L B C D F





k l m n o G H I J K





p r s t u N O R S T





v w x y z U V W Y Z





K E Y W O a b c d e





R D A B C f g h i j





F G H I J k l m n o





L M N P S p r s t u





T U V X Z v w x y z





找右上角矩阵中,和第一个字母同行,第二个字母同列的字母:





a b c d e E X A M P





f g h i j L B C D F





k l m n o G H I J K





p r s t u N O R S T





v w x y z U V W Y Z





K E Y W O a b c d e





R D A B C f g h i j





F G H I J k l m n o





L M N P S p r s t u





T U V X Z v w x y z


找左下角矩阵中,和第一个字母同列,第二个字母同行的字母:





a b c d e E X A M P





f g h i j L B C D F





k l m n o G H I J K





p r s t u N O R S T





v w x y z U V W Y Z





K E Y W O a b c d e





R D A B C f g h i j





F G H I J k l m n o





L M N P S p r s t u





T U V X Z v w x y z





这两个字母就是加密过的讯息。





hello world的加密结果:





he lp me ob iw an ke no bi





FY GM KY HO BX MF KK KI MD










4.            密码学三大难题所代表的三种加密算法。


a.       大整数因子分解系统(代表算法为RSA加密系统)


b.      椭圆曲线离散对数系统(ECC)


c.       离散对数系统(DSA)


以上这三种算法由于在数学和计算机学中还没有有效的解决方案,所以唯一的解密方法就是穷举、强行破解,这也是密码破译中最忌讳的方法。


椭圆曲线离散对数和离散对数的问题解释这里就不再详细说了,否则可以占掉10页……大整数因子分解系统(RSA算法)的原理比较简单易懂,初中以上的学生应该都能看懂,主要用到的定理是费马小定理,在这里简单介绍一下。


5.            RSA加密算法


先找三个数字p, q, r。其中 p, q 是两个相异的质数, r 是一个与 (p-1)(q-1) 互质的数。 p, q, r这三个数字都是私钥。是外人不知道的。


由于r和(p-1)(q-1)互质,所以一定存在一个正整数m, 使得 r*m ≡ 1 (mod (p-1)*(q-1)) 。接着,使得n=p*q。 m, n 这两个数便是公钥,大家都可以知道。





我们设上面的p = 3, q = 7, r = 5, m = 5, n = 21。


现在开始加密:先把要加密的资料翻译成数字。方法有多种,例如ASCII码、字母表顺序直接转换(a=1,b=2,c=3)、倒序转换等等。


以“I ate an apple.”为例,我们按照字母表顺序将它变成0901200501140116161205,然后进行分组,每2^t(如1或2或4或8等等)一组,但每一组所有数都必须小于n。所以这里将其2个一组,变成A集合{9,1,20,5,1,14,1,16,16,12,5}。


对于每一个A集合中的元素a,计算出b,使得b ≡ a^m (mod n),且b∈[0,n)。


对于A集合第一个元素9,相对应可以算出的值是18。(9^5除以21的余数)


这样我们就能得到加密后的B集合{18,1,20,17,1,14,1,4,4,3,17}。





解密过程是对B集合中的每个元素b,使得计算 a ≡ b^r (mod n) ,且a∈[0,n)。


对于B集合第一个元素18,相对应可以算出的值其实就是A集合中的9。(18^5除以21的余数)。





如果有盗密者偷听,他会得到的信息是: m, n, B集合。


而他想要解码,他就必须找到r。所以,他必须先对n(=p*q)进行分解质因数。


当p和q这两个质数变得非常非常大的时候,计算机学和数学中均暂且尚未找到适当的解法能够有效快捷地找到p和q这两个质数的值,但加密过程中如果知道两个大质数p和q的值,用高精度算法很容易算出p和q的乘积n。这就是密码学三大难题之一的大整数因子分解问题。





上述解密过程中用到以下定理:


如果p和q是相异质数,并且r*m ≡ 1 (mod (p-1)*(q-1))。a是任意一个正整数,b ≡ a^m (mod p*q), c ≡ b^r (mod p*q),则 c ≡ a mod p*q。


证明过程不赘述了。大家可以试着证明一下。提示:费马小定理。






公开密钥的原理其实很简单,我们以给上面的单词 Caesar 加解密来说明它的原理。我们先把它变成一组数,比如它的 Ascii 代码 X=099097101115097114(每三位代表一个字母)做明码。现在我们来设计一个密码系统,对这个明码加密。


1,找两个很大的素数(质数)P 和 Q,越大越好,比如 100 位长的, 然后计算它们的乘积 N=P×Q,M=(P-1)×(Q-1)。


2,找一个和 M 互素的整数 E,也就是说 M 和 E 除了 1 以外没有公约数。


3,找一个整数 D,使得 E×D 除以 M 余 1,即 E×D mod M = 1。


现在,世界上先进的、最常用的密码系统就设计好了,其中 E 是公钥谁都可以用来加密,D 是私钥用于解密,一定要自己保存好。乘积 N 是公开的,即使敌人知道了也没关系。


现在,我们用下面的公式对 X 加密,得到密码 Y。


好了,现在没有密钥 D,神仙也无法从 Y 中恢复 X。如果知道 D,根据费尔马小定理,则只要按下面的公式就可以轻而易举地从 Y 中得到 X。


公开密钥的好处有:


1.简单。


2. 可靠。公开密钥方法保证产生的密文是统计独立而分布均匀的。也就是说,不论给出多少份明文和对应的密文,也无法根据已知的明文和密文的对应来破译下一份密 文。更重要的是 N,E 可以公开给任何人加密用,但是只有掌握密钥 D 的人才可以解密, 即使加密者自己也是无法解密的。这样,即使加密者被抓住叛变了,整套密码系统仍然是安全的。(而凯撒大帝的加密方法有一个知道密码本的人泄密,整个密码系 统就公开了。)


3.灵活,可以产生很多的公开密钥E和私钥D的组合给不同的加密者。


最后让我们看看破解这种密码的难度。 首先,要声明,世界上没有永远破不了的密码,关键是它能有多长时间的有效期。要破公开密钥的加密方式,至今的研究结果表明最好的办法还是对大字 N 进行因数分解,即通过 N 反过来找到 P 和 Q,这样密码就被破了。而找 P 和 Q 目前只有用计算机把所有的数字试一遍这种笨办法。这实际上是在拼计算机的速度,这也就是为什么 P 和 Q 都需要非常大。一种加密方法只有保证 50 年计算机破不了也就可以满意了。前几年破解的 RSA-158 密码是这样因数分解的


39505874583265144526419767800614481996020776460304936





45413937605157935562652945068360972784246821953509354





4305870490251995655335710209799226484977949442955603


= 33884958374667213943683932046721815228158303686049930





48084925840555281177





×





116588234066712599031483765583832708181310122581463926





00439520994131344334162924536139





现 在,让我们回到《暗算》中,黄依依第一次找的结果经过一系列计算发现无法归零,也就是说除不尽,我猜她可能试图将一个大数 N 做分解,没成功。第二次计算的结果是归零了,说明她找到的 N=P×Q 的分解方法。当然,这件事能不能用算盘完成,我就不知道了,但我觉得比较夸张。另外我对该电视剧还有一个搞不懂的问题就是里面提到的“光复一号”密码的误 差问题。一个密码是不能有误差的,否则就是有的密钥也无法解码了。我想可能是指在构造密码时,P 和 Q 之一没找对,其中一个(甚至两个都)不小心找成了合数,这时密码的保密性就差了很多。如果谁知道电视剧里面讲的“误差”是指什么请告诉我。另外,电视剧里 提到冯?诺依曼,说他是现代密码学的祖宗,我想是弄错了,应该是香农。冯?诺依曼的贡献在发明计算机和提出博弈论(game theory)。


不管怎么样,我们今天用的所谓最可靠的加密方法的数学原理其实就这么简单,一点也不神秘,无非是找几个大素数做一些乘除和乘方运算就可以了。


我们假定常用的汉字在二级国标里面,一共有 6700 个作用的汉字。如果不考虑汉字频率的分布,用键盘上的 26 个字母对汉字编码,两个字母的组合只能对 676 个汉字编码,对 6700 个汉字编码需要用三个字母的组合,即编码长度为三。当然,聪明的读者马上发现了我们可以对常见的字用较短的编码对不常见的字用较长的编码,这样平均起来每个汉字的编码长度可以缩短。我们假定每一个汉字的频率是





p1, p2, p3, …, p6700





它们编码的长度是





L1, L2, L3, …, L6700





那么,平均编码长度是





p1×L1 + p2×L2 + … + p6700×L6700


香农第一定理指出:这个编码的长度的最小值是汉字的信息熵,也就是说任何输入方面不可能突破信息熵给定的极限。当然,香农第一定理是针对所有编码的,不但是汉字输入编码的。这里需要指出的是,如果我们将输入法的字库从二级国标扩展到更大的字库 GBK,由于后面不常见的字频率较短,平均编码长度比针对国标的大不了多少。让我们回忆一下汉字的信息熵(见



http://www.googlechinablog.com/2006/04/4.html



),





H = -p1 * log p1 – … – p6700 log p6700。





我们如果对每一个字进行统计,而且不考虑上下文相关性,大致可以估算出它的值在十比特以内,当然这取决于用什么语料库来做估计。如果我们假定输入法只能用 26 个字母输入,那么每个字母可以代表 log26=





4.7 比特的信息,也就是说,输入一个汉字平均需要敲 10/4.7= 2.1 次键。


聪明的读者也许一经发现,如果我们把汉字组成词,再以词为单位统计信息熵,那么,每个汉字的平均信息熵将会减少。这样,平均输入一个字可以少敲零点几次键盘。不考虑词的上下文相关性,以词为单位统计,汉字的信息熵大约是8比特作用,也就是说,以词为单位输入一个汉字平均只需要敲 8/4.7=1.7 次键。这就是现在所有输入法都是基于词输入的内在原因。当然,如果我们再考虑上下文的相关性,对汉语建立一个基于词的统计语言模型(见



http://www.googlechinablog.com/2006/04/blog-post.html



),我们可以将每个汉字的信息熵降到 6 比特作用,这时,输入一个汉字只要敲 6/4.7=1.3 次键。如果一种输入方法能做到这一点,那么汉字的输入已经比英文快的多了。


但是,事实上没有一种输入方法接近这个效率。这里面主要有两个原因。首先,要接近信息论给的这个极限,就要对汉字的词组根据其词频进行特殊编码。事实上像王码这类的输入方法就是这么做到,只不过它们第一没有对词组统一编码,第二没有有效的语言模型。这种编码方法理论上讲有效,实际上不实用。原因有两个,第一,很难学;第二,从认知科学的角度上讲,人一心无二用,人们在没有稿子边想边写的情况下不太可能在回忆每个词复杂的编码的同时又不中断思维。我们过去在研究语言识别时做过很多用户测试,发现使用各种复杂编码输入法的人在脱稿打字时的速度只有他在看稿打字时的一半到四分之一。因此,虽然每个字平均敲键次数少,但是打键盘的速度也慢了很多,总的并不快。这也就是为什么基于拼音的简单输入法占统治地位的原因。事实上,汉语全拼的平均长度为 2.98,只要基于拼音的输入法能利用上下文彻底解决一音多字的问题,平均每个汉字输入的敲键次数应该在三次左右,每分钟输入 100 个字完全有可能达到。


另外一个不容易达到信息论极限的输入速度的原因在于,这个理论值是根据一个很多的语言模型计算出来的。在产品中,我们不可能占有用户太多的内存空间,因此各种输入方法提供给用户的是一个压缩的很厉害的语音模型,而有的输入方法为了减小内存占用,根本没有语言模型。拼音输入法的好坏关键在准确而有效的语言模型。


另一方面,由于现有输入方法离信息论给的极限还有很大的差距,汉语输入方法可提升的空间很大,会有越来越好用的输入方法不断涌现。当然,输入速度只是输入法的一项而不是唯一的衡量标准。我们也会努力把谷歌的输入法做的越来越好。


转载http://hi.baidu.com/new/hmscbzvmxucefgr