科技巨头的语音生意经

近日，一份来自大西洋彼岸的报告成为很多人关注的焦点。

这份由美国知名投资机构Mangrove Capital Partners发布的《2019年语音技术报告》（以下简称报告）指出：2025年语音经济规模或将达1万亿美元，正式超过移动应用经济。

人们早已经捕捉到了某种信号。

过去几年，谷歌、微软、亚马逊、百度等全球科技巨头纷纷押注语音赛道，投影在人们面前的是接踵而至的明星语音产品——Echo智能音箱、Siri智能语音助手、GoogleAssistant谷歌语音助手、Cortana（微软小娜）人工智能助理、Alexa语音识别引擎、百度小度助手（DuerOS）。

一个明显的感觉是：语音识别正在成为人类与互联网沟通的新主流方式。

但热火朝天、寸土必争的抢跑下注背后，人们不禁会想到那个柏拉图式的问题：智能语音到底是什么？它从哪来？又要到哪去？

一、科技巨头抢滩智能语音

从历史中不难找到关于语音技术的“蛛丝马迹”。

早在80年前，首个能够合成语音的机器诞生于美国新泽西州茉莉山上的贝尔实验室，如果把语音技术的发展看成一条射线，那么这个被誉为世界上最伟大的实验室可以看作是它的起点。

1954年，蓝色“巨人” IBM与乔治城语言学家合作成功研制出一台能够把60句俄语话翻译成英语的机器。而在不久后，第一个基于计算机的语音合成系统面世，语音技术就此开始被叠加着与日俱增的想象。

人类最不缺乏两种能力，一种是想象力，另一种是创造力。但即使用几十年后的今天来看当时，也很难预测出语音技术的发展轨迹。

当然，更难想到的是，这将成了一个全球的角斗场。

对于智能语音技术，坊间有一个颇为形象的比喻——遥控中枢。在一切都趋向具像化的如今，语音自然成了下一个产品形态的“摩斯密码”。谁能制定密码规则，谁就能掌控全局。

这是一场持久战。

纵观当下世界智能语音交互市场的几大主要玩家，百度从2010年开始做语音技术，如今已近十年；美国的亚马逊Alexa花了二十二年；即便是诞生最晚的谷歌Google Assistant也有着近十余年的数据沉淀。

骐骥千里非一日之功。掩藏在如今颇具智能化的Siri、谷歌助理、微软小娜以及百度小度背后的是这个行业高筑的技术护城河。

今年年初，百度公布了语音领域的四项重大技术突破，其中，在线语音领域全球首创的流式多级的截断注意力模型（SMLTA，全称为「Streaming trancated multi-layerattention」），被业界人士将该项技术突破评价为技术领域的“登月计划”。

在刚过去不久的AI开发者大会上，百度展示的一项“全双工免唤醒”能力，又一次刷新了目前人机语音交互智能程度的上限。全双工免唤醒能力是小度助手5.0的重要技术革新。

在全双工状态下的小度，除了能实现免唤醒词连续对话之外，还有一个非常关键的技术突破，称之为“拒绝反应”，即小度知道什么时候该应答和执行任务，什么时候只需要听着，不搭话、不反应——简单说，语音技术的突破，让机器的表现更逼近“真人”了。

在现场，观众们感受到的只是更顺滑的对话、更懂事儿的智能印象，但背后却是诸多学术难题的一一攻克。

去年公布的第二十届中国专利评审结果中，百度的语音、机器翻译、无人车相关三项专利获奖，成为人工智能领域至今为止在国内专利界获得的最高级别政府奖项。

在此之中，“语音专利”涉及的新语音识别模型——采用深度学习算法在24时内对数以百亿级的大规模数据进行实时分析，高性能计算，令语音识别技术的准确率达97%，解决了语音识别领域关键性、共性的技术难题，被MIT 评为“2016年全球十大突破技术”。

在AI开发者大会上，百度还推出了针对远场语音交互的鸿鹄芯片，可以实现远场阵列信号实时处理，高精度超低误报语音唤醒以及离线语音识别。

另一边，百度旗下的明星产品小度智能音箱在今年第一季度更是达到了330万台的超高出货量，位居中国市场榜首。

显然，百度正在建立从硬件底层芯片、到上层的智能硬件系统，再到系统软件，语音客户端，语音服务器及后端交互一体化的全链路语音交互技术。

可以肯定的是，下一个十年，语音技术将成为新的决定性主题。

二、“技术+场景”才是王道

人工智能发展至今共历经了三次浪潮。

第一次浪潮使用算法建立了推荐引擎，提供访问互联网服务，推动了谷歌、亚马逊和Facebook的崛起。

第二次浪潮帮助企业利用结构化数据去优化决策流程，带动了类似Palantir这样的大数据公司的出现，它们挖掘大量结构化数据，找出人眼和人脑难以发现的信息关联性。

现在人工智能第三次浪潮袭来，人工智能获得了眼睛、耳朵和无数其他感官，可以收集从来没有过的新数据，随后使用这些数据推动更复杂的流程自动化。

这次变革显然不同以往。恰如最近李彦宏在《人民日报》发表的文章中所说：“作为引领此次变革的战略性技术，人工智能对世界的影响将远超以往历次工业革命。”

事实确实如此，在人工智能的大潮下，众多领域的既有模式被重塑，应用场景不断颠覆，生产关系开始被重新制定。

而其中，语音则是极其重要的一环。

摆脱了文字和屏幕的束缚，语音技术从根本意义上改变了人们与软件交互的方式，可以完全替代移动应用成为未来通讯的主要方式。

如果说现在人们与移动应用的互动是二维的，那么语音交互就是三维立体的，而这种升维竞争同样也裹挟着互联网的商机。

语音技术领域不断攀升的融资金额是最为明显的一个例证。报告数据显示：今年语音技术创业公司融资额高达7.86亿美元，远远超过2018年的5.81亿美元以及2017年的2.98亿美元，同时每笔融资的规模也在大幅上升。

百度是当之无愧的领头羊。

作为最早布局人工智能的技术公司之一，百度拥有建立在超大规模神经网络、万亿级参数、千亿级样本上的人工智能算法，依托数十万服务器和中国最大的GPU集群的计算能力。

作为中国最大的搜索引擎公司，百度还收集了大量汉语（尤其是普通话）的音频数据，这些都为百度语音识别系统Deep Speech 2技术成果提供了基本的数据优势与支持。

百度美国的人工智能实验室负责人Adam Coates 曾表示：至2017年2月份，Deep Speech 2的短语识别词错率已经降到了3.7%，在转录某些语音的能力也基本上是“超人级的”，能够比普通话母语者更精确地转录较短的查询。

更引起外界关注的，是建立在语音识别、图像识别、自然语言处理、用户画像等技术能力之上的小度人工智能语音助手（DuerOS对话式人工智能系统）——百度技术的集大成者。

从2015年的“度秘”到2017年发布的DuerOS，再到2018年发布的一系列小度智能硬件产品，小度人工智能语音助手保持着稳定的迭代速率，不断融入新能力，以开放的姿态构建软硬结合的AI生态系统，更好地服务合作伙伴，成为名副其实的“智慧中枢”。

从技术到产品，从产品到下游合作商，可以看出百度的智能语音系统已然初步成型。技术与具体场景相结合，在智能语音交互技术领域，百度正发挥着“标杆”的作用。

三、语音，撬动未来商业的关键

通用电气前CEO，被认为二十世纪最杰出CEO的杰克·韦尔奇曾在他的自传中写道：「如果你想让车再快十公里，只需加一加油门，如果让车速提高一倍，就要换轨道了。」

事实是，商业的轨道正在发生偏移。

《2019语音技术报告》中有这样一种观点：“语音交互扭转了以往人机交互的存在形态，用户与设备间基于语音交互的全新关系开始搭建，与之前互联网向移动互联网过渡一样，其对底层平台的全新需求也在酝酿当中。”

从商业的发展模式来看，变革分两种，一种是自上而下，另一种是自下而上。前者要求市场迅速调整身位，迅速利用新的排列组合应对新变化；后者重体验，形态更迭更加悄然无声，但更坚韧，也更持久。

语音技术对于商业形态的影响正如后者。

不妨对未来的商业雏形做个预测：在未来某个时间节点，我们不再需要打字，而是可以使用语音盒手势，键盘基本消亡，在语音技术的加持下，产品形态将会被彻底改变，无屏幕的智能手机、语音电商、语音广告、个性化的品牌语音……

这个预测正在发展成现实。

有数据为证，根据Juniper的数据显示：在美国和英国，未来几年语音电商将迎来集中爆发，规模将从2018年的20亿美元增长至2022年的400亿美元。

同步落地的还有亚马逊的语音广告业务，消息称：亚马逊正计划开发Alexa语音助手的商业价值，进而建立一个大型的数字广告业务，测试包括视频在内的多种广告产品，为2018年广告营收增长做准备。

频频布局的背后是各家对语音技术商业价值的笃定。

尽管如今留给智能语音技术的难题还有很多，但在此刻提前布局，构筑好技术底座，待浪潮再次涌来之时，便能乘势而上。

可以预见：中国智能语音市场也将成为推动这股浪潮不可或缺的力量和重要参与者。正如在中国徒步旅行三个月的英国大臣麦克·贝茨所记录的那样：“这片土地从来不缺乏奇迹。”

原文链接：https://blog.csdn.net/u010199413/article/details/104338312

一、科技巨头抢滩智能语音

二、“技术+场景”才是王道

三、语音，撬动未来商业的关键

你可能也喜欢