语音输入法火了,是偶然也是必然

25.10.2016  18:12
  上个周末,一款语音输入法突然火了,在朋友圈中,许多人收到的微信后面加上了“本条信息来自讯飞语音输入法”的“尾巴”。显然,用语音输入比打字更时尚。
  “这是语音行业苦等了好多年的机会。”上海市科学学所副研究员、上海科技发展研究中心主任王迎春表示,对业内人来说,这场热度的意义在于让人们意识到,语音识别已经做到了比大家想象要好、可以放心使用的地步。
   语音识别平均准确率与专业速记持平
  “今天晚上我为了准备演讲甚至没有吃饭……”在近日的锤子手机发布会上,该手机创始人罗永浩在18秒时间内,略带口音地说出了121个字,话音刚落,手机屏幕上就显示出了他刚才说的话,准确率100%,甚至标点符号都恰到好处。
  据IOS监控数据显示,在锤子发布会之前,讯飞输入法的总排名是336名,但在发布会结束后,讯飞输入法已经挤进了总榜前100名,截至昨天晚上6点,它已经登上了免费排行榜第三的位置。
  事实上,这是一款6年前就已经进入市场的“”输入法了,据科大讯飞移动互联事业部市场总监李强军介绍,目前讯飞输入法已经能够听懂19种方言,在没有网络情况下也能识别,语音输入准确率已达97%。
  “准确率没有95%,根本没法在输入法这个市场玩。”小米手机一位市场营销主管告诉记者,“就算整段话中要改一两个字,也可能破坏整体的用户体验,而使用户坚持使用手写输入。
  除了讯飞输入法,谷歌、微软、苹果、百度、搜狗等公司也在几年前推出了语音输入,并且准确率都不低,如微软的准确率也已达到94%以上。比起移动互联网其他行业的“喧嚣”,这些年智能语音的发展低调到几乎没有声响,以至于突然被人拉到台前,一下就惊艳了全场。
   从冷冰冰“吐字”到理解语言含义
  李强军说,科大讯飞式的语音识别是“模板式”的,也就是将一定数量的发音、语调、语速合成为一个标准化模板,每一个使用者就是将特殊的个体语音与预存在模板中的语音进行对比,由此计算出每个人说了什么。这也是市场上主流的智能语音识别模式。
  这一模式,与战胜李世石的阿尔法狗有着异曲同工之处,用王迎春的话来说就是大数据+算法,这也意味着要达到令人满意的准确率,只是时间问题。
  讯飞语音输入法一夜火爆,这个领域内的从业者也纷纷调侃,是不是“春天”又来了? 据了解,讯飞语音输入法已经多次上过苹果下载排行榜,最好成绩是第二名,之所以还未达到相应规模,是有原因的。比如某位刚刚下载讯飞语音输入法的用户表示,语音沟通其实很有私密性,在单位等场地,你不会大声地去使用语音输入,一般来说,也只有在家庭和开车两个场景中,他能够比较自在地使用语音。“之所以选择下载语音,是朋友圈爆了,显得时髦,而要让更多用户下载语音输入法,关键在于要在更多场景里能够放心使用语音。”这位用户说。
  从整座智能语音识别的大厦来看,把语音转化为文字是最基础的,机器冷冰冰的吐出每一个汉字时,其实不需要理解它们表示什么。语音大厦第二层是指令化,这就意味着机器要理解语言的含义,比如你告诉机器“我要一杯茶”,它会打开茶壶开关;再往上,机器不仅要理解语言意思,还要知道它们之间的联系。比如当你说“我渴了”,机器就会打开茶壶开关。
   指令化,人机交互的“接口
  中国工程院院士、中国人工智能学会理事长李德毅很早就预言,语音行业不会低调太久,它必将迅速崛起。今年的智能语音领域显然印证了这句话,国际知名市场研究公司“研究与市场”今年5月发布报告 《全球及中国语音产业报告2015-2020》 认为,全球的语音市场在接下来的5年当中仍将维持显著增长,到2020年,全球语音市场规模预计将达到191.7亿美元。
  “我们正在向人工智能公司转型。”李强军说,“未来所有服务的接入端,都可以通过语音完成。
  根据语音“大厦”理论,下一步要让机器理解人类语言。今年5月,谷歌已经发布了一款名为“”的音响,显示了在该领域的探索。人们只需动动嘴巴,它就能帮你开关灯、调节室内温度,同时还能配合谷歌其他硬件产品,在电视机上播放影片、音乐等。在中文方面,去年谷歌7500万美元投资了一家名为“出门问问”的企业,开始了新一轮布局。微软、苹果、百度等大企业也都纷纷砸重金投入。
  “现在的智能语音市场与5年前的移动互联网有些相似。”王迎春说。他认为,越来越多的使用场景已经出现,儿童教育、智能居、智能汽车等促使人们去下载语音输入法,从这个角度上看,讯飞输入法的火爆是偶然,也是这个时代的必然。(记者 沈湫莎) 【来源】文汇报