突破传统语音识别 走向真正人工智能
[编者按] 一百多年来,交大人用知识和智慧创造累累硕果,谱写了近现代史上的诸多“第一”。这是人才培养的智慧、科学研究的智慧、服务社会的智慧、为国争光的智慧。新闻网特推出“交大智慧”专栏,聚焦交大人的智慧之光,展现交大人为国家发展和社会进步作出的重大贡献。
2014年,奥斯卡最佳原创剧本奖颁给了一部人工智能影片——《Her》,讲述的是男主角与电脑语音助手之间的浪漫爱情。风靡全球的科幻动画片《超能陆战队》,萌萌的“大白”机器人的沟通毫无障碍,既诙谐又温情。而最近,两部接连上映的好莱坞科幻大片《超能查派》与《复仇者联盟2》,核心角色都是高科技的人工智能生命体……
随着科技发展,曾是科幻小说与影视作品中常见元素的人工智能,也逐渐走入我们的真实生活。而当我们谈论“人工智能”的时候,必定离不开谈及语音交互,因为它承担着人与设备之间的沟通桥梁作用。虽然对着手机用语音进行文字的输入已经成为现实,但这只是特定条件下的“语音识别”。而人类的交互则是自由而任性的,不管时间地点,语言丰富多元,语义复杂多变。单纯的“一根筋”式的语音识别,根本不能满足自由的人机口语沟通的需求。
5月18至20日,在上海交通大学举办的中德“有反馈的计算机辅助方法在二语习得及语音训练中的应用”双边研讨会上,国内外高校、研究机构及业界的专家学者,共话智能语音技术的最新进展及其在计算机辅助口语训练方面的潜在应用。
上海交通大学-思必驰智能语音技术联合实验室进行了一系列移动互联网大数据时代的产学研联合项目,研发的认知型人机对话系统技术,将机械式的语音识别推广到智能人机对话,使得人们在车载、家居等各种真实的复杂场景中,可以顺畅自由的使用语音,随时随地与能够理解自然语言的智能交互机器人进行对话交流,完成任务。
上海交大电子信息与电气工程学院计算机系“东方学者”特聘教授、博导、上海交大-思必驰智能语音技术联合实验室负责人俞凯表示,这种具有适应和思考能力的人机口语对话系统,已经不再是传统的语音识别,而是一个人性化的“语音机器人”。
突破技术瓶颈 “自适应语音识别”打造智慧型人机交互
一直以来,让机器能够具有人性化的语音交互能力都是人工智能研究中的重难点。俞凯认为,传统语音识别只是解决特定环境下的语音到文字转换,这是模拟耳朵的感知功能;而更关键的是解决完整的口语人机交互问题,这是模拟人脑的全套认知功能。认知型的智能语音技术是更高层面的人工智能,与传统语音识别和合成相比,它融入了自适应、理解纠错、智能反馈的认知技术。这会使得机器可以适应更多的环境和口音,具有进化调整的能力,从“能听会说”变成“会听能做”:即听得懂说的,懂得听什么,听不清楚了能问,搞错了能纠正,最终能成功完成用户的任务。
俞凯谈到,虽然近年蓬勃发展的深度学习技术极大地促进了语音识别的识别率提升,但仍无法达不到百分之百的准确。尤其是在复杂环境和自由使用的时候,更显得差强人意。例如,驾驶汽车时打开车窗或者播放音乐、在家里隔着茶几对电视发布语音指令、说话带着方言口音等等,都会严重影响通用语音识别的正确率。而上海交大智能语音实验室研发的语音识别自适应技术,采用了软硬件结合的抗噪技术、结构化深度学习技术、环境和说话人的自动检测及模型自适应调整技术,可以随着说话人口音和噪声环境的变化,自动选择最合适的模型进行识别,显著提升准确率。此外,自适应技术使得机器有了自动学习能力,随着在特定环境和说话人数据的积累,说得越多,学得越多,识别越精准。
人性化语音交互 告别单一语音识别时代
有了自适应技术就能达到百分之百准确率么?还是不行。不过不要紧,就像人类在听不清的时候也可以进行理解和对话一样,新型的人性化智能语音交互技术就包括了“深度理解”以及“自动纠错”技术。
“深度理解”是把机器的识别状态(比如识别结果的可靠度、环境嘈杂程度等)、用户的个人特点(比如性别、方言地区、说话快慢等),和说话的情境(比如谈话的领域,常识,前面谈话的历史等)等因素从大数据中提取出来,根据这些“情境”对识别结果再进行二次计算,使得语义理解的准确度大大提高。因为这些计算的模型的训练都依赖于语音识别的结果,采用合理的算法,就能学习各种的语音识别错误模式,使机器像人一样能够从失败中总结规律,在理解的时候自动纠正语音识别的错误。比如用户在开车的时候说“导航到车管所”,不幸被识别成“导航到厕所”,根据情境和谈话历史信息,这个语音识别的错误很容易就被自动纠正回“车管所”。
人性化语音交互的另一个核心特点就是“对话”。在有歧义和错误的情况下,机器仍然可以通过多轮人机对话,让机器识别和理解人的自然语言中的关键意图和属性,进而进行处理。上海交大智能语音实验室研发的对话系统技术,突破了传统语音技术不能很好支持复杂语音交互功能的难题,大幅度地提升了“人工智能化”程度。
而对于“纠正错误”的问题,不止是深度理解可以进行单句的语义适配式纠错,机器还可以像人一样通过简单对话纠错。例如,前一段时间火爆的网络视频“纠正哥”,画面中说着山东方言的男士对着安吉星说出一长串电话号码,不巧有一两位识别错误,于是频繁打断,不停纠正却是对牛弹琴。俞凯介绍说,“纠正哥”无法交互的核心难点并不是方言识别,而是对话过程中的“打断”和“纠正”。在汽车噪声较大的时候,偶尔有一两个数字的识别错误是很正常的事情,这种错误很难通过情境直接消除。但是通过逻辑关联和智能对话,则可能帮助“纠正哥”把电话很快拨出去。而这个对话中,机器能够像人一样允许被“打断”,以及智能的根据新信息纠正原先的号码,需要比识别更高的智能。这就是智能语音实验室研发的基于统计的认知型对话管理技术。
以前语音识别只追求“听清”,语义理解追求一句话层面的“听懂”,而真正的人机智能交互是追求机器能够“听话”,成为真正的“语音机器人”。而且希望它能够有进化和适应的能力,用的越多越听话。语音输入不再局限于呆板简单的句式限制,语音控制也不需要按照机器的设定去命令,在复杂环境和噪音影响下,在自由说话方式(例如打断)下,依然能够保证良好而稳定的语音识别和语义分析精度。人类的自然口语,或许不完整,发音不准确,语义不精确,但是通过上下文关联逻辑,以及多轮对话交互,机器能够进行智能语义推理而准确识别人的意思,大幅度提升使用者的语音交互体验。诸如以下的对话交互,在传统的系统设计中基本在第一轮交互就会导致失败,但在人性化的智能语音交互技术下,却能够顺利进行:
人:“想听一首刘德华的歌。”
机器:“为您找到623首刘德华的歌曲。请问您要听哪一首?”
人:“《兄弟你是我的传说》”
机器:“为您找到两首歌曲,《兄弟》和《如果你是我的传说》。请问您要听哪一首?”
人:“《如果你是我的传说》”
机器:“好的,即刻为您播放。”
语音交互的智能设备更容易打动消费者,这是因为“人性化”带给消费者更好的使用体验。真正的人工智能语音,要以用户为中心,在多类环境下准确识别并反馈,以个性化色彩进行交流。语音交互的未来应当是面向用户,人性化的智能交互,而非过去模块化的交互。抛弃过去单一的语音交互,把识别、语义理解和人机对话连在一起,帮助用户完成任务,这是一个崭新的划时代变革。对话式的交互将成为人机交互的一种常规形式。俞凯说,“我希望通过语音让这个常规的形式有理论依据,能做到国内最好,甚至全世界最好,这算是一个不大不小的梦想吧。”
“智能老师”显身手 破题传统口语教学
如何练好口语?这个问题一直困扰着中国的英语学习者。由于语言环境缺乏亦或是学习方法不当,很多中国英语学习者在学了十几年甚至二十年的英语后,口语能力依然没有明显提升。
其实,语音技术在课堂教学、口语考试及家庭学习中也能一显身手,为第二语言的口语学习提供技术支持,一展先进的智能语音技术与教育事业相结合的无限魅力。
语音评测技术作为口语学习领域的一种新兴技术,建立在计算机技术、模式识别技术以及智能信号处理技术等基础上,可以实现人机交互式教学,一对一口语辅导,帮助用户随时随地练习地道口语,并实现针对口语发音及外语交流能力的自动化评估。有效改善人工测试存在的成本高、耗时大、标准不统一等问题。同时,营造出的全真模拟环境,还能极大增强用户的体验感。
俞凯表示,语音评测技术的运用能极大缓解教学资源的短缺,让所有的孩子都能有机会学习到纯正的外语。他相信,在不久的未来,智能语音评测技术有望成为语言类教学产品的标配。
据悉,当前计算机辅助教学和计算机辅助发音在英语和斯拉夫语领域都已取得丰硕成果,上海交大与苏州驰声公司合作,首次在多个省市的真实中考英语中进行了自动口语评估的实践,经过统计测试,机器自动评测的准确程度超过了普通老师,获得了好评。这一技术开辟了机器自动评测技术在中等教育正式英语口语考试中应用的先河,为未来的英语学习、评测开辟了新的方式。依托该技术,未来有望采用全自动的方式进行英语综合能力的考试评测。该成果也获得了中国人工智能学会颁发的“吴文俊人工智能科技奖进步奖”。本次中德双边研讨会将在此基础上,继续推进相关科研创新,探索并推广至其他语种的二语习得中。
学术与业界的智汇交互
上海交通大学-思必驰智能语音实验室成立于2012年,由思必驰信息科技有限公司与上海交大联合成立,实验室负责人是毕业于剑桥大学的语音博士俞凯,他是上海市“东方学者”特聘教授,同时也是国内学术界“青年千人计划”里唯一一位来自智能语音技术行业领域的语音专家。他所搭建的大词汇连续语音识别系统曾经多次获得美国国家标准局(NIST)和美国国防部内部评测的冠军,也是国际上最早从事端到端的统计对话系统研究的研究者之一,他所搭建的认知型统计对话系统原型曾经在首届国际对话系统挑战赛上获得了可控测试的冠军。目前,智能语音实验室拥有十余名博士和硕士研究生,获得了包括国家自然科学基金委优秀青年科学基金在内的诸多国家和企业项目支持。
俞凯带领团队长期坚持不懈地研究人工智能在人机交互中的应用,涉及语音识别、合成、理解、对话、声纹、口语评估等智能语音交互技术的各个领域。目前,实验室在智能语音技术方面,取得了一系列在国内外领先的技术成果。
在理论上,智能语音实验室采用结构化深度学习技术实现了抗噪语音识别的突破,在语音研究界通用的Aurora4噪声数据库上取得了迄今已发表过的单系统国际最好的结果。上海交大团队提出全新的状态跟踪算法,在有剑桥、微软、CMU等机构参加的国际对话系统挑战赛上取得了三个任务第一、第二、第三的成绩。
在真实工程系统上,上海交大与思必驰信息技术有限公司合作,率先发布了人性化的智能语音交互技术平台:对话工场。并在此平台下,以产学研一体化的模式,正在快速完成人性化的智能语音交互技术从学术研究到商业运作的转变,进入民用市场,打造以用户为中心的“语音机器人”,引领人机口语交互的“人工智能”潮流。