我们的日常生活也可以拥有像《钢铁侠》中的智能管家贾维斯(JARVIS)这样的人工智能
它一样能听会说,可以理解思考,完美地执行着我们的各类语音指令
语音唤醒 从电影的设定里我们可以看到,只要托尼·史塔克一声呼唤,老贾的程序便可以激活
现实中,这项技术被我们称为“语音唤醒”
语音唤醒,是指通过含有特定唤醒词的语音输入来“触发”语音识别系统以实现后续的语音交互
通过该技术,任何人在任何环境、任何时间,无论是近场(0.5米以内)还是远场(2~5米),面向产品直接说出预定义的唤醒词,就能让产品的识别引擎处于激活状态,从而真正实现全程无触控的全语音交互流程
目前这项技术已经成功实现并应用
比如,你可以在手机屏幕关闭的情况下,对着语音助手说关键词,就能唤醒灵犀,随后可以进行进行拨号、短信、查询、打开应用等多种手机操作
除了单独说唤醒词来唤醒外,更自然便捷、在技术上更具有挑战性的交互方式是在连续语流中带上唤醒词,以实现唤醒产品并同时实现操控的效果,我们称之为One-shot方案
该方案可以进一步简化人机交互的流程
比如直接通过语音“美的空调十八度”就可以将空调唤醒并同时实现“将空调温度调整至十八度”的语音操作
语音识别 在对人工智能唤醒之后就可以进行对话,这也是电影里出现过的场景
托尼说的每一句话,无论语速快慢,声音大小,四周环境多么嘈杂,老贾都能听懂
其实在现实中,让系统“秒懂”人话的技术也早已实现,并且把它广泛应用到手机、电视、车载等众多领域
机器都能作出识别,准确率能够达到95%以上
那么这些神奇的功能是怎么实现的呢? 事实上,在极短的时间内,机器内的语音识别系统已经经历了一个极为复杂的分析过程
而为了使语音识别系统有能力、更精确的进行这个分析过程,同样也需要花大力气提前准备好模型等相关资源
在你发出语音指令后,目标语音首先被数字化并送入系统的前端模块
前端模块主要包含语音信号处理和语音特征处理两部分
其中信号处理部分是为了改善识别效果受环境噪声、信道畸变等因素的影响,而特征处理则是将输入语音进行某种符合语音识别需求的“转换”(可以理解为在托尼和老贾之间建立一套双方都懂的”编码“)
总之,一个好的前端模块是提升语音识别系统鲁棒性(Robust音译,稳健的意思)的重要因素
在确定了上述的语音特征处理等规则之后,我们还需要花很大的力气来教会老贾听懂托尼到底说的是什么内容,这个过程就是语音识别系统的模型训练阶段了
在语音识别系统中,模型训练一般又分为声学模型训练和语言模型训练
其中声学模型训练是教会老贾学会“哪个字词发什么音、该怎么连在一起读”
而语言模型训练是教会老贾“什么样的命令或文字组合是合理的、更常见的”,我们通过将包罗万象的百科全书输入到老贾的“记忆”中并通过合适的方式引导它“阅读”,使得它成为一个“出口成章”的渊博机器人管家
在完成后台的模型训练和输入语音的前端处理以后,我们就可以将他们一起送入语音识别系统的解码引擎了
解码引擎的工作是在一个巨大的网络里边进行搜索,这个网络由数亿节点及弧组成,并且里边已经糅合了前边所描述的声学模型以及语言模型信息,搜索出来的最优路径上所携带的信息就是对应的语音识别结果了
解码引擎的运算效率至关重要,直接影响到用户体验 可以看到,让机器识别人话,背后竟蕴含着如此复杂的技术
而我们相信,随着科技的不断发展,拥有一个完美的“老贾”也不是梦想
(供稿:科大讯飞) 喜宝君本着能用图片表达绝不用文字赘述的心态 搜集当下流行的智能设备、智能产品 、科技产品,逢双的日子21:18分为大家带来体验感和品测
(ps:节假日可能有特辑或者福利哦) 喜欢喜宝君的朋友可以点个zan鼓励一下,也可以转fa本文章或者关注支持一下,您的满意,我的动力,如果有不满意的地方也可以留下您的意见,我不保证改
如果有好的内容或者有你想看到的内容,欢迎在后台留言或者投稿