人工智能不是梦pdf，txt教程

我们的日常生活也可以拥有像《钢铁侠》中的智能管家贾维斯（JARVIS）这样的人工智能

它一样能听会说，可以理解思考，完美地执行着我们的各类语音指令

语音唤醒从电影的设定里我们可以看到，只要托尼·史塔克一声呼唤，老贾的程序便可以激活

现实中，这项技术被我们称为“语音唤醒”

语音唤醒，是指通过含有特定唤醒词的语音输入来“触发”语音识别系统以实现后续的语音交互

通过该技术，任何人在任何环境、任何时间，无论是近场（0.5米以内）还是远场（2~5米），面向产品直接说出预定义的唤醒词，就能让产品的识别引擎处于激活状态，从而真正实现全程无触控的全语音交互流程

目前这项技术已经成功实现并应用

比如，你可以在手机屏幕关闭的情况下，对着语音助手说关键词，就能唤醒灵犀，随后可以进行进行拨号、短信、查询、打开应用等多种手机操作

除了单独说唤醒词来唤醒外，更自然便捷、在技术上更具有挑战性的交互方式是在连续语流中带上唤醒词，以实现唤醒产品并同时实现操控的效果，我们称之为One-shot方案

该方案可以进一步简化人机交互的流程

比如直接通过语音“美的空调十八度”就可以将空调唤醒并同时实现“将空调温度调整至十八度”的语音操作

语音识别在对人工智能唤醒之后就可以进行对话，这也是电影里出现过的场景

托尼说的每一句话，无论语速快慢，声音大小，四周环境多么嘈杂，老贾都能听懂

其实在现实中，让系统“秒懂”人话的技术也早已实现，并且把它广泛应用到手机、电视、车载等众多领域

机器都能作出识别，准确率能够达到95%以上

那么这些神奇的功能是怎么实现的呢？事实上，在极短的时间内，机器内的语音识别系统已经经历了一个极为复杂的分析过程

而为了使语音识别系统有能力、更精确的进行这个分析过程，同样也需要花大力气提前准备好模型等相关资源

在你发出语音指令后，目标语音首先被数字化并送入系统的前端模块

前端模块主要包含语音信号处理和语音特征处理两部分

其中信号处理部分是为了改善识别效果受环境噪声、信道畸变等因素的影响，而特征处理则是将输入语音进行某种符合语音识别需求的“转换”（可以理解为在托尼和老贾之间建立一套双方都懂的”编码“）

总之，一个好的前端模块是提升语音识别系统鲁棒性（Robust音译，稳健的意思）的重要因素

在确定了上述的语音特征处理等规则之后，我们还需要花很大的力气来教会老贾听懂托尼到底说的是什么内容，这个过程就是语音识别系统的模型训练阶段了

在语音识别系统中，模型训练一般又分为声学模型训练和语言模型训练

其中声学模型训练是教会老贾学会“哪个字词发什么音、该怎么连在一起读”

而语言模型训练是教会老贾“什么样的命令或文字组合是合理的、更常见的”，我们通过将包罗万象的百科全书输入到老贾的“记忆”中并通过合适的方式引导它“阅读”，使得它成为一个“出口成章”的渊博机器人管家

在完成后台的模型训练和输入语音的前端处理以后，我们就可以将他们一起送入语音识别系统的解码引擎了

解码引擎的工作是在一个巨大的网络里边进行搜索，这个网络由数亿节点及弧组成，并且里边已经糅合了前边所描述的声学模型以及语言模型信息，搜索出来的最优路径上所携带的信息就是对应的语音识别结果了

解码引擎的运算效率至关重要，直接影响到用户体验
可以看到，让机器识别人话，背后竟蕴含着如此复杂的技术

而我们相信，随着科技的不断发展，拥有一个完美的“老贾”也不是梦想

（供稿：科大讯飞）喜宝君本着能用图片表达绝不用文字赘述的心态搜集当下流行的智能设备、智能产品、科技产品，逢双的日子21:18分为大家带来体验感和品测

（ps：节假日可能有特辑或者福利哦）喜欢喜宝君的朋友可以点个zan鼓励一下，也可以转fa本文章或者关注支持一下，您的满意，我的动力，如果有不满意的地方也可以留下您的意见，我不保证改

如果有好的内容或者有你想看到的内容，欢迎在后台留言或者投稿

获取

Related Posts