未来语音接口:科技将科幻变为现实
随着虚拟助手变得更加智能,我们对它们的期望越来越高。 现在,简单的语音命令实际上被认为是理所当然的,深度学习可以实现更复杂的交互,如情境对话和情感侦测。 先前本文作者曾讨论当前流行的语音接口的缺点和缺失特征,但是这些复杂的情况正在消除...
随着虚拟助手变得更加智能,我们对它们的期望越来越高。 现在,简单的语音命令实际上被认为是理所当然的,深度学习可以实现更复杂的交互,如情境对话和情感侦测。 在我之前的专栏中,我回顾了当前流行的语音接口的缺点和缺失特征,但是这些复杂的情况正濒临消除。 在本文中,我将展望未来的语音接口和能够推动它们的技术。
图1 描述一台来自电视剧《西部世界》的 Android「主机」。 (图片来源:HBO)
能够相互通讯的长时倾听机器
语音优先用户接口(UI)需要长时间倾听。 这对使用小电池的小型便携设备来说是一个挑战,每微瓦都是宝贵的。 在这方面,有趣的发展之一是使用压电从声波产生电能。 一家专门研究这项技术的公司Vesper最近为压电微机电系统(MEMS)麦克风的研发募集了1,500万美元。 此外,在CES 2017上,Vesper和DSP Group展示其电池供电装置的近零功率语音启动。 当环境安静时,他们的解决方案使用压电效能来保持系统处于低功耗唤醒模式,该平台使用DBMD4始终在线的语音和音频处理器实现了比现有方法低五倍的功耗(根据公司数据)。
这项技术可能成为真正的长时倾听接口的解决方案,即使是最小的电池供电装置,如苹果(Apple)的AirPods(目前需要点击来操作Siri)。 可以从这项技术获益的另一个装置是Amazon Echo Tap。 Tap最近实现了软件升级,使其能够长时倾听,但升级将待机时间从3周缩短至约8小时。 哎呀! 使用上述方法,待机时间可以增加到几个月! 未来随着压电技术的改进,像Tap这样的装置待机时间可能会达到数年(图2)。
图2 微型VM1010压电MEMS麦克风可以在接近零功率时用声音唤醒。 (来源:Vesper)
对于整体UI,机器还必须能够彼此通讯,以及与人类进行通讯。 为了避免被限制在每个服务提供商的封闭生态系统(称为「围墙花园」)中,装置之间应该有一个统一的通讯协议,类似智能型手机应用程序的深度链接。 这个问题的一个解决方案可能是让装置透过无声的超声波音频进行通讯,就像LISNR提供的技术。 该解决方案使用音波传输可定制的数据封包,在启用的装置上启用近距离数据传输、第二屏幕功能、身份验证和装置到装置连接功能。
用于个性化用户体验的生物特征识别
语音接口的另一个理想特征是用户个性化。 每个人都有独特的声音和自己的特征;这被称为「声纹」。 透过声纹辨识每个用户的技能是语音接口的巨大进步,它将透过了解每个用户经常使用哪些服务、喜欢的音乐等,为每个用户提供个性化体验。 例如,如果你和其他家庭成员使用同一个语音助手,你们每个人都可以问「我的每日行程是什么? 」,但你只会收到你自己的行程内容。 另外,声纹也可以用于生物特征识别,确保用信用卡消费时只能由持卡人或其他授权用户进行。
有传言表示Amazon的Alexa很快就会具备这样的技能;然而,在此期间,不同用户之间的切换只能透过语音进行,而不能进行身份认证。 Google Home同样如此,但是Google Pixel手机上的「语音助手」具备「信任的声音」功能,这使用户可以透过说「Ok,Google」来解锁手机,这也显示其应用了这项技术。 下一步是将其适当地整合在具有远程语音拾取功能的装置中,为多个用户提供服务。 实现这一点的主要障碍是在语音识别之前处理语音输入,以清理语音输入时引入的失真,如本文中所述,为什么语音助手无法知道谁在说话?
在我最近的专栏中,介绍了语音接口背后的现今技术,我提到一些用于清除语音命令噪声和回声的算法。 在将数据传送到通常位于云中的自动语音识别(ASR)引擎之前执行,清理过程倾向于消除构成声纹的独特标记,结果是,传送到云端的语音数据足以理解所说的内容,但不能确定是谁说的话。 在这种情况下,执行边缘分析,也就是处理装置而不是云端的语音可以解决问题。 与针对视讯分析的边缘处理一样,与基于云端的处理相比,高效的边缘解决方案可以改进隐私保护、提高安全性、提升速度并降低成本。
把事情放在上下文中:类似人类的记忆
虚拟助手的下一个挑战将是利用深度学习的力量来建立类似人类的记忆技能。 这将使助手以人类自然地与其他人交往的相同方式进行对话。 这包括在上下文中引用事物的能力;例如,让我们考虑以下对话:
人类:「你记得我上个月要你订购进口啤酒,好让举办我妻子的生日聚会吗? 」 机器:「是的,是可乐娜黑啤酒,你要我再订一包六罐装吗? 」 人类:「再订两包六罐装。 」 机器:「好了,两包六罐装可乐娜黑啤酒正在送来的路上。 」
对于两个人来说,这是一个简单而微不足道的交谈。 但是为了让机器理解需订购什么啤酒,它必须记住下上一个订单的上下文,这需要以智能的方式组合不同领域的知识(如订单历程记录、家庭成员、行事历场合)以正确理解要求。 另外,请注意:在上述情景下,机器可以理解需要它的协助,即使没有明确地将其称为如今的装置。
使用卷积深度神经网络(DNN),机器在需要复杂思想、情境记忆和决策的任务中,越来越接近于人类的表现。 从而为无人驾驶汽车制定驾驶策略到在伦敦地铁导航,复杂的DNN使机器达到实现这一目标所必需的智能水平成为可能。
随着虚拟助手变得更加智能,我们对它们的期望越来越高。 现在,简单的语音命令实际上被认为是理所当然的,深度学习可以实现更复杂的交互,如情境对话和情感侦测。 在我之前的专栏中,我回顾了当前流行的语音接口的缺点和缺失特征,但是这些复杂的情况正濒临消除。 在本文中,我将展望未来的语音接口和能够推动它们的技术。
图1 描述一台来自电视剧《西部世界》的 Android「主机」。 (图片来源:HBO)
能够相互通讯的长时倾听机器
语音优先用户接口(UI)需要长时间倾听。 这对使用小电池的小型便携设备来说是一个挑战,每微瓦都是宝贵的。 在这方面,有趣的发展之一是使用压电从声波产生电能。 一家专门研究这项技术的公司Vesper最近为压电微机电系统(MEMS)麦克风的研发募集了1,500万美元。 此外,在CES 2017上,Vesper和DSP Group展示其电池供电装置的近零功率语音启动。 当环境安静时,他们的解决方案使用压电效能来保持系统处于低功耗唤醒模式,该平台使用DBMD4始终在线的语音和音频处理器实现了比现有方法低五倍的功耗(根据公司数据)。
这项技术可能成为真正的长时倾听接口的解决方案,即使是最小的电池供电装置,如苹果(Apple)的AirPods(目前需要点击来操作Siri)。 可以从这项技术获益的另一个装置是Amazon Echo Tap。 Tap最近实现了软件升级,使其能够长时倾听,但升级将待机时间从3周缩短至约8小时。 哎呀! 使用上述方法,待机时间可以增加到几个月! 未来随着压电技术的改进,像Tap这样的装置待机时间可能会达到数年(图2)。
图2 微型VM1010压电MEMS麦克风可以在接近零功率时用声音唤醒。 (来源:Vesper)
对于整体UI,机器还必须能够彼此通讯,以及与人类进行通讯。 为了避免被限制在每个服务提供商的封闭生态系统(称为「围墙花园」)中,装置之间应该有一个统一的通讯协议,类似智能型手机应用程序的深度链接。 这个问题的一个解决方案可能是让装置透过无声的超声波音频进行通讯,就像LISNR提供的技术。 该解决方案使用音波传输可定制的数据封包,在启用的装置上启用近距离数据传输、第二屏幕功能、身份验证和装置到装置连接功能。
用于个性化用户体验的生物特征识别
语音接口的另一个理想特征是用户个性化。 每个人都有独特的声音和自己的特征;这被称为「声纹」。 透过声纹辨识每个用户的技能是语音接口的巨大进步,它将透过了解每个用户经常使用哪些服务、喜欢的音乐等,为每个用户提供个性化体验。 例如,如果你和其他家庭成员使用同一个语音助手,你们每个人都可以问「我的每日行程是什么? 」,但你只会收到你自己的行程内容。 另外,声纹也可以用于生物特征识别,确保用信用卡消费时只能由持卡人或其他授权用户进行。
有传言表示Amazon的Alexa很快就会具备这样的技能;然而,在此期间,不同用户之间的切换只能透过语音进行,而不能进行身份认证。 Google Home同样如此,但是Google Pixel手机上的「语音助手」具备「信任的声音」功能,这使用户可以透过说「Ok,Google」来解锁手机,这也显示其应用了这项技术。 下一步是将其适当地整合在具有远程语音拾取功能的装置中,为多个用户提供服务。 实现这一点的主要障碍是在语音识别之前处理语音输入,以清理语音输入时引入的失真,如本文中所述,为什么语音助手无法知道谁在说话?
在我最近的专栏中,介绍了语音接口背后的现今技术,我提到一些用于清除语音命令噪声和回声的算法。 在将数据传送到通常位于云中的自动语音识别(ASR)引擎之前执行,清理过程倾向于消除构成声纹的独特标记,结果是,传送到云端的语音数据足以理解所说的内容,但不能确定是谁说的话。 在这种情况下,执行边缘分析,也就是处理装置而不是云端的语音可以解决问题。 与针对视讯分析的边缘处理一样,与基于云端的处理相比,高效的边缘解决方案可以改进隐私保护、提高安全性、提升速度并降低成本。
把事情放在上下文中:类似人类的记忆
虚拟助手的下一个挑战将是利用深度学习的力量来建立类似人类的记忆技能。 这将使助手以人类自然地与其他人交往的相同方式进行对话。 这包括在上下文中引用事物的能力;例如,让我们考虑以下对话:
人类:「你记得我上个月要你订购进口啤酒,好让举办我妻子的生日聚会吗? 」 机器:「是的,是可乐娜黑啤酒,你要我再订一包六罐装吗? 」 人类:「再订两包六罐装。 」 机器:「好了,两包六罐装可乐娜黑啤酒正在送来的路上。 」
对于两个人来说,这是一个简单而微不足道的交谈。 但是为了让机器理解需订购什么啤酒,它必须记住下上一个订单的上下文,这需要以智能的方式组合不同领域的知识(如订单历程记录、家庭成员、行事历场合)以正确理解要求。 另外,请注意:在上述情景下,机器可以理解需要它的协助,即使没有明确地将其称为如今的装置。
使用卷积深度神经网络(DNN),机器在需要复杂思想、情境记忆和决策的任务中,越来越接近于人类的表现。 从而为无人驾驶汽车制定驾驶策略到在伦敦地铁导航,复杂的DNN使机器达到实现这一目标所必需的智能水平成为可能。
来源:eettaiwan
#接口#
#语音#
THE END