专业IT科技资讯平台,关注科技、手机、电脑、智能硬件、电脑知识!
当前位置:主页 > VR >

腾讯俞栋:定义下一代智能人机交互 从目标、挑战到实现路径

导读:

语音识别及深度学习领域专家、腾讯AI Lab副主任及西雅图实验室负责人俞栋博士,在2018年腾讯全球合作伙

语音识别及深度学习领域专家、腾讯AI Lab副主任及西雅图实验室负责人俞栋博士,在2018年腾讯全球合作伙伴大会上展示了腾讯AI正在推进的跨领域前沿研究:下一代的多模态智能人机交互。以下是有补充的演讲全文,介绍了人机交互的历史与目标、下一代智能人机交 互的优势与挑战,及腾讯AI的解决方案。

人机交互的未来,就是多模态智能人机交互

很长时间以来,计算机都只能在人们经过特定的训练之后才能使用,比如学习各种控制命令、理解各种图标的含义、熟悉各种程序的交互逻辑、练习使用键盘和鼠标等。对某些没有能力或没有意愿学习这些交互方式的人(比如盲人或年迈的老人),计算机将很难成为他们生活的一部分。

幸运的是,随着近些年来人工智能技术的发展,机器感知世界的能力也突飞猛进,计算机与人类的交互方式也正变得越来越自然,学习成本也越来越低。现在,虽然还远不够完美,但计算机已经能在一定程度上听懂人类的话语、预测人类的意图以及理解人脸的表情了。在这些研究和工程进展的基础上,研究者和开发者正基于“以人为中心”的原则探索未来的人机交互方式——多模态智能人机交互。

多模态智能人机交互是指使用人工智能技术,通过多种模态的信号(比如语音、文本、动作、表情等)实现人与机器的交互,其最终目标是使人机交互与人人交互一样便捷和自然。

人机交互的历史和目标

在计算机的发展历史上,随着技术的进步,发生过几次大的交互模式的演进。最近的两次大家比较熟悉的转变是从以鼠标/键盘为主的交互模式转换为以触摸和语音为主的交互模式。

人类创造计算机的最早目的是帮助自己处理一些繁琐的计算任务,比如弹道计算;那时候,只有经过训练的专业人员才有能力向计算机输入信息和阅读计算机输出的结果。随着硬件和软件技术的发展,计算机的速度越来越快,功能也愈渐强大,人与计算机的交互方式也越来越多样化,并日益向对人类而言更自然更便捷的“以人为中心”的方向发展。实际上,在计算机的发展历史上已发生过几次显著的交互范式演进。

1946 年正式投入使用的世界第一台通用计算机 ENIAC 的输入和输出都在卡带上进行,这种人机交互方式需要对卡带进行加工(打孔或涂绘等),从而为计算机提供二进制程序,因此速度缓慢。60 年代中期,命令行界面出现了,计算机使用者可以通过键盘直接输入程序并在屏幕上获得反馈,各种编程语言也顺势发展。1968 年,Douglas Engelbart 设计的 NLS 系统将鼠标、指针、超文本和多窗口界面整合进了计算机系统中,奠定了我们当今的主流桌面计算机的基于图形界面的形式基础。

现在,智能手机的普及已经让人们习惯了基于触摸屏的交互方式,现在几乎所有有人的地方都有“点手机”的身影。在语音识别和自然语言处理技术的推动下,基于语音的交互方式也正在迅猛发展——智能语音助手已经成为了很多智能手机的标配,智能音箱也正在进入越来越多的家庭。此外,基于计算机视觉乃至脑波分析的交互技术也已经出现,比如通过人脸跟踪控制系统或通过检测玩家的表情来个性化地调整视频游戏的难度和剧情等。

腾讯俞栋:定义下一代智能人机交互 从目标、挑战到实现路径

交互模式的演进主要还是为了降低交互的困难程度,使更多人能够使用计算和智能设备,也使用户能够方便地使用更多形态和数量的设备。显而易见,每一次交互范式的转变都带来了新的用户群体、新的应用场景、新的商业模式、和新的想象空间。比如触摸方式的普及使很多老年人也会使用智能设备,语音技术的进展则使得我们可以远距离控制设备,极大地增加了可交互设备的数量。但是,新型交互方式并不会在所有场景中都完全替代已有的交互方式;在可预见的未来里,程序命令、图形界面和语音等交互方式都将有各自更为擅长的应用场景,基于智能处理技术的多模态交互将成为人机交互发展的未来

多模态智能人机交互系统的优势

多模态的智能人机交互相比单模态的传统交互方式有几个优点。

腾讯俞栋:定义下一代智能人机交互 从目标、挑战到实现路径

多模态智能人机交互系统的优势

优势1: 交互自然

最明显的优点是交互的自然度和自由度,用户可以根据场合以及对不同模态的熟悉度来选择一种或多种方式与设备交互,比如用户可以用手势或语音或者结合手势和语音来表达同一意思。

优势2:信息融合

在很多场景下,单一的信息源往往不足以保证系统的准确率和鲁棒性,比如在高噪音场景下,语音信号会受到很大干扰从而影响语音识别的准确率。然而通过多模态信息的融合,比如同时基于手势、口型或面部表情我们可以获得更精确的语义信息。不但如此,多模态信息融合也可以使系统更准确地辨识用户、情感、场景、和发声人位置,从而降低交互的成本。

优势3:互为监督

不同模态之间可以互相提供关联和监督信息。不同模态之间的关联是语义理解的一个很重要的组成部分,比如当我们提到一个有实体的概念时我们往往会联想到这个实体的形状、声音、运动方式等诸多方面,又比如当我们听到咣当一声时会联想到门被关上了,并且头脑中会出现门的形象。这些都是通过多模态之间的关联学习到的。不同模态之间的关联和监督信息还能够帮助系统在运行过程中持续做自适应学习,比如当系统同时具备麦克风阵列和摄像头阵列时,麦克风和摄像头可以互相提供校准信息。

优势4:多维感觉

这对用户和系统都很重要,因为人在交互过程中,除了语言信息外,还会使用很多副语言信息和非语言信息,例如态度、情感、意图等。这些信息很多是通过面部表情和肢体语言来辅助表达的。多维感觉对用户尤其重要,因为用户可以在多模态交互系统中从视觉、听觉、触觉等多个维度来感知和体会智能设备想要表达的情感和语义。

智能人机交互系统的终极目标

智能人机交互系统的终极目标是使人与机器交互和人与人交互一样轻松自然。我们认为从以人为本的角度来看,理想的系统应该具有几个重要的指标。

腾讯俞栋:定义下一代智能人机交互 从目标、挑战到实现路径

智能人机交互系统的终极目标

目标1:不用学就会

最重要的指标就是不用学就会,如果用户愿意学习一些不熟悉的交互方式,他/她会有更多的选择,但是如果他/她不愿意学的化也能以其最自然的方式比如听觉和视觉与机器交互。

目标2:多模态交互