关于语音的交互,你应该知道的一些事

HMI人机交互   2020-09-16

伴随着人工智能的发展,声音交流逐渐成为我们交流的主要方式之一,因为语音交互更自然,亲切感更好~,得益于技术的蓬勃发展,智能音箱和智能家居产品的兴起,正在逐步被人们所接受。


1、语音交互技术的利弊

从按压作用下的交互开始,到目前的语音交互,这期间经历了几百年,但按压式互动仍然没有被完全取代,在电话上用音量键,计算机的键盘等。到处都是这样的人。声音识别和自然语言处理是如此的成熟,为什麽我们不能完全靠声音控制?

这里要谈一下交互的基本原理,即是交互设计中使用爽的方式:

简单易行:尽可能减少用户学习成本。

精确性:能精确地完成我们想做的。

天然:人体工程学设计,看上去像个正常的人。

首先来看看鼠键和触控的交互作用,鼠键交互与触控交互,其主要优点是精确,而且操作操作的简单和自然也比不上触控。触觉是人的本性,与鼠标映射相比,它更简单,研究费用低,也更自然地操作,不必坐在电脑前摇摇晃晃,随时可操作。那就是为什么手机的互动方式压倒了电脑,但计算机由于其更精确的特性,永远都是这样。

不可能有比直接说出来更简单的方法,更加自然无需付出学习成本,但语音交互的最大问题在于不够精确。第一,受环境影响,造成语音识别准确率低;再者,表达意图的说法千变万化,甚至还不能涵盖全部;最后,语音交互是一个开放领域,有许多意外情况需要处理。并未考虑某些场景不适合语音交互,例如会议场景,全家都在睡觉等。

言语交流的好处和坏处一样明显,它还导致语音交互最终不能替代其它交互模式,多重互动模式将长期共存。因此,我们需要结合实际情况,利用语音交互的优势,与之相反,不要一味追求声音。


2、交互模式的发展

从工业革命开始,人与人之间的互动逐渐进入人们的视野。

从传统的按压操作开始,机械式按钮,按住机器,直到它得到相应的反馈,比如现在手机的开机键。

接下来是鼠键交互,结合起来使用鼠标+键盘,在可视显示器上映射,单击以实现交互。

随后进行了触控交互,触摸屏幕普及,大家开始习惯于在屏幕上戳戳,我们每天都会用到这个触控交互。

直到现在,基于上面两种交互方式,由此也引出了语音和手势的交互,由于大数据和人工智能的发展,这一切都有赖于,我们通常使用的智能音箱和手机助手就在这里。

在将来,意识交互技术最有可能普及,电脑能识别人类大脑,由此得到直接反馈,先前看到的脸谱网有一种脑波输入法,近来埃隆·马斯克又做了脑-机接口,觉得那天离我们越来越近


pic2.jpg



3、怎样设计语音交互呢?

因为技术原因,语言交流的准确性很低,它还导致了语音交互在今后相当长的时间内,并不是互动的唯一方式,相反,多种互动模式并存,也许处在一个辅助状态。

当设计语音交互时,可按三个步骤梳理。

1.识别互动场景。

首先考虑当前场景是否适合语音交互。适于语音交互的场景具有以下特征:

减少环境噪声,或噪声处于稳定可控制状态;

利用环境隐私,或无心理负担的当前环境交互;

命令发出失败的容忍度很高,也没有补救方案;

用对象的手被占用,或是远离操作按钮;

所触发的指令的目的是简短明确的。

基于上述特征,研究发现,手机的智能助手满足上述条件,由于移动电话的使用场景丰富,涵盖了生活的方方面面,然后,将有完全适合语音交互的场景,因此,每个人都想成为自己的语音助手。一般的智能音箱和车内助手,同样非常合适。

2.识别互动反馈。

二是考虑语音交互后的反馈,能保证信息的准确传递;将语音交互的夫人反馈简单地分为三类:

理解所得到的反馈;

不理解的回馈;

不正常状况的反馈

(1)了解反馈意见:这种意见更好理解,设计起来相当简单。只需了解使用者的意图,然后我们会给出明确的反馈意见,总体上将视和听同时反馈给用户,然后执行相应的指令

(2)不能理解的反馈:不能理解需要进行分级,就是一点也不明白,还能理解一点意思,仍有理解之感,但没有证实,那全部算在不理解的范围内。要是完全不明白的话,总体的反馈内容分为两部分,其一,表示不明白,还有就是要引导用户说机器人会什么。例如“XXXXXXX”,无相应处理方案,对机器人来说是不能理解的,你可以回答“这个我不明白,”你可以跟我说‘开空调’。”

要是能明白一点的话,只能听到一个关键词,或是说话的语调,还可以做一些回复。例如"开放XX",不能听到后面的声音,你可以这样回答:“你想打开什么设备?””,接着再根据反馈进行多次回复。

要是能理解的话,但没有证实,然后才能直接反问,允许用户进行二次确认。例如“打开空白条,觉得用户想说“开空调”,你只需要回答:“你想开空调吗?””,接着再根据反馈进行多次回复。

(3)还有许多不正常的状况,但我们都需要得到反馈。例如噪音,断网,等等,提醒用户当前状态:要避免无结果的频繁用户交互。

识别互动关系

同时还设置了语音交互以及其它交互方式的关系。通常,设备不会只携带一种交互方式,而且是多种互动方式的结合。移动电话是一种典型的多种交互方式的组合,因此,考虑一下声音与触控的关系,例如,是否希望语音支持手机关闭,声音指令支持中断当前任务吗?

提供语音互动、先确定语音交互是否合适,第二层是解决语音交互中的分层反馈,最终清晰的设计语音及其它交互关系。


4、语音交互技术的未来。

谈到语音交流,许多人会说,这是与人类最和谐的互动,由于我们感觉到人与人之间有声音的交流。但事实并非如此,当我们讲话时,有表情,有动作,这种丰富的交互方式被我们称为多模式交互。

语音交互的未来是多模式交互。如今,传统的语音互动,只是简单地获取用户的文本信息,根据文字意识来进行处理,高层次的将会利用上面提到的信息,在更远的地方,将基于用户画像进行反馈。多重模式的交互不仅需要文字信息,这也需要想象,信息,如声音,基于不同的权重,提出合理的意见。

事实上,当人们交谈时,从字面上看,也有许多隐藏信息,面临不同的身份,不相关的人,有可能有不同反馈的内容。因此需要为机器设置人工操作,也要给用户分类,有时甚至要做个千篇一律的人。

与传统互动方式相比,语音互动,更加依赖算法和数据,因此,未来的语音交互需要技术突破。


在生活中,我们有各种各样的交流方式,每种交互方式都有其利弊,因此,许多传统的互动方式将永远存在。声音的互动是最简单的,互动的最自然方式,但是,这也是最不精确的交互方式。它还注定了语音交互将长期处于辅助触控交互的状态,但也有一些不够精确的场景,纯粹的语音交互也是可能的。

将来的话音互动继续发展,还会进一步划分人群,多模式信息反馈的组合。


维好维可-用户体验体验创新设计

联系我们:

关注我们微信

关注我们,一起探索美好

+86-21-51115850
©2010-2021 维好维可 | 用户体验创新设计咨询公司-版权所有
沪ICP备19006116号-1

Hi,  认识一下
请留下需求和联系方式

合作咨询
+86-21-51115850
© 2010-2020  维好维可 | 用户体验创新设计咨询公司
沪ICP备19006116号-1
维好维可-微信二维码