关于语音的交互，你应该知道的一些事

HMI人机交互 2020-09-16

伴随着人工智能的发展，声音交流逐渐成为我们交流的主要方式之一，因为语音交互更自然，亲切感更好～，得益于技术的蓬勃发展，智能音箱和智能家居产品的兴起，正在逐步被人们所接受。

1、语音交互技术的利弊

从按压作用下的交互开始，到目前的语音交互，这期间经历了几百年，但按压式互动仍然没有被完全取代，在电话上用音量键，计算机的键盘等。到处都是这样的人。声音识别和自然语言处理是如此的成熟，为什麽我们不能完全靠声音控制？

这里要谈一下交互的基本原理，即是交互设计中使用爽的方式：

简单易行：尽可能减少用户学习成本。

精确性：能精确地完成我们想做的。

天然：人体工程学设计，看上去像个正常的人。

首先来看看鼠键和触控的交互作用，鼠键交互与触控交互，其主要优点是精确，而且操作操作的简单和自然也比不上触控。触觉是人的本性，与鼠标映射相比，它更简单，研究费用低，也更自然地操作，不必坐在电脑前摇摇晃晃，随时可操作。那就是为什么手机的互动方式压倒了电脑，但计算机由于其更精确的特性，永远都是这样。

不可能有比直接说出来更简单的方法，更加自然无需付出学习成本，但语音交互的最大问题在于不够精确。第一，受环境影响，造成语音识别准确率低；再者，表达意图的说法千变万化，甚至还不能涵盖全部；最后，语音交互是一个开放领域，有许多意外情况需要处理。并未考虑某些场景不适合语音交互，例如会议场景，全家都在睡觉等。

言语交流的好处和坏处一样明显，它还导致语音交互最终不能替代其它交互模式，多重互动模式将长期共存。因此，我们需要结合实际情况，利用语音交互的优势，与之相反，不要一味追求声音。

2、交互模式的发展

从工业革命开始，人与人之间的互动逐渐进入人们的视野。

从传统的按压操作开始，机械式按钮，按住机器，直到它得到相应的反馈，比如现在手机的开机键。

接下来是鼠键交互，结合起来使用鼠标+键盘，在可视显示器上映射，单击以实现交互。

随后进行了触控交互，触摸屏幕普及，大家开始习惯于在屏幕上戳戳，我们每天都会用到这个触控交互。

直到现在，基于上面两种交互方式，由此也引出了语音和手势的交互，由于大数据和人工智能的发展，这一切都有赖于，我们通常使用的智能音箱和手机助手就在这里。

在将来，意识交互技术最有可能普及，电脑能识别人类大脑，由此得到直接反馈，先前看到的脸谱网有一种脑波输入法，近来埃隆·马斯克又做了脑-机接口，觉得那天离我们越来越近

3、怎样设计语音交互呢？

因为技术原因，语言交流的准确性很低，它还导致了语音交互在今后相当长的时间内，并不是互动的唯一方式，相反，多种互动模式并存，也许处在一个辅助状态。

当设计语音交互时，可按三个步骤梳理。

1.识别互动场景。

首先考虑当前场景是否适合语音交互。适于语音交互的场景具有以下特征：

减少环境噪声，或噪声处于稳定可控制状态；

利用环境隐私，或无心理负担的当前环境交互；

命令发出失败的容忍度很高，也没有补救方案；

用对象的手被占用，或是远离操作按钮；

所触发的指令的目的是简短明确的。

基于上述特征，研究发现，手机的智能助手满足上述条件，由于移动电话的使用场景丰富，涵盖了生活的方方面面，然后，将有完全适合语音交互的场景，因此，每个人都想成为自己的语音助手。一般的智能音箱和车内助手，同样非常合适。

2.识别互动反馈。

二是考虑语音交互后的反馈，能保证信息的准确传递；将语音交互的夫人反馈简单地分为三类：

理解所得到的反馈；

不理解的回馈；

不正常状况的反馈

(1)了解反馈意见：这种意见更好理解，设计起来相当简单。只需了解使用者的意图，然后我们会给出明确的反馈意见，总体上将视和听同时反馈给用户，然后执行相应的指令

(2)不能理解的反馈：不能理解需要进行分级，就是一点也不明白，还能理解一点意思，仍有理解之感，但没有证实，那全部算在不理解的范围内。要是完全不明白的话，总体的反馈内容分为两部分，其一，表示不明白，还有就是要引导用户说机器人会什么。例如“XXXXXXX”，无相应处理方案，对机器人来说是不能理解的，你可以回答“这个我不明白，”你可以跟我说‘开空调’。”

要是能明白一点的话，只能听到一个关键词，或是说话的语调，还可以做一些回复。例如"开放XX"，不能听到后面的声音，你可以这样回答：“你想打开什么设备？””，接着再根据反馈进行多次回复。

要是能理解的话，但没有证实，然后才能直接反问，允许用户进行二次确认。例如“打开空白条，觉得用户想说“开空调”，你只需要回答：“你想开空调吗？””，接着再根据反馈进行多次回复。

(3)还有许多不正常的状况，但我们都需要得到反馈。例如噪音，断网，等等，提醒用户当前状态：要避免无结果的频繁用户交互。

识别互动关系

同时还设置了语音交互以及其它交互方式的关系。通常，设备不会只携带一种交互方式，而且是多种互动方式的结合。移动电话是一种典型的多种交互方式的组合，因此，考虑一下声音与触控的关系，例如，是否希望语音支持手机关闭，声音指令支持中断当前任务吗？

提供语音互动、先确定语音交互是否合适，第二层是解决语音交互中的分层反馈，最终清晰的设计语音及其它交互关系。

4、语音交互技术的未来。

谈到语音交流，许多人会说，这是与人类最和谐的互动，由于我们感觉到人与人之间有声音的交流。但事实并非如此，当我们讲话时，有表情，有动作，这种丰富的交互方式被我们称为多模式交互。

语音交互的未来是多模式交互。如今，传统的语音互动，只是简单地获取用户的文本信息，根据文字意识来进行处理，高层次的将会利用上面提到的信息，在更远的地方，将基于用户画像进行反馈。多重模式的交互不仅需要文字信息，这也需要想象，信息，如声音，基于不同的权重，提出合理的意见。

事实上，当人们交谈时，从字面上看，也有许多隐藏信息，面临不同的身份，不相关的人，有可能有不同反馈的内容。因此需要为机器设置人工操作，也要给用户分类，有时甚至要做个千篇一律的人。

与传统互动方式相比，语音互动，更加依赖算法和数据，因此，未来的语音交互需要技术突破。

在生活中，我们有各种各样的交流方式，每种交互方式都有其利弊，因此，许多传统的互动方式将永远存在。声音的互动是最简单的，互动的最自然方式，但是，这也是最不精确的交互方式。它还注定了语音交互将长期处于辅助触控交互的状态，但也有一些不够精确的场景，纯粹的语音交互也是可能的。

将来的话音互动继续发展，还会进一步划分人群，多模式信息反馈的组合。

上一篇：手机银行APP产品设计时的三大发力点及注意事项

下一篇：企业信息化建设中存在的问题？

关于语音的交互，你应该知道的一些事

相关文章

相关推荐

最新观点

需求留言 + 获取方案