沃丰科技AI：如何阻止语音机器人客服说出“你能再重复一遍吗？”

2022-10-14 10:28

当你向世界发布数字助理时，你希望它永远不会说“你能重复一遍吗？” 这四个词表示人类与机器人对话的失败。也许机器人没有接受过用户口音的训练。也许用户的请求可以以多种不同的方式解释，而机器人不确定如何推进对话。也许机器人根本无法处理部署它的嘈杂环境——例如在餐厅。而无论出于什么原因，说“你能重复一遍吗”都会导致用户失去信心，机器人无法满足用户需求。这使得整个事情变得毫无意义。

当你向世界发布数字助理时，你希望它永远不会说“你能重复一遍吗？”

这四个词表示人类与机器人对话的失败。也许机器人没有接受过用户口音的训练。也许用户的请求可以以多种不同的方式解释，而机器人不确定如何推进对话。也许机器人根本无法处理部署它的嘈杂环境——例如在餐厅。而无论出于什么原因，说“你能重复一遍吗”都会导致用户失去信心，机器人无法满足用户需求。这使得整个事情变得毫无意义。

那么，你如何避免那些灾难性的四个词呢？这正是客户关心的，也是科技公司关心的，作为语音机器人的从业人员，在此分享语音机器人成功的6个步骤。

1.ASR技术的重要性

当您与机器人交谈时，转录是您所说内容的技术。你会听到行业内部人士谈论语音转文本或自动语音识别（ASR），但他们实际上是一回事——转录用户口语的技术。

糟糕的转录只是意味着用户被误解了。例如，他们说北京地铁站“上地”，但转录是“上帝”。从那一刻起，机器人可能试图将对话带向一个完全无关紧要的方向。更糟糕的是语音机器人说“对不起，你能重复一遍吗？”

因此，语音转文本的有效性对与语音机器人的对话产生了巨大影响。准确的对话转文本不仅要让对话保持正常，而且是首先开始对话所需的第一个要素。

有可能获得完美的转录吗？

最好的转录员是人类，甚至人类也会犯错误。人类最好的理解能力能够获得 99% 的准确率。这已经足够好了。但是随着深度学习的进步，语音机器人与人类相当的识别率成为可能。

2.响应时间的挑战

当您向朋友发送短信时，您不会希望他们在毫秒内回复。但是声音不同，我们预计语音响应要比文本快得多。但是在中国，语音对话的平均等待时间为0.74秒。时间要比预计长得多。这样的话，用户就认为他们被机器人误解了，或者他们认为机器人忽视了他们。无论如何，这造成了糟糕的客户体验。

那么让我们来看一下这个等待时间语音机器人都做了什么，包括：

1、收集用户的音频输入（他们的单词以及其他可能的符号，如情感）

2、转录所说的话

3、让机器人理解清楚这些话的意思

4、机器人分析用户想做什么

5、在为用户生成应答的同时，为用户提供他们需要的东西

所有这些都比眨眼所需的时间多一点。

响应时间是一个很大的挑战。机器人必须以实时的方式做出反应。因此，您需要一个技术堆栈，可以快速处理大量数据，并协同工作，以类似人类的响应时间扭转对话转折。

3.从目标业务中训练您的模型

您用于训练ASR模型的数据应特定于您的用例。如果您出售保险，您的用户在致电您时将使用特定的单词和短语。这些话语可能与您在公司内部使用的短语不同。这就需要你思考一个问题：“谁会和这个机器人说话？”即你的目标人群是谁。

如果是为了公司内部使用，那么继续使用您在公司视频通话中使用的术语进行培训。如果是针对一部分公众的，那么您必须使用公众音频来代表他们谈论这些事情的方式。

您使用的音频具备以下：

客户使用的单词和短语

客户可能拥有的各种口音

您的客户将在物理环境中与您交谈

为此，您需要一个语音识别系统，允许您针对特定用例重新训练模型。也可以通过第三方科技公司为您的企业模型进行训练。目前以沃丰科技为例的科技公司提供这样的服务，

4.从你能得到的最好的TTS开始，然后改进它

目前随着科技的发展，新一波语音识别初创公司，从一开始就实现了85%至90%的识别精度。而传统提供商的准确率为65%至75%。这是一个很好的开端，但可以进一步改进。

一旦您为您的用例选择了最好的TTS提供商，您将需要根据您的需求调整模型。也许它缺少词汇量，或者它不理解您所在地区的特定口音，或者您的机器人将被部署在嘈杂的环境中。

通过专注于满足这些独特需求的训练数据，您将改进您的机器人，并通过语音识别实现更高的准确性。

如何为特定用例训练语音识别模型，分为两种方式：

内部ASR培训

如果将自己的团队聚集在一起完成这项任务是有意义的，那么好处是您可以确保涵盖域中的特定语言。外包这项工作的风险是，它是由对您的特定语言需求不敏感的人执行的。换句话说，您将能够比任何人都更好地标记您的数据。

外包ASR培训

如果外包更适合您，那么在工作开始前制定“风格指南”至关重要。在这里，您将描述用户可能说的各种事情以及它们的意思。这将有助于外包数据标签团队保持其工作的一致性和准确性。

对于外包企业对选择，企业需要选择一个拥有丰富服务经验的公司，进行定制化的模型训练。以沃丰科技为例，作为中国人工智能与营销服务解决方案提供商，服务过众多世界500强、中国500强，具有丰富的模型训练经验。经验丰富的公司不仅能够根据公司的业务需求进行训练，还能够提供成功案例的经验借鉴，以及丰富的数据存储用于模型训练，一般来说数据越多则意味着ASR识别越准确。

5.语义理解的重要性

关于语义理解，这里有三件事需要记住：

每个用户都可以以自己独特的方式进行沟通，但您的NLP必须能够理解您说的所有内容。

NLP必须能够消除具有不同含义的类似措辞之间的歧义，例如“碰撞”意味着车辆事故或计算机死机。

你需要一个持续改进的策略。您将收到反馈，显示您在哪里犯了一致的错误——您将如何纳入这些反馈以提高语义理解？

通过对客户特定历史记录数据的模型进行培训，进一步提高了理解的准确性。这对于机器人理解语义很重要。

以某鉴别与购物一体化的购物APP为例，它曾和沃丰科技合作过关于文本交互的质检，因此沃丰科技具有其文本数据进行模型训练，当后期有其他例如语音信息质检时，沃丰科技就能够拥有丰富的历史数据，丰富的数据将使得其语音识别与理解的模型训练更为准确。所以对于已经所合作的科技公司可以是你的优先选择。

6.你无法修复你不知道的东西

谁知道机器人的问题，谁有能力解决这些问题？对话设计师、数据科学家或开发人员是否知道机器人遇到了什么问题？如果他们不知道反复出现的问题，他们就无法调整设计来克服这些问题。

在中国，由于SaaS软件提供商的兴盛，很多企业用到语音机器人是在云端部署的，企业自身并不具备自主升级的能力，大多数企业并没有根据自己的业务对软件进行个性化升级。小部分企业有这个意识，但是在企业内部配置运维人员岗位，是一个成本极高的事情。

沃丰科技推出了AI训练师的服务，能够进行全业务场景挖掘、知识库整合梳理、AI业务流程配置、持续训练与运营，能够全程迅速快捷地为企业智能客服的优化升级提供助力。

结论

语音机器人需要了解人类，人类也需要了解语音机器人。自动语音识别和自然语言理解是人工智能会话的核心元素，它促进了机器人理解人类语音的能力。你如何选择、实施和调整这两种技术将对你创建真正理解人的语音助手产生重大影响，最终达成使机器人从不说“对不起，你能再重复一遍吗？”的目标。

THE END

相关阅读

展会预告

新品

汉威科技傅里叶红外气体分析仪 5公里开外，500种气体，一眼便知
石油化工、环境监测、消防应急、船舶港口等领域，往往具有面积大、气体种类多、工况复杂等特点，传统气体探…
奥尼新款4K超清AI智能会议摄像头C98Pro即将上市
汉威科技傅里叶红外气体分析仪 5公里开外，500种气体，一眼便知！
汉威科技推出红外家用可燃气体探测器
思特威推出全新两亿像素超高分辨率手机应用CMOS图像传感器
重磅上市！云深处发布全新行业级小型轮足机器人山猫S10

访谈

护航视频监控网络安全做物联网安全的守护者 ——专访天防安全总经理段伟恒

在万物互联时代，网络安全的重要性日益凸显，尤其在快速发展的城市建设中，搭建的巨大物联网络对其安全保障…
做行业赋能者 HID迎接数字化浪潮新机遇破解新挑战

今年3月份，全球可信身份解决方案提供商HID发布了最新的《安防行业现状报告》（以下简称“报告”），该报告…
数字化浪潮下，安防厂商如何满足行业客户的定制化需求?

回顾近两年，受疫情因素影响，包括安防在内的诸多行业领域都遭受了来自市场 “不确定性”因素的冲击，市场…

企业

福建灵信科技发布“低空无人机巡飞防控解决方案”，构建低空立体
随着低空经济的蓬勃发展，无人机在各领域的应用日益广泛，但非授权飞行（黑飞）也给特定高安全等级和敏感区…
福建灵信科技发布“低空无人机巡飞防控解决方案”，构建低空立体安全屏障
星网宇达：公司的安防雷达采用相控阵技术，主要用于安防监控和反无人机领域
e签宝智能合同Agent入选杭州“人工智能+”标杆项目，与宇树科技、海康威视等共筑AI第
思特威回应差异化涨价：安防AIoT需求回暖联动国产代工厂优化供应链
熵云脑机入选中国标准化协会脑机接口与类脑智能专业委员会理事单位