《最in数字人》第二期 | 超低延迟数字人！响应时间小于1秒！

2023-11-28

一场谈话中，，，沉默的时间超过4秒，，，气氛就会变的尴尬

人与人的对话尚且如此，，，更别说数字人了

因此，，，交互速度成为我们衡量一个“全拟真人类个体”是否合格的重要技术指标之一

通常情况下，，，AI驱动的交互型数字人交互反应时长在7-8秒左右

有些“人工智障”甚至要达到20几秒

但是现在，，，这个难题被攻克了

我们的全拟真人类个体响应时间还不到1秒！

《最in数字人》第一期中，，，我们介绍了“全拟真人类个体”的概念及五大要素

本期内容小编将透露降低数字人交互延迟的奥秘！

降低交互延迟“四步曲”

超低延迟“江凌枫” ，，，共享诗词对答丝滑体验

这位侠气十足的古装帅哥，，，是我们的全拟真人类个体“江凌枫”

跟他的对话可以用“纵享丝滑”来形容，，，全程秒问秒答

主打一个绝不让任何人尴尬！

和数字人对话有几步？

回想一下我们平时回答别人问题的时候，，，大脑运转大概分为三步：

1.理解对方的问题

2.构思答案

3.说出答案

数字人的大脑和人类大脑的区别在于，，，人的大脑不是被设计出来的，，，而是经过浩瀚的历史长河，，，通过选择和演化而产生的。。。而数字人的大脑，，，是通过不断的学习训练变得越来越聪明，，，反应速度越来越快。。。

这看似简单的三个步骤对数字人来说，，，需要海量的学习数据，，，通过庞大的计算，，，调用一系列工具才能实现。。。而这个过程中，，，每个环节都可能是造成数字人反应延迟，，，让对话出现尴尬的沉默的原因。。。

总体来说，，，给江凌枫“大脑加速” ，，，让他能够做到秒级响应，，，需要ASR语音识别、、、TTS语音合成、、、Audio2Face语音转表情、、、大模型部署四大方面的技术提效。。。

秒问秒答的江凌枫有何过人之处？

步骤一 ASR语音识别

ASR语音识别的主要任务就是把语言信号转换成文本，，，让数字人理解我们在说什么。。。在这个过程中，，，通过选择在本地部署ASR语音识别引擎的方式，，，能更好地应对网络延迟问题，，，从而加速整个识别过程，，，同时还保护了用户的语音数据隐私。。。

步骤二 TTS语音合成

TTS语音合成环节，，，则是将上一步生成的文本转换为语音的过程，，，让数字人把回答说给我们听。。。

值得一提的是，，，在这个环节，，，我们采用了流式传输的方式，，，通过将字符进行拆分重组，，，分段传回合成语音的方式再次提升了数字人的反应速度。。。

举个例子，，，如果是非流式传输，，，一句简单的“你好，，，我是江凌枫”需要等所有文字全部转成语音后才能统一输出，，，而采用了流式传输，，，数字人可以先将“你好”的语音输出，，，并同时进行“我是江凌枫”的语音合成并输出，，，巧妙地提升数字人回应速度。。。而且，，，这种将一句话分段输出形成消息队列的方式，，，可以在“你好”输出完成被“消费”掉以后，，，不再储存于整个队列中，，，解决大模型负担，，，实现语音合成输出环节的提速。。。

TTS语音合成这一步骤也是在本地完成的，，，在保护用户隐私的前提下，，，极大程度上减少了与远程服务器通信带来的延迟问题。。。

步骤三 Audio2Face语音转表情

人在说话的时候会有自然的表情变化，，，要让数字人实现更真实的交互自然也要具备这种能力。。。Audio2Face语音转表情过程，，，就是让数字人根据语义所表现内容做出面部肌肉运动、、、眨眼等相应表情变化的关键。。。

这个环节中，，，我们着重解决的是当多个数字人同时在任务中，，，由于实例分配不及时导致的延迟问题。。。在布置Audio2Face实例过程中，，，我们自主研发的A2FServer、、、负载均衡服务器两大神器起到了重要作用。。。

A2FServer不仅能够自主匹配实例，，，还能实现持续连接，，，避免暂停交互数字人与实例自动断开连接的情况发生。。。负载均衡服务器可以汇总数字人需要连接的端口、、、公网、、、内网、、、状态、、、是否被占用等信息，，，使数字人可随时查看实例状态并调用，，，降低表情转化的时间。。。

步骤四大模型部署

大模型是数字人“中枢神经” ，，，在实时交互的过程中承担了自然语言处理、、、对话生成、、、个性化交互、、、知识获取与问答、、、创造性文本生成、、、自动化文本生成、、、多轮对话处理等任务。。。

为了让大模型拥有更好的运行环境，，，提升整体效率，，，技术团队采用了高效的硬件和软件架构，，，利用先进的多维并行、、、异构内存管理和低延时推理解决方案，，，来加速训练和推理任务，，，最大程度地提高模型任务的效率。。。在有效降低AI大模型训练、、、微调和推理成本的同时，，，还优化了模型任务的性能表现，，，降低了对GPU的需求。。。通俗来说就是，，，大模型具备了完美的运行环境，，，灵活度自然也变得更好了。。。

除此之外，，，为了满足不同场景的应用需求，，，我们还选择了基于国内数据的预训练基座大模型，，，并对它进行垂直领域的训练和细致调整，，，不仅提升模型在特定任务中的准确性和适用性，，，还使其更符合专业需求。。。就好像当我们花大部分的时间深入研究、、、学习“金融”知识，，，当涉及该领域的内容时，，，能够更快速做出反应并给出精准答案。。。通过这样的训练，，，使数字人交互延迟的问题得到进一步解决。。。

总结

通过ARS语音识别、、、TTS语音合成、、、Audio2Face语音转表情、、、大模型部署四个方面的有效技术提升，，，最终为我们呈现出了“有记忆、、、有灵魂、、、多感情、、、多感知、、、超写实”的全拟真人类个体，，，使得数字人在交互过程中达到“秒级反应” ，，，真正实现了超低延迟的互动体验。。。

波币钱包官方正版 — 防钓鱼·全方位资产防护

《最in数字人》第二期 | 超低延迟数字人！响应时间小于1秒！