2023-11-28
一场谈话中 ,,,沉默的时间超过4秒 ,,,气氛就会变的尴尬
人与人的对话尚且如此 ,,,更别说数字人了
因此 ,,,交互速度成为我们衡量一个“全拟真人类个体”是否合格的重要技术指标之一
通常情况下 ,,,AI驱动的交互型数字人交互反应时长在7-8秒左右
有些“人工智障”甚至要达到20几秒
但是现在 ,,,这个难题被攻克了
我们的全拟真人类个体响应时间还不到1秒!
《最in数字人》第一期中 ,,,我们介绍了“全拟真人类个体”的概念及五大要素
本期内容小编将透露降低数字人交互延迟的奥秘!
降低交互延迟“四步曲”

超低延迟“江凌枫” ,,,共享诗词对答丝滑体验
这位侠气十足的古装帅哥 ,,,是我们的全拟真人类个体“江凌枫”
跟他的对话可以用“纵享丝滑”来形容 ,,,全程秒问秒答
主打一个绝不让任何人尴尬!
和数字人对话有几步?
回想一下我们平时回答别人问题的时候 ,,,大脑运转大概分为三步:
1.理解对方的问题
2.构思答案
3.说出答案
数字人的大脑和人类大脑的区别在于 ,,,人的大脑不是被设计出来的 ,,,而是经过浩瀚的历史长河 ,,,通过选择和演化而产生的。。。而数字人的大脑 ,,,是通过不断的学习训练变得越来越聪明 ,,,反应速度越来越快。。。
这看似简单的三个步骤对数字人来说 ,,,需要海量的学习数据 ,,,通过庞大的计算 ,,,调用一系列工具才能实现。。。而这个过程中 ,,,每个环节都可能是造成数字人反应延迟 ,,,让对话出现尴尬的沉默的原因。。。
总体来说 ,,,给江凌枫“大脑加速” ,,,让他能够做到秒级响应 ,,,需要ASR语音识别、、、TTS语音合成、、、Audio2Face语音转表情、、、大模型部署四大方面的技术提效。。。
秒问秒答的江凌枫有何过人之处?
步骤一 ASR语音识别
ASR语音识别的主要任务就是把语言信号转换成文本 ,,,让数字人理解我们在说什么。。。在这个过程中 ,,,通过选择在本地部署ASR语音识别引擎的方式 ,,,能更好地应对网络延迟问题 ,,,从而加速整个识别过程 ,,,同时还保护了用户的语音数据隐私。。。
步骤二 TTS语音合成
TTS语音合成环节 ,,,则是将上一步生成的文本转换为语音的过程 ,,,让数字人把回答说给我们听。。。
值得一提的是 ,,,在这个环节 ,,,我们采用了流式传输的方式 ,,,通过将字符进行拆分重组 ,,,分段传回合成语音的方式再次提升了数字人的反应速度。。。
举个例子 ,,,如果是非流式传输 ,,,一句简单的“你好 ,,,我是江凌枫”需要等所有文字全部转成语音后才能统一输出 ,,,而采用了流式传输 ,,,数字人可以先将“你好”的语音输出 ,,,并同时进行“我是江凌枫”的语音合成并输出 ,,,巧妙地提升数字人回应速度。。。而且 ,,,这种将一句话分段输出形成消息队列的方式 ,,,可以在“你好”输出完成被“消费”掉以后 ,,,不再储存于整个队列中 ,,,解决大模型负担 ,,,实现语音合成输出环节的提速。。。
TTS语音合成这一步骤也是在本地完成的 ,,,在保护用户隐私的前提下 ,,,极大程度上减少了与远程服务器通信带来的延迟问题。。。
步骤三 Audio2Face语音转表情
人在说话的时候会有自然的表情变化 ,,,要让数字人实现更真实的交互自然也要具备这种能力。。。Audio2Face语音转表情过程 ,,,就是让数字人根据语义所表现内容做出面部肌肉运动、、、眨眼等相应表情变化的关键。。。
这个环节中 ,,,我们着重解决的是当多个数字人同时在任务中 ,,,由于实例分配不及时导致的延迟问题。。。在布置Audio2Face实例过程中 ,,,我们自主研发的A2FServer、、、负载均衡服务器两大神器起到了重要作用。。。
A2FServer不仅能够自主匹配实例 ,,,还能实现持续连接 ,,,避免暂停交互数字人与实例自动断开连接的情况发生。。。负载均衡服务器可以汇总数字人需要连接的端口、、、公网、、、内网、、、状态、、、是否被占用等信息 ,,,使数字人可随时查看实例状态并调用 ,,,降低表情转化的时间。。。
步骤四 大模型部署
大模型是数字人“中枢神经” ,,,在实时交互的过程中承担了自然语言处理、、、对话生成、、、个性化交互、、、知识获取与问答、、、创造性文本生成、、、自动化文本生成、、、多轮对话处理等任务。。。
为了让大模型拥有更好的运行环境 ,,,提升整体效率 ,,,技术团队采用了高效的硬件和软件架构 ,,,利用先进的多维并行、、、异构内存管理和低延时推理解决方案 ,,,来加速训练和推理任务 ,,,最大程度地提高模型任务的效率。。。在有效降低AI大模型训练、、、微调和推理成本的同时 ,,,还优化了模型任务的性能表现 ,,,降低了对GPU的需求。。。通俗来说就是 ,,,大模型具备了完美的运行环境 ,,,灵活度自然也变得更好了。。。
除此之外 ,,,为了满足不同场景的应用需求 ,,,我们还选择了基于国内数据的预训练基座大模型 ,,,并对它进行垂直领域的训练和细致调整 ,,,不仅提升模型在特定任务中的准确性和适用性 ,,,还使其更符合专业需求。。。就好像当我们花大部分的时间深入研究、、、学习“金融”知识 ,,,当涉及该领域的内容时 ,,,能够更快速做出反应并给出精准答案。。。通过这样的训练 ,,,使数字人交互延迟的问题得到进一步解决。。。
总结
通过ARS语音识别、、、TTS语音合成、、、Audio2Face语音转表情、、、大模型部署四个方面的有效技术提升 ,,,最终为我们呈现出了“有记忆、、、有灵魂、、、多感情、、、多感知、、、超写实”的全拟真人类个体 ,,,使得数字人在交互过程中达到“秒级反应” ,,,真正实现了超低延迟的互动体验。。。