浙江同花顺申请数字人视频生成专利使生成的数字人视频充分考虑对话场景下的音频与动作

2024-12-12ai数字人软件

　　将肢体动作、头部姿态融合到音频驱动的扩散网络中，金融界2024年11月1日消息，公开号 CN 118842975 A，以便通过目标数字人模型根据目标音频数据进行关键点序列预测，包括：获取投顾对话场景下的目标说话对象图像和目标音频数据；以得到用于控制数字人说话时头部动作和上半身肢体动作的目标关键点序列；本申请公开了一种数字人视频生成方法、装置、设备及介质，将目标说话对象图像和所述目标音频数据输入至目标数字人模型，申请日期为 2024 年 7 月。专利摘要显示，使生成的数字人视频充分考虑了对话场景下的音频与动作交互和音频提供的时序信息。国家知识产权局信息显示，浙江同花顺智能科技有限公司申请一项名为“一种数字人视频生成方法、装置、设备及介质”的专利，涉及计算机技术领域，通过目标数字人模型并根据目标关键点序列、目标说话对象图像、目标音频数据的音频特征控制并合成连续的数字人视频。