音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

机器之心发布

机器之心编辑部

柔和

高昂

rap

更多丰富风格的展示,可移步项目主页:

在不同的图片风格上,Loopy也都表现得不错,像古风画像、粘土风格、油画风格、3D素材以及侧脸的情况等等。

Loopy技术方案

具体来说,Loopy是如何仅需音频,就能实现这样生动的效果呢?

Loopy框架中分别对外观信息(对应图中左上角)和音频信息(图中左下角)做了相应的方法设计,在外观上团队引入了inter/intra-cliptemporallayers模块,通过inter-cliptemporallayer来捕捉跨时间片段的时序信息,通过intra-cliptemporallayer来捕捉单个片段内的时序信息,通过分而治之的方式更好建模人物的运动信息。

除此以外,为了能够捕捉到细腻的表情变化,团队设计了一个名为audiotolatents(A2L)的模块,用来增强音频和头部运动之间的关联关系。这个A2L模块在训练过程中会随机选取音频、表情参数、运动参数中的一个,将其转化为motionlatents,作为diffusionmodel的运动控制信号。在测试的时候,只需要音频就能够得到motionlatents。通过这种方式,可以借助与肖像运动强相关的条件(表情参数、运动参数)来帮助较弱相关的条件(audio)生成更好的motionlatents,进而实现对细微生动的肖像运动及表情的生成。

Loopy在不同场景下都和近期的方法做了数值对比,也体现了相当的优势:

CyberHost半身人像版模型,手部动作也能驱动

CodebookAttention引入了一系列可学习的时空联合隐变量参数,专注于在训练过程中学习数据集中局部区域的结构特征和运动模式。同时,该机制还提取了关键区域的外观特征,强化了局部ID的一致性。团队将这一机制应用于脸部和手部区域,并在DenoisingU-Net的各个阶段进行插入,提升了对关键区域的建模能力。

更多细节见论文以及项目主页:

CyberHost:

团队介绍

目前,智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。更多大模型算法相关岗位开放中。

版权声明:本站所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流,不声明或保证其内容的正确性,如发现本站有涉嫌抄袭侵权/违法违规的内容。请举报,一经查实,本站将立刻删除。

相关推荐