Follow-Your-Emoji – 腾讯等推出的基于扩散模型的人像动画框架

121 0 0

Follow-Your-Emoji是什么

Follow-Your-Emoji是由香港科技大学、腾讯混元和清华大学的研究人员推出的一个基于扩散模型的人像动画框架，利用扩散模型为参考肖像添加目标表情序列，实现动态动画效果。该技术通过表情感知标志点精确对齐表情与肖像，避免身份信息泄露，同时使用面部精细损失函数强化模型对微妙表情变化的捕捉能力。Follow-Your-Emoji支持多种风格的人像动画，包括真人、卡通、雕塑甚至动物，展现出高度的控制性和表现力。

Follow-Your-Emoji的功能特色

动态表情同步：利用扩散模型技术，Follow-Your-Emoji能够将预定义或实时捕获的表情序列精确同步到静态参考肖像上，实现如眨眼、微笑、皱眉等复杂表情的动态变化。
身份特征保持：在动画化过程中，框架特别设计了机制来确保参考肖像的关键身份特征得以保留，即使在表情变化剧烈时也能防止身份信息的失真或泄露。
夸张表情表现：通过表情感知标志点技术，框架能够捕捉并再现夸张的表情动作，例如在卡通或漫画风格中常见的大幅度瞳孔扩张或收缩，增强动画的表现力。
多风格适应：Follow-Your-Emoji框架不仅限于现实风格的肖像，还能够适应并动画化卡通、雕塑、动物等不同艺术风格和表现形式的肖像，显示出其广泛的适用性。
时间连贯性：通过面部精细损失函数，框架在生成每一帧动画时都考虑到了与前后帧的连贯性，确保整个动画序列在时间上的自然过渡和流畅表现。
长期动画生成：采用渐进式生成策略，Follow-Your-Emoji能够生成不仅在短期内连贯，而且在长期播放中也能保持稳定性和高质量的动画效果。
高度控制性：用户可以细致地控制表情序列，从而对动画输出进行精确调整，允许用户根据特定需求定制动画效果，实现个性化创作。

Follow-Your-Emoji的官网入口

官方项目主页：https://follow-your-emoji.github.io/
arXiv技术论文：https://arxiv.org/abs/2406.01900

Follow-Your-Emoji的技术原理

基于扩散模型的框架：使用扩散模型（Stable Diffusion）作为基础，这是一种先进的深度学习模型，能够生成高质量的图像和视频内容。
表情感知标志点（Expression-Aware Landmark）：利用MediaPipe等工具从动态视频中提取3D关键点，然后将其投影到2D平面，形成用于指导动画过程的表情感知标志点。这些标志点特别关注于表情变化的关键区域，如眼睛（瞳孔点）和嘴巴，以实现更精确的表情同步。
面部精细损失（Facial Fine-Grained Loss Function）：引入一种新的损失函数，通过面部遮罩和表情遮罩来指导模型在训练过程中更加关注面部表情的细节。该损失函数通过计算预测结果与真实结果在遮罩区域内的差异，帮助模型学习如何更好地捕捉微妙的表情变化。
多风格适应性：框架设计为能够适应不同风格的肖像，无论是真人、卡通、雕塑还是动物，都能够实现自然的动画效果。
渐进式生成策略：为了生成长期动画，采用从粗糙到精细的渐进式生成策略，首先生成关键帧，然后通过插值生成中间帧，以保持动画的连贯性和稳定性。
时间注意力机制：在UNet网络中加入时间注意力层，以保持动画帧之间的时间一致性和动态连贯性。
预训练与微调：使用大量的表达训练数据集对模型进行预训练，然后针对特定的动画任务进行微调，以提高模型的表现力和准确性。
数据集和基准建设：团队构建了EmojiBench基准，包含多种风格和表情的肖像视频，用于评估和验证模型的性能。
推理与动画生成：在推理阶段，模型结合表情感知标志点和时间注意力机制，生成动态的肖像动画，同时保持参考肖像的身份特征。
用户控制与定制：用户可以通过提供不同的输入表情序列来控制动画的输出，实现高度定制化的动画效果。