两分钟1200帧的长视频生成器StreamingT2V来了，代码将开源

admin 2024-11-16 共160人围观，发现267个评论

机器之心报道

编辑：Panda

广阔的战场，风暴兵在奔跑……

prompt：Wideshotofbattlefield,stormtroopersrunning

为此，该团队提出了条件注意力模块（CAM）。得益于其注意力性质，它可以有效地借用之前帧的内容信息来生成新的帧，同时还不会让之前帧的结构/形状限制新帧中的运动情况。

方法

条件注意力模块

其中特征提取器使用了逐帧的图像编码器，之后是与Video-LDMUNet直到中间层一直使用的一样的编码器层（并通过UNet的权重初始化）。

外观保留模块

为了让APM能平衡处理锚帧和文本指令给出的引导信息，该团队做出了两点改进：（1）将锚帧的CLIP图像token与文本指令的CLIP文本token混合起来；（2）为每个交叉注意力层引入了一个权重来使用交叉注意力。

为此，该团队的解决方案是随机混合方法。具体详情请参阅原论文。

实验

在实验中，该团队使用的评估指标包括：用于评估时间一致性的SCuts分数、用于评估运动量和扭变误差的运动感知扭变误差（MAWE）、用于评估文本对齐质量的CLIP文本图像相似度分数（CLIP）、美学分数（AE）。

消融研究

为了评估各种新组件的有效性，该团队从验证集中随机采样75个prompt执行了消融研究。

长期记忆：图6表明长期记忆能在自回归生成过程中极大帮助维持对象和场景的特征稳定。

在一个定量评估指标（人再识别分数）上，APM实现了20%的提升。

StreamingT2V对比基线模型

更多研究细节，可参考原论文。

不容错过

友情链接