文本天生视频Make-A-Video，根据一句话就能一键天生视频 Meta新AI模子

显示全部楼层 · 2023-8-23 12:00:22

Meta公司（原Facebook）在本年9月29日首次推出一款人工智能体系模子：Make-A-Video，可以从给定的文字提示天生短视频。
Make-A-Video研究基于文本到图像天生技术的最新希望，该技术旨在实现文本到视频的天生，可以仅用几个单词或几行文本天生异想天开、独一无二的视频，将无穷的想象力带入生存。好比一句“三马奔驰”天生视频：

开端预览地点：https://makeavideo.studio/
文章链接：https://arxiv.org/abs/2209.14792
本篇文章将根据论文边解读边先容文本天生视频的效果、技术、发展和明白。
一、摘要

我们提出了Make-A-Video——一种直接将文本到图像（T2I）天生的最新巨大希望转换为文本到视频（T2V）的方法。我们的直觉很简单：从成对的文本图像数据中了解天下的样子和形貌方式，并从无监督的视频片断中了解天下是怎样移动的。Make-A-Video有三个长处：（1）它加快了T2V模子的训练（它不须要从头开始学习视觉和多模态表现），（2）它不须要成对的文本视频数据，以及（3）天生的视频继续了当今图像天生模子的广度（审美、抱负形貌等方面的多样性）。我们筹划了一种简单而有用的方法，用新颖有用的时空模块创建T2I模子。首先，我们分解全时间U-Net和留意张量，并在空间和时间上近似它们。其次，我们筹划了一个时空流水线来天生高分辨率和帧速率视频，此中包罗视频解码器、插值模子和两个超分辨率模子，可以实现除T2V以外的各种应用。Make-a-video在时空分辨率、对文本的忠实度和质量等各个方面都开创了文本到视频天生的最新技术，由定性和定量测量确定。
二、文本天生视频

2.1、效果预览

模子可以为差异的视觉概念集天生具有连贯运动的高质量视频，如：
一只穿着赤色斗篷超级好汉服装的狗，在天空中飞翔。

一对年轻夫妇在大雨中行走

猫手里拿着遥控器看电视

尚有一些其他的例子：

2.2、难点：没有文本-视频对的数据集

互联网为研究网络了数十亿计的文本-图像数据对，这是文本天生图像能够成功建模的基石之一。然而，由于无法轻松网络雷同巨细的文本-视频数据集，为文本天生视频复制这种成功是极其有限的，而且现在都已经存在了可以天生图像的模子，从头开始训练文本天生视频模子也是极其浪费资源的。
无监督学习使网络能够从数量级的更多数据中学习，这些大量的数据对于学习天下上更微妙、更不常见的概念的表现非常紧张，以这种方式预先训练的模子比单独以监督方式训练的模子具有更高的性能，受这些动机的启发，Make-A-Video孕育而生。
Make-A-Video利用T2I模子学习文本和视觉天下之间的对应关系，并利用未标记（未配对）视频数据的无监督学习来学习真实运动。
2.2、难点：推断动作和变乱

文本天生图像都是静态的，人们通常可以从静态图像推断出动作和变乱，但是盘算机并不具备这种本领，且形貌图像的文本并不能完全显现这种动作和变乱细节。
同样，作者利用了无监督学习，纵然没有文字形貌，无监督学习也足以了解天下上差异的实体是怎样移动和相互作用的。
Make-A-Video开创了T2V新一代的最新技术。
作者利用函数保持变更，在模子初始化阶段扩展了空间层，以包含时间信息。扩展的时空网络包罗新的留意力模块，可以从视频聚会合学习时间天下动态。该步伐通过将先前训练的T2I网络中的知识瞬间转移到新的T2V网络中，大大加快了T2V培训过程。作者训练空间超分辨率模子以及帧插值模子，提高天生视频的分辨率，并支持更高（可控）的帧速率。
2.3、紧张贡献

我们利用连合文本-图像先验来绕过对成对文本-视频数据的须要，这反过来又允许我们潜伏地扩展到更大数量的视频数据。
我们提出了空间和时间上的超分辨率策略，首次在用户提供文本输入的情况下天生高清、高帧速率视频。
我们根据现有T2V体系评估Make-A-Video，并提出：（A）定量和定性测量的最新效果，以及（b）比现有T2V文献更全面的评估。

三、模子

紧张框架如上图所示，Make-A-Video由三个紧张组件组成：（i）基于文本图像对训练的基本T2I模子（ii）时空卷积层和留意力层以及（iii）用于提高帧率的帧插值网络和两个用来提升画质的超分网络
Make-A-Video的最终T2V推理方案（如图2所示）可以表述为：
y t ^ = S R h ∘ S R l t ∘ ↑ F ∘ D t ∘ P ∘ ( x ^ , C x ( x ) ) \hat{y_{t}}=\mathrm{SR}_{h} \circ \mathrm{SR}_{l}^{t} \circ \uparrow_{F} \circ \mathrm{D}^{t} \circ \mathrm{P} \circ\left(\hat{x}, \mathrm{C}_{x}(x)\right) yt^=SRh∘SRlt∘↑F∘Dt∘P∘(x^,Cx(x))
此中，ˆyt是天生的视频，SRh、SRl是空间和时空超分辨率网络（第3.2节），↑F是帧插值网络，Dt是时空解码器，P是先验，ˆx是BPE编码的文本，Cx是CLIP文本编码器，x是输入文本
3.1、文本天生图像

在添加时空信息前，模子的主干是一个基于文本天生图像的T2I模子。利用以下网络从文本天生高分辨率图像：（i）一个先前的网络P（ii）一个解码器网络D，以及（iii）两个超分辨率网络，将天生的图像分辨率分别增加到256×256和768×768像素，最终天生图像。
3.2、时空条理

为了将二维条件网络（即只能天生2d图像）扩展到时间维度，作者修改了两个关键构建块（卷积层和留意力层），这两个构建块现在不但须要空间维度，还须要时间维度，以便天生视频。
，然后基于U-Net的扩散网络举行时间修改，利用时空解码器Dt天生16个RGB帧，然后通过在16个天生的帧和超分辨率网络SRtl之间插值来增加有用帧速率。

超分辨率包含幻觉信息。为了不出现闪灼的伪影，幻觉必须在帧之间保持一致。因此，我们的SRtl模块跨空间和时间维度运行。由于内存和盘算的限定以及高分辨率视频数据的稀缺性，将SRh扩展到时间维度是一个挑衅。因此，SRh仅沿空间维度运行。但为了在帧之间产生一致的细节幻觉，我们对每个帧利用雷同的噪声初始化
3.3、伪三维卷积层

受可分离卷积的启发（Cholet，2017），我们在每个2D卷积（conv）层之后叠加一个1D卷积，如图3所示。这有助于空间轴和时间轴之间的信息共享，而不会屈服于3D conv层的繁重盘算负载。此外，它在预先训练的2D conv层和新初始化的1D conv层之间创建了一个具体分区，允许我们从头开始训练时间卷积，同时生存空间卷积权重中先前学习的空间知识。
伪三维卷积层界说为：
Conv ⁡ P 3 D ( h ) : = Conv ⁡ 1 D ( Conv ⁡ 2 D ( h ) ∘ T ) ∘ T , \operatorname{Conv}_{P 3 D}(h):=\operatorname{Conv}_{1 D}\left(\operatorname{Conv}_{2 D}(h) \circ T\right) \circ T, ConvP3D(h):=Conv1D(Conv2D(h)∘T)∘T,
3.4 、伪3D留意层

T2I网络的一个紧张组成部门是留意层，作者将维度分解策略扩展到了留意力层。在每个（预先训练的）空间留意层之后，叠加一个时间留意层，与卷积层一样，它近似于一个完整的时空留意层。伪三维留意层界说为：
ATTN ⁡ P 3 D ( h ) = unflatten ( A T T N 1 D ( A T T N 2 D ( flatten ( h ) ) ∘ T ) ∘ T ) . \operatorname{ATTN}_{P 3 D}(h)=\text { unflatten }\left(A T T N_{1 D}\left(A T T N_{2 D}(\text { flatten }(h)) \circ T\right) \circ T\right) . ATTNP3D(h)= unflatten (ATTN1D(ATTN2D( flatten (h))∘T)∘T).
帧速率调治。除了T2I条件之外，雷同于CogVideo（Hong等人，2022），作者还添加了一个额外的条件参数fps，表现天生的视频中每秒的帧数。对每秒差异帧数的条件举行调治，使额外的增强方法能够在训练时处理有限的可用视频量，并在推理时对天生的视频提供额外的控制。
3.5、帧插值网络

除了时空修改外，作者还训练了一个新的屏蔽帧内插和外推网络↑F，能够通过帧插值来增加天生视频的帧数，以获得更平滑的天生视频，大概通过帧前/帧后外推来延长视频长度。为了提高内存和盘算限定内的帧速率，我们对屏蔽帧插值使命的时空解码器Dt举行微调，通过对屏蔽输入帧举行零填充，实现视频上采样。
3.6、训练

上述Make-A-Video的差异组件都是独立训练的，唯一吸收文本作为输入的组件是之前的P。
解码器吸收CLIP图像嵌入作为输入，而超分辨率组件吸收降采样图像作为训练期间的输入。在对图像举行训练后，我们添加并初始化新的时间层，并在未标记的视频数据上对其举行微调。从原始视频中采样16帧，f ps的随机范围为1到30。我们利用beta函数举行采样，在训练解码器时，从较高的FPS范围（较少运动）开始，然后过渡到较低的FPS幅度（较多运动）。屏蔽帧插值组件从时间解码器举行微调。
四、实验

由于是独立训练的，以是每个组件训练的数据集都差异
数据集：NSFW、HD-VILA-100M、WebVid-10M、HD-VILA-10M、UCF-101、MSR-VTT
定量评估：Frechet Video Distance （FVD）、 Inception Score（IS）、Frechet Inception Distance (FID) 、CLIPSIM (视频帧和文本之间的匀称CLIP相似性)
人工评估：在Amazon Mechanical Turk（AMT）网络了包含300个提示的评估集，扣问表明者，如果有T2V体系，他们会对天生什么感爱好。别的利用Imagen的DrawBench提示举行人类评估。我们评估视频质量和文本视频忠诚度。对于视频质量，我们以随机顺序表现两个视频，并扣问表明者哪一个质量更高。
五、定量效果

六、定性效果

七、讨论

向我们附近的天放学习是人类智力的最大优势之一。正如我们通过观察很快学会辨认人、地点、事物和举动一样，如果天生体系能够模拟人类的学习方式，那么它们将更具创造性和实用性。且利用无监督学习学习动态的天下，尚有助于研究职员摆脱对标记数据的依赖。
作者在末了提到的几个技术限定：

无法学习文本和只能在视频中推断出的现象之间的关联。怎样整合这些内容（比方，天生一段某人从左到右或从右到左挥手的视频）
天生更长的视频，此中包含多个场景和变乱
形貌更具体的故事。
模子已经学习并可能夸大了社会私见，包罗有害的私见。

末了

文本天生视频Make-A-Video，根据一句话就能一键天生视频 Meta新AI模子

本帖子中包含更多资源

浏览过的版块