Sora原理？OpenAI Sora原理解读

2月16日，Openai在没有预热的情况下丢出一枚“核弹”，那就是Sora。这是一个文生视频的模型，有人可能会问不是还有pika这些文生视频的工具吗。Sora跟其他那些根本就不在一个次元上了。

Sora 的强大之处在于能够根据文本描述，生成长达 60 秒连贯流畅的的视频，而其他的仅仅只能生成几秒的视频。

看下面这段官方展示的视频，这段视频用无人机的视觉来展现东京街头的一堆情侣，旁边还有美丽的樱花。虽然这段视频前面的一小节不太合理，但是已经做的非常好了。因为其他工具做出来的视频还只是单镜头，而sora已经做到了多镜头的无缝衔接，可谓是遥遥领先！

sora是如何做到的？

OpenAI团队探索了在视频数据上大规模训练生成模型。具体地说，就是时间、分辨率和纵横比的视频和图像上进行了基于文本的扩散模型。利用了一种 transformer 架构，这种架构在视频和图像潜在代码的时空补丁上运行。Sora就在这个基础上诞生的。

首先先聊一下AI生图的原理是什么？先将图片分割成很多小块，然后给他们打上标签，然后对图片进行加噪点，10%的噪点、20%的噪点，直到加满噪点，然后将这些图片丢去训练，去预测原始的“干净”图。

而视频也是类似，只是视频多了一个时间的维度，需要对视频进行降维处理然后再进行训练。

数据处理

OpenAI团队受到了大型语言模型的启发，LLM模型使用了特定的标记方法来统一各种不同的文本模式，例如代码、数学语言、以及各种的自然语言。Sora则使用patches，这是一种既可拓展又高效的方法，适用于在不同类型的视频和图片上训练生成模型。

在高维度上，先将视频压缩到低维度的latent空间，从而将视频转换为时空嵌入然后再分解为patches。

视频压缩网络

我们训练了一个网络可以降低视觉数据的维度。简单来说就是传入一段视频，然后输出的内容是在时间和空间是压缩过的潜在表示。Sora在这里接受训练然后生成视频。另外，他们还训练了这个压缩器对应的解码器，可以将生成的内容转换为我们熟悉的视频。

也就是说Sora生成的也是低维度的数据，需要经过解码器才能得到我们想要的内容。

时空隐式patches

当给定一个压缩后的输入视频时，我们会从中提取出一系列的时空包，这些包被用作转换token。这一方案不仅适用于视频，因为视频本质上就是由连续帧构成的，所以图像也可以看作是单帧的视频。通过这种基于包的表示方式，Sora能够跨越不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理阶段，我们只需在适当大小的网格中安排随机初始化的包，就可以控制生成视频的大小和分辨率。

用于视频生成的缩放转换

Sora是一个扩散模型，它接受输入的噪声包（以及如文本提示等条件性输入信息），然后被训练去预测原始的“干净”包。重要的是，Sora是一个基于扩散的转换器模型，这种模型已经在多个领域展现了显著的扩展性，包括语言建模、计算机视觉以及图像生成等领域。

Sora有什么优势？

更丰富的持续时间、分辨率与纵横比

过去，图像和视频生成方法常常需要将视频调整大小、裁剪或修剪至标准尺寸，如4秒、256x256分辨率的视频。但Sora打破了这一常规，它直接在原始大小的数据上进行训练，从而带来了诸多优势。

更灵活的采样

Sora 可以对横屏1920x1080p视频、竖屏1080x1920p视频以及介于两者之间的所有视频进行采样。这就意味着Sora可以直接为不同分辨率的设备创建内容。

改进的取景和构图

我们的实验结果显示，在视频的原始纵横比上进行训练，能够显著提升构图和框架的质量。为了验证这一点，我们将Sora与一个将所有训练视频裁剪为方形的模型版本进行了比较。结果发现，在正方形裁剪上训练的模型有时会生成仅部分显示主题的视频。而Sora则能呈现出更加完美的帧，充分展现了其在视频生成领域的卓越性能。