OpenAI发布首个文生视频模型Sora

来源：界面新闻 • 时间：2024-02-16 11:21 •阅读次

界面新闻记者 | 程璐

界面新闻编辑 | 文姝琪

2月16日凌晨，OpenAI再次扔出一枚深水炸弹，发布了首个文生视频模型Sora。据介绍，Sora可以直接输出长达60秒的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。

目前官网上已经更新了48个视频demo，在这些demo中，Sora不仅能准确呈现细节，还能理解物体在物理世界中的存在，并生成具有丰富情感的角色。该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。

例如一个Prompt（大语言模型中的提示词）的描述是：在东京街头，一位时髦的女士穿梭在充满温暖霓虹灯光和动感城市标志的街道上。

在Sora生成的视频里，女士身着黑色皮衣、红色裙子在霓虹街头行走，不仅主体连贯稳定，还有多镜头，包括从大街景慢慢切入到对女士的脸部表情的特写，以及潮湿的街道地面反射霓虹灯的光影效果。

另一个Prompt则是，一只猫试图叫醒熟睡的主人，要求吃早餐，主人试图忽略这只猫，但猫尝试了新招，最终主人从枕头下拿出藏起来的零食，让猫自己再多待一会儿。在这个AI生成视频里，猫甚至都学会了踩奶，对主人鼻头的触碰甚至都是轻轻的，接近物理世界里猫的真实反应。

OpenAI表示，他们正在教AI理解和模拟运动中的物理世界，目标是训练模型来帮助人们解决需要现实世界交互的问题。

随后OpenAI解释了Sora的工作原理，Sora是一个扩散模型，它从类似于静态噪声的视频开始，通过多个步骤逐渐去除噪声，视频也从最初的随机像素转化为清晰的图像场景。Sora使用了Transformer架构，有极强的扩展性。

视频和图像是被称为“补丁”的较小数据单位集合，每个“补丁”都类似于GPT中的一个标记（Token），通过统一的数据表达方式，可以在更广泛的视觉数据上训练和扩散变化，包括不同的时间、分辨率和纵横比。

Sora是基于过去对DALL·E和GPT的研究基础构建，利用DALL·E 3的重述提示词技术，为视觉模型训练数据生成高描述性的标注，因此模型能更好的遵循文本指令。

一位YouTube博主Paddy Galloway发表了对Sora的感想，他表示内容创作行业已经永远的改变了，并且毫不夸张。“我进入YouTube世界已经15年时间，但OpenAI刚刚的展示让我无言…动画师/3D艺术家们有麻烦了，素材网站将变得无关紧要，任何人都可以无壁垒获得难以置信的产品，内容背后的‘想法’和故事将变得更加重要。”

但Sora模型当前也存在弱点。OpenAI称它可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系。例如，一个人可能咬了一口饼干后，饼干会没有咬痕，玻璃破碎的物理过程可能也无法被准确呈现。

网友看法

1、网友我就是希妈呀：已经不错了，期待颠覆性产品问世，缩小技术性的从业壁垒。我最近学习了一下国内的文案转视频的软件，结果是生成了一条视频，视频的内容是阅读我给出的文案，有些无语。

2、网友铂金瞳：虚拟和现实的界限越来越模糊

3、网友运筹帷幄暖阳aY：AI图片中的女人应该是现实存在的

4、网友aixia：期待更多免费又简捷的版本

5、网友半季稻：看来短视频行业也要迎来翻天覆地的变化了。

6、网友老蒋是神经：转发了

7、网友红孩牛：生成AI加脑机，是不是缸脑要出世了

8、网友极客简单微风：虽然很厉害了，但是还是一眼假，

9、网友进击中的A先生：我内心深处自然而然地流露出深深的恐慌，手不禁微微颤抖起来，深呼吸一下，把网络关了，看你怎么“入侵”我，去你大爷的A.I.

本财经资讯由聚成财经网发布，版权来源于原作者，不代表聚成财经网立场和观点，如有标注错误或侵犯利益请联系我们。

OpenAI发布首个文生视频模型Sora

网友看法

相关财经

猜你喜欢

最新财经

联系我们