OpenAI 的野心没有终点。长文详解 Sora 的终目标,功能介绍,局限性及技术原理
2024-02-17 01:49
泡芙的元宇宙
2024-02-17 01:49
订阅此专栏
收藏此文章

你不断的思考,你的眼里出现了蓝,世人称之为齐马的蓝

作者:Ashley, Ash

校对:Ruilin




 1. AI 必胜客——OpenAI 又出大招 


昨天朋友圈被 Sora 和这段刷屏了。看样片效果,比 Runway 和 Pika 好太多。除了腿部切换不自然,几乎可以以假乱真。炸裂的这可是持续整整 59 秒的连续视频,一镜到底,比有些演员都强。


来源:OpenAI 官网
OpenAI 每次出手,都有一大批 AI 创业公司应声倒下。今天的倒霉蛋子轮到了 Runway 和 Pika,尤其是 Pika,刚爆火就熄火。3 个多亿的融资到手还没热乎就等来了病危通知书。

让 Runway 和 Pika 一夜凉凉的 Sora 到底是什么?OpenAI 在文生视频领域的目标是什么?Sora 的使用场景和局限性在哪里?让我们一起看看下一个要下岗的倒霉蛋子花落谁家。

 2. 世界模拟器——Sora 


首先让我们来看看 Sora 究竟是什么?官方给它的定义:作为世界模拟器的视频生成模型。文生视频就文生视频,为什么要说成世界模拟器呢?究竟什么是世界模拟器呢?别急,看完这段话你就懂了。

We train textconditional diffusion models jointly on videos and images.Our largest model, Sora, is capable of generating a minute of high fidelity video. Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world.

https://openai.com/research/video-generation-models-as-world-simulators

这段话里有三个要点:

  1. OpenAI 在文生视频这块训练了多个模型,训练数据是图像和视频。Sora 是其中最大的。看来抢 Runway 和 Pika 饭碗这件事是早有预谋。

  2. Sora 可以生成一分钟的高质量视频。想比之下,Runway-gen2 的 18 秒和 Pika 的 3 秒,真的是按在地上摩擦。

  3. 视频生成模型是构建真实世界通用模拟器的可行之路。好了,说到这里大家应该就知道 OpenAI 的野心在哪里了。真实世界通用模拟器,说白了就是我们以前做智慧城市的时候提的数字孪生高阶模式。

Digital Twin( 数字孪生)才是OpenAI 做Sora终极目的。数字孪生听起来高端,其实很好理解。就是对真实的世界进行建模和预测。一般我们将数字孪生的发展分为四个阶段:1. 真实世界 2. 构建真实世界的数字镜像(分为实时镜像和延迟镜像两种)3. 真实世界和数字镜像的交互这导致了数字线程的扩展,数字世界具有影响物理实体操作的能力(可能以自主方式)4. 数字物理孪生对具有一定程度的自主性。5. 进入第五阶段,自治水平不断提高,数字物理孪生对可以作为自主代理在网络空间中进行交互,将本地数据分析扩展到全球数据分析。

来源:Digital Twins’ Future

举一个简单的例子:

在没有互联网出现的时候,我们生活在物理世界,没有虚拟世界,每天在真实的道路上走,这是第一阶段。

然后有了最早的地图软件,他们对真实的道路进行建模,我们可以在数字世界里看到真实的道路情况和交通情况,道路模型不是实时更新的,交通情况是实时更新的。这就是上面提到的延迟镜像和实时镜像,这是第二阶段。

后面地图软件通过各种数据分析,它知道哪条路上经常发生车祸,会提醒我们要注意,这个时候数字世界模型开始影响我们真实生活中的操作,这是第三阶段。

到了现在我们正在逐步进入第四阶段,地图软件上实时显示道路的交通情况,根据数据模拟告诉你要走哪条路,我们会实时受到他们的影响,而这种实时的预测就是自主性的。同时现实生活中的决策也会影响物理世界模型,比如某人热爱探险从庄稼地里走过,地图软件就认为这里有一条路,标记成道路,后面推荐给其他人(是谁家的智障在这里就不点名批评了)。

第五阶段是建立在前面几个阶段都成熟以后。大家可能注意到了我一直在强调实时。实时功能需要依托强大的传感器系统。在控制理论里面,传感器和执行器是一对好基友。第五阶段就是执行器发力的时候,这个时候数字大脑推理出的预测并给出建议让 AI 来执行。这个场景下对应的就是自动驾驶的终局,AI 预测我走哪条路最好,然后我的车自己就按照它的建议跑。

所以,马斯克为什么从一开始就对 OpenAI 感兴趣,出走后自己也要搞大模型,原因很可能就在这里。无论是 Google,OpenAI,或者马斯克的 xAI,终极目的都是构建世界模型,这或许就是他们心目中的 AGI。

说得再通俗一点,就是《流浪地球 2》里面的 MOSS。一个强人工智能的化身,通过构建真实世界的模型,通过强大的算力推演不同选择导致的结果。通过自己的行为影响物理世界的走向。最终让世界按照自己的选择发展。

 3. Sora 功能介绍

看到这里估计你也累了,我们看看小视频放松一下。了解一下 Sora 到底都能做什么?到底会不会让你下岗。让 Sora 给 AI 视频圈一点震撼吧!

  1. 文生视频

给 Sora 这段文字,它会一键生成下面的视频:

an-old-man-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a-beautiful-sunset

输出视频。来源:OpenAI 官网
2. 图生视频
给 Sora一个Dall E 生成的小狗照片,它就能让小狗动起来,你别说,还是挺逼真的。

输入照片(来源:OpenAI 官网)

输出视频(来源:OpenAI 官网)
3. 时间上拓展视频
给 Sora 一段视频,它可以自动生成前面或后面的视频。下面这个例子给了它一个结尾让 Sora 生成开头,所以每个开头都不一样,但是结尾一样的。
输出视频(来源:OpenAI 官网)
4. 视频编辑,一键让视频背景换风格!
输入视频(来源:OpenAI 官网)
输出视频(来源:OpenAI 官网)
5. 我最喜欢的视频间无缝过渡,一键生成换装视频!耐心看完哦,真的很震撼。
输入视频 1(来源:OpenAI 官网)
输入视频 2(来源:OpenAI 官网)
输出视频(来源:OpenAI 官网)
 4. Sora 的局限性
看了上面谁不得说一句 OpenAI 牛逼!你大哥还是你大哥。
但是目前还是有点局限性的。那就是 Sora 它不懂力学。牛顿老师上的课是一句都没听进去。它不能准确地模拟许多基本互动的物理特性,比如玻璃破碎。对于其他互动,如吃东西,并不能百分百准确生成物体状态的变化。

 5. Sora 的技术原理
OpenAI 对于 Sora 的技术原理没有放出太多消息。内行不用看,外行看不懂。

总结一下就下面几点:1. Transformer 架构;2. 扩散模型;3. 借鉴了 LLM 的文本标记。属实是没什么好说的,等官方放出更多资料吧。

- End - 



肝了 5 个小时才写完,观众老爷们给帕鲁一个免费的关注吧,我会不定期分享 AI 与 Web3 技术以及商业化的思考。你的支持是小帕鲁持续更新的动力,自我模型与 AI 游戏化是我们团队的研究方向。后面有空来介绍一下 AGI 的两大形态——世界模型与自我模型。



Reference:


Digital Twins’ Future

Video generation models as world simulators

【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

泡芙的元宇宙
数据请求中
查看更多

推荐专栏

数据请求中
在 App 打开