你不断的思考,你的眼里出现了蓝,世人称之为齐马的蓝
作者:Ashley, Ash
校对:Ruilin
1. AI 必胜客——OpenAI 又出大招
昨天朋友圈被 Sora 和这段刷屏了。看样片效果,比 Runway 和 Pika 好太多。除了腿部切换不自然,几乎可以以假乱真。炸裂的这可是持续整整 59 秒的连续视频,一镜到底,比有些演员都强。
让 Runway 和 Pika 一夜凉凉的 Sora 到底是什么?OpenAI 在文生视频领域的目标是什么?Sora 的使用场景和局限性在哪里?让我们一起看看下一个要下岗的倒霉蛋子花落谁家。
2. 世界模拟器——Sora
首先让我们来看看 Sora 究竟是什么?官方给它的定义:作为世界模拟器的视频生成模型。文生视频就文生视频,为什么要说成世界模拟器呢?究竟什么是世界模拟器呢?别急,看完这段话你就懂了。
We train textconditional diffusion models jointly on videos and images.Our largest model, Sora, is capable of generating a minute of high fidelity video. Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world.
https://openai.com/research/video-generation-models-as-world-simulators
这段话里有三个要点:
OpenAI 在文生视频这块训练了多个模型,训练数据是图像和视频。Sora 是其中最大的。看来抢 Runway 和 Pika 饭碗这件事是早有预谋。
Sora 可以生成一分钟的高质量视频。想比之下,Runway-gen2 的 18 秒和 Pika 的 3 秒,真的是按在地上摩擦。
视频生成模型是构建真实世界通用模拟器的可行之路。好了,说到这里大家应该就知道 OpenAI 的野心在哪里了。真实世界通用模拟器,说白了就是我们以前做智慧城市的时候提的数字孪生高阶模式。
Digital Twin( 数字孪生)才是OpenAI 做Sora的终极目的。数字孪生听起来高端,其实很好理解。就是对真实的世界进行建模和预测。一般我们将数字孪生的发展分为四个阶段:1. 真实世界 2. 构建真实世界的数字镜像(分为实时镜像和延迟镜像两种)3. 真实世界和数字镜像的交互这导致了数字线程的扩展,数字世界具有影响物理实体操作的能力(可能以自主方式)4. 数字物理孪生对具有一定程度的自主性。5. 进入第五阶段,自治水平不断提高,数字物理孪生对可以作为自主代理在网络空间中进行交互,将本地数据分析扩展到全球数据分析。
来源:Digital Twins’ Future
举一个简单的例子:
在没有互联网出现的时候,我们生活在物理世界,没有虚拟世界,每天在真实的道路上走,这是第一阶段。
然后有了最早的地图软件,他们对真实的道路进行建模,我们可以在数字世界里看到真实的道路情况和交通情况,道路模型不是实时更新的,交通情况是实时更新的。这就是上面提到的延迟镜像和实时镜像,这是第二阶段。
后面地图软件通过各种数据分析,它知道哪条路上经常发生车祸,会提醒我们要注意,这个时候数字世界模型开始影响我们真实生活中的操作,这是第三阶段。
到了现在我们正在逐步进入第四阶段,地图软件上实时显示道路的交通情况,根据数据模拟告诉你要走哪条路,我们会实时受到他们的影响,而这种实时的预测就是自主性的。同时现实生活中的决策也会影响物理世界模型,比如某人热爱探险从庄稼地里走过,地图软件就认为这里有一条路,标记成道路,后面推荐给其他人(是谁家的智障在这里就不点名批评了)。
第五阶段是建立在前面几个阶段都成熟以后。大家可能注意到了我一直在强调实时。实时功能需要依托强大的传感器系统。在控制理论里面,传感器和执行器是一对好基友。第五阶段就是执行器发力的时候,这个时候数字大脑推理出的预测并给出建议让 AI 来执行。这个场景下对应的就是自动驾驶的终局,AI 预测我走哪条路最好,然后我的车自己就按照它的建议跑。
所以,马斯克为什么从一开始就对 OpenAI 感兴趣,出走后自己也要搞大模型,原因很可能就在这里。无论是 Google,OpenAI,或者马斯克的 xAI,终极目的都是构建世界模型,这或许就是他们心目中的 AGI。
说得再通俗一点,就是《流浪地球 2》里面的 MOSS。一个强人工智能的化身,通过构建真实世界的模型,通过强大的算力推演不同选择导致的结果。通过自己的行为影响物理世界的走向。最终让世界按照自己的选择发展。
3. Sora 功能介绍
看到这里估计你也累了,我们看看小视频放松一下。了解一下 Sora 到底都能做什么?到底会不会让你下岗。让 Sora 给 AI 视频圈一点震撼吧!
文生视频
给 Sora 这段文字,它会一键生成下面的视频:
an-old-man-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a-beautiful-sunset
输入照片(来源:OpenAI 官网)
总结一下就下面几点:1. Transformer 架构;2. 扩散模型;3. 借鉴了 LLM 的文本标记。属实是没什么好说的,等官方放出更多资料吧。
- End -
肝了 5 个小时才写完,观众老爷们给帕鲁一个免费的关注吧,我会不定期分享 AI 与 Web3 技术以及商业化的思考。你的支持是小帕鲁持续更新的动力,自我模型与 AI 游戏化是我们团队的研究方向。后面有空来介绍一下 AGI 的两大形态——世界模型与自我模型。
Reference:
Digital Twins’ Future
Video generation models as world simulators
【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。