全球最大开源视频模型，现在也 Created in China 了，阶跃出品

2025-02-18 17:53

巴比特

2025-02-18 17:53

来源链接

订阅此专栏

收藏此文章

TTPRO1559926-3-sr_x2.0.png 图片来源：由无界 AI 生成

刚刚，阶跃星辰联合吉利汽车集团，开源了两款多模态大模型！

新模型共 2 款：

全球范围内参数量最大的开源视频生成模型 Step-Video-T2V

行业内首款产品级开源语音交互大模型 Step-Audio

多模态卷王开始开源多模态模型，其中 Step-Video-T2V 采用的还是最为开放宽松的 MIT 开源协议，可任意编辑和商业应用。

（老规矩，GitHub、抱抱脸、魔搭直通车可见文末）

在两款大模型的研发过程中，双方在算力算法、场景训练等领域优势互补，“显著增强了多模态大模型的性能表现”。

从官方公布的技术报告来看，这次开源的两款模型在 Benchmark 中表现优秀，性能超过国内外同类开源模型。

抱抱脸官方也转发了中国区负责人给予的高度评价。

划重点，“The next DeepSeek”、“HUGE SoTA”。

哦，是吗？

那量子位可要在本篇文章中掰开技术报告 + 一手实测，看看它们是否名副其实。

量子位求证，目前，本次 2 款新的开源模型都已接入跃问 App，人人可以体验。

多模态卷王首次开源多模态模型

Step-Video-T2V 和 Step-Audio，是阶跃星辰首次开源的多模态模型。

Step-Video-T2V

先来看看视频生成模型 Step-Video-T2V。

它的参数量达到 30B，是目前已知全球范围内参数量最大的开源视频生成大模型，原生支持中英双语输入。

官方介绍，Step-Video-T2V 共有 4 大技术特点：

第一，可直接生成最长 204 帧、540P 分辨率的视频，确保生成的视频内容具有极高的一致性和信息密度。

第二，针对视频生成任务设计并训练了高压缩比的 Video-VAE，在保证视频重构质量的前提下，能够将视频在空间维度压缩 16×16 倍，时间维度压缩 8 倍。

当下市面上多数 VAE 模型压缩比为 8x8x4，在相同视频帧数下，Video-VAE 能额外压缩 8 倍，故而训练和生成效率都提升 64 倍。

第三，针对 DiT 模型的超参设置、模型结构和训练效率，Step-Video-T2V 了进行深入的系统优化，确保训练过程的高效性和稳定性。

第四，详细介绍了预训练和后训练在内的完整训练策略，包括各阶段的训练任务、学习目标以及数据构建和筛选方式。

此外，Step-Video-T2V 在训练最后阶段引入 Video-DPO（视频偏好优化）——这是一种针对视频生成的 RL 优化算法，能进一步提升视频生成质量，强化生成视频的合理性和稳定性。

最终效果，是让所生成视频中的运动更流畅、细节更丰富、指令对齐更准确。

为了全面评测开源视频生成模型的性能，阶跃此次一并发布了针对文生视频质量评测的新基准数据集 Step-Video-T2V-Eval。

该数据集也一并开源了～

它包含 128 条源于真实用户的中文评测问题，旨在评估生成视频在 11 个内容类别上的质量，包括运动、风景、动物、组合概念、超现实等等。

Step-Video-T2V-Eval 在其上的评测结果，见下图：

可以看到，Step-Video-T2V 在指令遵循、运动平滑性、物理合理性、美感度等方面，表现均超越此前最佳的开源视频模型。

这意味着，整个视频生成领域，都可以基于这个新的最强基础模型来进行研究与创新。

而实际效果方面，阶跃官方介绍：

生成效果，Step-Video-T2V 在复杂运动、美感人物、视觉想象力、基础文字生成、原生中英双语输入和镜头语言等方面具备强大的生成能力，且语义理解和指令遵循能力突出，能够高效助力视频创作者实现精准创意呈现。

还等什么？实测走起——

按照官方介绍的顺序，第一关，测试 Step-Video-T2V 能否 hold 住复杂运动。

之前的视频生成模型，在生成芭蕾 / 国标 / 中国舞、艺术体操、空手道、武术等各类复杂性运动片段中，总会出现奇奇怪怪的画面。

比如突然冒出来的第三条腿，交叉融合的双臂等等，怪吓人的。

针对这类情况，我们进行定向测试，丢给 Step-Video-T2V 一段 prompt：

室内羽毛球场，平视视角，固定镜头记录了一段男子打羽毛球的场景。一名身穿红色短袖、黑色短裤的男子，手持羽毛球拍，站在绿色的羽毛球场地中央。球网横跨场地，将场地分为两部分。男子挥拍击球，将羽毛球击向对面。光线明亮均匀，画面清晰。

然后得到：

场景、人物、镜头、光线、动作，统统吻合。

生成画面中含「美感人物」，则是量子位对 Step-Video-T2V 发起的第二关挑战。

讲道理，现在文生图模型生成真人图片的 level，在静态、局部细节上，绝对是可以以假乱真的。

但视频生成时，人物一旦动起来，仍存在可辨识的物理或逻辑瑕疵。

而 Step-Video-T2V 的表现嘛——

Prompt：一位男性，身穿黑色西装，搭配深色领带和白色衬衫，脸部带有伤痕，表情凝重。特写镜头。

“没什么 AI 感。”

这是量子位编辑部同学们传阅一遍过后，对视频中小帅的一致评价。

既是五官端正，皮肤纹理真实，脸上伤痕清晰可见的那种“没什么 AI 感”。

也是逼真但主人公并没出现眼神空洞、表情僵硬的那种“没什么 AI 感”。

上面两关，都让 Step-Video-T2V 保持在固定镜头机位。

那么，推拉摇移，表现如何？

第三关，考验 Step-Video-T2V 对运镜的掌握，比如推拉摇移，旋转、跟随。

要它旋转，它就旋转：

要它移动与跟随，它就给你移动与跟随：

还挺不赖！可以肩扛斯坦尼康，去片场当运镜大师了（不是）。

一番测试下来，生成效果给出答案：

Step-Video-T2V 确如评测集结果那样，在语义理解和指令遵循能力突出。

甚至基础文字生成也轻松拿捏：

Step-Audio

同时开源的另一款模型 Step-Audio，是行业内首个产品级的开源语音交互模型。

在阶跃自建并开源的多维度评估体系 StepEval-Audio-360 基准测试上，Step-Audio 在逻辑推理、创作能力、指令控制、语言能力、角色扮演、文字游戏、情感价值等维度，均取得最佳成绩。

在 LlaMA Question、Web Questions 等 5 大主流公开测试集中，Step-Audio 性能均超过了行业内同类型开源模型，位列第一。

可以看到，它在 HSK-6（汉语水平考试六级）评测中的表现尤为突出。

实测如下：

阶跃团队介绍，Step-Audio 能够根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达，能和用户自然地高质量对话。

同时，由其生成的语音不仅具有逼真自然、高情商等特征，还能实现高质量的音色复刻并进行角色扮演。

总之，影视娱乐、社交、游戏等行业场景下应用需求，Step-Audio 包让你一整个大满足的。

阶跃开源生态，正在滚雪球

怎么说呢，就一个字：卷。

阶跃是真卷啊，尤其是在自家拿手好戏多模态模型方面——

旗下 Step 系列中的多模态模型，自打出生以来，就是国内外各大权威评测集、竞技场等的第一名常客。

只看最近 3 个月，都已经数次勇夺榜首。

去年 11 月 22 日，大模型竞技场最新榜单，多模态理解大模型 Step-1V 上榜，总分与 Gemini-1.5-Flash-8B-Exp-0827 持平，位列视觉领域中国大模型第一。

今年 1 月，国内大模型评估平台“司南”（OpenCompass）多模态模型评测实时榜单，刚出炉的 Step-1o 系列模型拿下第一。

同日，大模型竞技场最新榜单，多模态模型 Step-1o-vision 拿下国内视觉领域大模型第一。

其次，阶跃的多模态模型不仅性能好、质量佳，研发迭代频率也很高——

截至目前，阶跃星辰已经先后发布了 11 款多模态大模型。

上个月，6 天连发 6 模型，覆盖语言、语音、视觉、推理全赛道，进一步做实多模态卷王称号。

这个月又开源 2 款多模态模型。

只要稳定住这个节奏，就能继续且持续地证明自己「全家桶级多模态玩家」的地位。

凭借强大的多模态实力，2024 年开始，市场和开发者们就已经认可并广泛接入阶跃 API，形成了庞大的用户基础。

大众消费品，如茶百道，就让全国数千家门店接入多模态理解大模型 Step-1V，探索大模型技术在茶饮行业的应用，进行智能巡检、AIGC 营销。

公开数据显示，平均每天上百万杯茶百道茶饮在大模型智能巡检的守护下送到消费者手中。

而 Step-1V 平均每天能够为茶百道督导员节约 75% 的自检核验时间，为茶饮消费者提供了更加安心和优质的服务。

独立开发者，如网红 AI 应用“胃之书”、AI 心理疗愈应用“林间聊愈室”在对国内大部分模型做过 AB 测试后，最终都选择了阶跃多模态模型 API。

（小声：因为用它，付费率最高）

具体数据显示，2024 年下半年，阶跃多模态大模型 API 的调用量增长超 45 倍。

再说到，此次开源，开源的就是阶跃自家最擅长的多模态模型。

我们注意到，已经积累市场和开发者口碑及数量的阶跃，此次开源，从模型侧就在为后续深入接入做考虑。

一方面，Step-Video-T2V 采用了是最为开放宽松的 MIT 开源协议，可任意编辑和商业应用。

可以说，「毫不隐藏」。

另一方面，阶跃表示“全力降低产业接入门槛”。

就拿 Step-Audio 来说吧，不同于市面上的开源方案需要经过再部署和再开发等工作量，Step-Audio 是一整套实时对话方案，只要简单部署上就能直接实时对话。

零帧起手就能享受端到端体验。

一整套动作下来，围绕阶跃星辰和它手中的多模态模型王牌，已经初步形成了独属于阶跃的开源技术生态。

在这个生态中，技术、创意和商业价值相互交织，共同推动着多模态技术的发展。

而且随着阶跃模型的继续研发、迭代，开发者的迅速、持续接入，生态伙伴的助力、合力，阶跃生态的“滚雪球效应”，已经发生，并正在壮大。

中国开源力量正在并肩用实力说话

曾几何时，提起大模型开源领域的佼佼者，人们脑中浮现出的是 Meta 的 LLaMA，是 Albert Gu 的 Mamba。

到了现在，毋庸置疑，中国大模型届的开源力量已经闪耀全球，用实力改写“刻板印象”。

1 月 20 日，蛇年春节前夕，是一个国内外大模型神仙打架的日子。

最瞩目的是，DeepSeek-R1 在这一天问世，它推理性能比肩 OpenAI o1，成本却仅后者 1/3。

影响之巨大，一夜让英伟达蒸发 5890 亿美元（约合人民币 4.24 万亿元），创下美股单日跌幅最大纪录。

更重要也更耀眼的是，R1 之所以上升到亿万人为之兴奋的高度，除了推理优异、价格亲民，更重要的是它身上的开源属性。

一石激起千层浪，连长期被戏谑「不再 open」的 OpenAI，都有 CEO 奥特曼屡次出来公开发言。

奥特曼说：“在开源权重 AI 模型这个问题上，（个人认为）我们站在了历史错误的一边。”

他还说：“世界上确实需要开源模型，它们可以为人们提供大量价值。我很高兴，世界上已经有一些优秀的开源模型。”

现在，阶跃也开始开源手里的新王牌了。

并且开源是初衷。

官方表示，开源 Step-Video-T2V 和 Step-Audio，目的就是促进大模型技术的共享与创新，推动人工智能的普惠发展。

开源一出场就凭实力在多个评测集上秀一把。

现在的开源大模型的牌桌上，DeepSeek 强推理，阶跃 Step 重多模态，还有各式各样持续发育的选手……

它们的实力不仅是在开源圈子里拔尖，放眼整个大模型圈子，都很够看。

——中国开源力量，在崭露头角后，正在更进一步。

以阶跃这次开源为例，突破的是多模态领域的技术，改变的是全球开发者的选择逻辑。

Eleuther AI 等很多开源社区活跃的技术大 v，纷纷主动下场测试阶跃的模型，“感谢中国开源”。

抱抱脸中国区负责人王铁震直接表示，阶跃会是下一个“DeepSeek”。

从「技术突围」到「生态开放」，中国大模型的路越走越稳。

话说回来，阶跃今次开源双模型，或许只是 2025 年 AI 竞赛的一个注脚。

更深层次的，它展现了中国开源力量的技术自信，并传递出一个信号：

未来的 AI 大模型世界，中国力量绝不缺席，也绝不落于人后。

【Step-Video-T2V】

GitHub：
https://github.com/stepfun-ai/Step-Video-T2V

抱抱脸：
https://huggingface.co/stepfun-ai/stepvideo-t2v

魔搭 Model Scope：
https://modelscope.cn/models/stepfun-ai/stepvideo-

技术报告：
https://arxiv.org/abs/2502.10248

体验入口
https://yuewen.cn/videos

【Step-Audio】

GitHub：
https://github.com/stepfun-ai/Step-Audio

抱抱脸：
https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b

魔搭 Model Scope：
https://modelscope.cn/collections/Step-Audio-a47b227413534a

技术报告：
https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf

中国 AIGC 产业应用峰会回顾

2024 年 1 月 5 日，【智求共赢・中国 AIGC 产业应用峰会暨无界 AI 生态合作伙伴大会】在杭州未来科技城会议中心举行。

大会汇集行业资深专家及领军企业，共同聚焦 AIGC 领域，围绕当下热点话题进行深度延展，探讨行业激烈竞争下的运营新思路、发展新模式！点击文章，回顾精彩内容~

AI 新智界园区开放合作啦！

来源链接

【免责声明】市场有风险，投资需谨慎。本文不构成投资建议，用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

数据请求中

数据请求中

在 App 打开

Step-Video-T2V

Step-Audio

推荐专栏