a16z 认为的下一个千亿赛道来了！你知道吗？

2025-04-10 12:47

深思圈

2025-04-10 12:47

来源链接

订阅此专栏

收藏此文章

昨天的文章里讲了两个我做 AI 出海顾问期间遇到的两个“比较坑”的产品方向两个“特别坑”的 AI 产品创业方向，你知道吗，今天再来讲讲我遇到比较好的一个方向，就是 AI 视频这块。我合作过 5 家 AI 视频类的公司，有专门做视频生成的，也有做视频剪辑的。这两类算是不同赛道，但随着技术进步，从产品层面在逐渐融合。视频生成赛道比较典型的代表是 Pika、Runway 等产品，视频剪辑赛吧典型代表是 HeyGen、Opus Clip 等产品。生成赛道一开始吸引人的点还是在于新鲜感，而视频剪辑赛道，从 AI 虚拟人到长视频剪短视频、再到口型同步，还有直接生成 AI UGC 以及商品融合等等。

这个赛道很典型的特征就是市场足够大，用户需求很大，而且有不同人群的需求，比如纯粹的创作者有创造需求，做增长的有营销视频需求，做销售的有产品介绍视频需求，甚至在创作者领域还可以再细分，比如专门面向播客人群，面向二次元人群等等。竞争也激烈，绝对是一个红海赛道，但所幸市场足够大，我合作过的视频类产品，增长和营收都很不错，因为确确实实带来了新的生产力革命，整个用户使用是完全闭环的。

当 AI 不再只是“生成内容”，而是“成为内容”的一部分，一场内容生产的革命就此开启。

过去几年，AI 已经能生成逼真的图片、视频和声音，悄然通过视觉和听觉的图灵测试。但 2025 年最令人激动的突破，毫无疑问是——AI 虚拟人（AI Avatar）。

这些不再“恐怖”的 AI 角色，正以惊人的速度冲出“恐怖谷”，开始全面渗透内容创作、广告营销、企业培训等多个领域。这不仅是 AI 的一次技术跃迁，更是内容产业的一次范式转变。

今天正好看到 a16z 发了最新的一篇关于 AI Avatar 虚拟人这方面的报告，以下是精华信息总结，给大家分享。

一、AI 虚拟人研究的演化轨迹：从嘴型匹配到全身互动

真正的挑战不是嘴巴动了，而是表情、头部和身体的每一处细节是否同步、自然。

生成一个“会说话的脸”并不简单。研究人员面临的最大难题是：语音（phoneme）到嘴型（viseme）的精准匹配，再加上面部肌肉、眼神、甚至上半身动作的自然联动。

AI 虚拟人技术近几年突飞猛进，从最早的 CNN、GAN，到 NeRF、3DMM、Transformer、Diffusion 模型，如今已发展到基于 Transformer 的扩散模型（DiT）。最新代表作如 ByteDance 的 OmniHuman 和 Hedra 的 Character-3，已可实现逼真的半身 / 全身动作、表情同步、甚至环境互动。

二、AI 虚拟人的“真实工作”：不是玩具，而是生产力工具

AI 虚拟人不再只是好玩的技术展示，而是创造实际商业价值的工具，从消费者内容创作到企业培训，都能看到它的身影。

1. 普通用户：人人都能创造角色

一个图 + 一段音频 = 你的 AI 主播上线了！

从动漫角色、游戏人物、虚拟偶像，到播客主持人、AI 主播，只需一张图片 + 一段语音，用户就能一键生成“会说话”的视频。

代表产品如 Hedra，甚至能支持情绪指令控制角色表情；Runway、Viggle 还支持真人视频驱动角色动作。YouTube 上《The Monoverse》系列就是一个全 AI 制作的代表作。

更令人期待的是，“实时对话”正逐渐成为现实。想象一下，未来的语言学习不再是冷冰冰的语音助手，而是一个有表情、有动作、有性格的“AI 语言老师”。

2. 中小企业：一键生成广告

AI 虚拟人最先在广告领域爆发。相比传统广告拍摄，AI 视频创作无需演员、无需摄影棚、无需剪辑师，几分钟搞定一条高质量短视频。

工具如 Creatify、Arcads 支持输入商品链接，自动生成脚本、画面、BGM、AI 演员，大幅降低广告制作门槛。现在，电商、游戏、App 广告中，AI 人已经随处可见。

B2B 企业也在跟进：Yuzu Labs、Vidyard 提供带 AI 代言人的视频外联邮件、产品介绍、活动宣传等内容。

3. 大型企业：培训与内容本地化神器

企业层面，AI 虚拟人应用主要集中在：

• 培训视频自动化：如 Synthesia 可生成入职培训、产品教程等内容，节省人力；

• 多语言内容本地化：配合 ElevenLabs 的 AI 语音翻译，一条视频可快速转成多国语言；

• CEO 分身：用 AI 复刻 CEO 形象，生成个性化沟通视频，扩大“高管影响力”。

三、AI 虚拟人的技术组成：不仅是脸，还要有“灵魂”

要打造一个真正自然的 AI 虚拟人，需要攻克以下五大模块：

此外，若要实现实时交互，还需：

• 大脑（记忆与对话）：连接知识库、具备个性与记忆；

• 低延迟流媒体传输：如 LiveKit、Agora 正在攻克该难题。

四、哪些痛点仍待突破？

🔮 五个令人期待的未来发展方向

我亲测后发现，这个领域还有几个激动人心的发展方向：

1. 角色变形和场景切换

不再局限于固定造型！想象一下，同一个角色可以：

- 在视频中换装、更换发型

- 从坐姿切换到站姿

- 从室内场景切换到室外

- 拥有多种情绪状态和姿势供选择

HeyGen 已经开始提供这项功能，他们的 AI 主持人 Raul 有 20 种不同的外观和场景！

2. 更自然的表情和情感

AI 能理解内容情感，做出合适反应：

- 说到可怕的事情时表现出恐惧

- 听到笑话时自然微笑

- 讲述伤心故事时流露悲伤

- 根据语调自动调整表情强度

Captions 新推出的 Mirage 模型在这方面取得了显著进步，表情范围和自然度大幅提升。

3. 与现实世界互动

AI 角色能"触摸"周围物品：

- 在广告中拿起展示的产品

- 与屏幕上的图表互动

- 指向背景中的特定元素

- 操作虚拟设备

Topview 在这方面已经取得了突破，他们开发了一种流程，允许 AI 角色在广告中展示实际产品。

4. 全身动作与手势表达

超越简单的上半身动作：

- 自然的手势配合语音内容

- 走动、坐下等全身动作

- 舞蹈和复杂动作序列

- 根据性格特点定制动作风格

目前 Argil 允许用户为视频不同部分选择不同类型的肢体语言，但未来的技术将更加自然流畅。

5. 实时应用的爆发

延迟和可靠性接近人类水平：

- 与 AI 医生进行视频咨询

- 与 AI 导购一起浏览产品

- 与你最喜欢的电视剧角色视频聊天

- AI 老师提供实时反馈和辅导

Tavus 的最新模型已经能够实现较低延迟的实时对话，我实际测试了与 AI 数字人的视频对话，体验接近真人交流。

五、未来趋势预测：AI 虚拟人将成为千亿级赛道

有人用它讲故事，有人用它卖货，有人用它打造自己的“数字分身”。

随着底层模型质量的显著提升，AI 虚拟人正从“看上去有点怪”走向“你甚至分不清真假”。

我们预计，内容创作型 AI 的下一个风口就是 AI 虚拟人。

• 做营销的公司需要能自动写脚本、选演员、生成广告的视频平台；

• 做教育、讲故事、创作 IP 的人，需要能管理角色、场景、剪辑的视频创作工具；

• 企业则需要可大规模部署的培训、沟通、客户服务解决方案。

这不再是“AI 代替人类”，而是“每个人都能拥有自己的数字化表达分身”。多家公司已经在这个领域崭露头角，可能会诞生多个十亿美元级别的企业。关键在于找到特定的用例和目标客户，并围绕它们构建完整的工作流程。

结语：虚拟人类时代已经开始

AI 虚拟人不仅仅是一个“技术突破”，它代表着一个全新内容表达方式的诞生。

当你可以让任何形象说话、表达、互动，我们正在进入一个人人都是导演、每张图都能开口说话的时代。

结尾

最后交个朋友，我自己是一个连续创业者，并在过去两年担任了 25+ 产品的海外增长顾问，现在准备全职 All-In 入场创业，我给自己定位是 COO 的角色，希望能够找到合适的 CEO 和 CTO，感兴趣一块合作的朋友欢迎加我微信（公众号后台回复【微信】）一块交流！

点击看我介绍，我的新书也即将出版，跟我合作过的朋友应该都知道，我是一个特别落地的人，所以这本书的核心也是实用主义，没有任何空洞的理论和套话。因为我一直在一线做事，所有的内容也都是从我过去的实战经验中总结而来，以终为始，从结果出发。写这本书的目的也是希望能够帮助更多出海的朋友，快速把产品出海落地干起来，感兴趣的朋友可以关注一下哈