
“行业观察者”是我们针对人工智能、XR、元宇宙和 Web3 等前沿科技而设立的专栏,主要分享这些领域中的新兴企业或者创业者们的故事。专注于 AI 视频生成的公司 Synthesia 最近融资了 1.8 亿美元,并打造了世界上首个完全由 AI 生成的虚拟形象,它是如何做到的?以下是我们的第 45 期内容,以下 Enjoy。
尽管电子邮件、通信软件和文件共享等工具在当今快节奏、分布式的职场环境中极具价值,但它们仍只是基础的信息传递。正因如此,视频正逐渐成为企业领域的一种强大新媒体,改变着工作场所的沟通和协作模式。通过在数字互动中融入印象深刻的视觉效果、语音语调或肢体语言,视频弥补了文本沟通的不足。为了进一步挖掘这种媒体形式的价值,Synthesia 的创始团队在 2017 年构建了一个视频平台,使企业能够充分利用视频进行业务沟通和知识共享,并在此过程中将任何员工转变为视频创作者。Synthesia 提供 AI 视频生成平台,可使用 120 多种语言的可定制头像和画外音将文本转换为专业视频。
5.融资情况:
- 2017 年 10 月 1 日,完成 100 万美元的种子前轮融资;
- 2019 年 4 月 25 日,完成由 LDV Capital 领投的 310 万美元的种子轮融资;
- 2021 年 4 月 20 日,完成由 FirstMark 领投的 1250 万美元的 A 轮融资;
- 2021 年 12 月 8 日,完成由 Kleiner Perkins 领投的 5000 万美元的 B 轮融资;
- 2023 年 6 月 13 日,完成由 Accel 领投的 9000 万美元的 C 轮融资;
- 2025 年 1 月 15 日,完成由 New Enterprise Associates 领投的 1.8 亿美元的 D 轮融资。
故事源于 Victor Riparbelli 偶然间读到了 Matthias Niessner 教授所撰写的一篇有关 AI 在视频生成应用方面的开创性论文,论文中的内容令他深受启发,他意识到这可能预示着媒体制作流程的一次革命。不久后,Victor Riparbelli 与 Steffen Tjerrild、Matthias Niessner 教授、Lourdes Agapito 教授携手创办了 Synthesia 公司,尝试将这篇论文的学术成功转化为商业应用,这无疑是一次学界与业界的强强联手。“让怀揣创意的 16 岁少年,仅凭卧室中的一台设备,就能拍出好莱坞级别的电影”成为了该公司的愿景。在其他企业还在利用 AI 打造如 Snapchat 滤镜这类工具时,Synthesia 就已经凭借一款 AI 配音工具崭露头角,该工具运用计算机视觉技术使不同语言的嘴部动作更加自然逼真,同时也为公司带来了首批收益。
后来,Synthesia 发现全球有数十亿人渴望制作视频,却因为不懂摄影技巧和有限的预算,始终不知从何入手。也是在这时,Synthesia 意识到生成式 AI 视频的真正目标客户,并非已有视频制作能力的人群,而是那些在工作中需要视频但缺乏资源的人。
有了明确的方向后,Synthesia 发明了一款虽与专业摄像机相比质量稍逊一筹,但价格更亲民、操作更简便的产品,因此许多业余爱好者都愿意为此付费。
现如今,Synthesia 已完全成为了面向企业的 AI 视频平台。
从 AI 语音起家的 Synthesia,转变发展方向后,其在多方面已经遥遥领先,成为业内大受企业欢迎的 AI 视频平台。Synthesia 的功能主要体现在 AI 头像、AI 语音和视频编辑方面。Synthesia 可以创建自定义头像,并提供超过 150 种不同风格、肤色、性别和年龄的 AI 人物形象。
用户也可以对其进行外观和服装等方面的调整,让虚拟形象更加贴合自身需求和创意。整个过程用户都可以使用手机摄像来完成。
现在,Synthesia 已经从单纯的 AI 头像发展到支持 AI 半身像,身体姿势和手势也成为了虚拟形象的一部分。其最新推出的第四代 AI 虚拟形象 Expressive Avatars 更是能够准确传达情绪。
Synthesia 作为领先的企业通讯软件,其语音效果几乎可以以假乱真,如同真人的声音质量、语调、情绪表达。用户可以将自己的英语声音克隆并用于 29 种不同语言,仅需 5-10 分钟的录音时间。录音完成后,就能用自己的声音创建多种语言的个性化内容,与不同语言背景的听众建立更紧密的联系。该软件支持超过 120 种语言和口音,几乎涵盖了全球所有主要的语言和方言。各个国家和地区的用户都可以很轻松地制作不同语言版本的视频,在全球传播视频内容。
Synthesia 可以将文字想法、PPT、PDF 和网站按照预先设置的模板转换为视频,无需摄像机、麦克风和演员,大大降低了视频制作的门槛,节省了时间和成本。该软件内置有 300 多个视频模板,用户可以对其模板进行选择和修改,还能对视频中的 AI 头像、背景图、语音速度、语调等参数进行调整,甚至连演讲者的面部表情都可以微调。
更重要的是,用户可以为团队创建一个共享空间,Synthesia 支持合作制作视频并实时编辑。

目前 Synthesia 官方已经推出了 Synthesia 2.0,可以立刻对用户完成的录像视频进行编辑、转录画外音、匹配屏幕截图,并具有自动缩放效果以强调关键动作等功能。
2.0 的翻译功能更加完善,用户只需要使用 Synthesia 更新一条视频,后面观看的视频就会自动翻译成观看者的语言。
Synthesia 2.0 从头开始彻底改造了视频制作的每一个步骤,致力于帮助企业大规模创建和分享 AI 生成的视频。
Synthesia 平台的核心在于其 AI 虚拟形象,现已有超过 20 万人使用其 225 个虚拟形象创建了超过 1800 万个视频演示,并以 130 多种语言发布。
最初,Synthesia 为娱乐行业开发了对口型和配音工具。但因为这项技术的质量门槛较高且需求不大,于是公司在 2020 年改变了方向,为企业客户推出了第一代虚拟形象。和后续版本比较起来,第一代产品稍显笨重,从各方面来看都很稚嫩。
如今,该公司已经推出了第四代 AI 虚拟形象 Expressive Avatars,这也是世界上首个完全由 AI 生成的虚拟形象。这些虚拟形象由 EXPRESS-1 模型提供支持,能够实现逼真的表演。
具体来说,EXPRESS-1 模型利用大型预训练模型作为主干推动性能,并结合扩散技术模拟复杂的多模态分布。它能够实施预测每一个动作和面部表情,与口语的时间、语调和重音无缝对接。
Expressive Avatars 如今能够像真正的演员一样,以正确的语调、肢体语言和口型同步演绎剧本,成为“数字演员”。
Melissa Heikkilä分享了她制作数字替身的经历。
她站在一块绿幕前,按照要求转动头部和眼睛,这样系统才能识别其准确的肤色和面部特征。接着她被要求说“All the boys ate a fish”这句话,这样系统就能捕捉到形成元音和辅音所需的所有嘴部动作。甚至连闲坐的镜头也成为了训练 AI 模型的数据。
然后,Melissa Heikkilä被要求用正常、鼓励、生气、兴奋等不同的语气读一段剧本,以便用这些语音样本来克隆声音。
总之,AI 识别的面部动作、微表情、头部倾斜、眨眼、耸肩和挥手等数据点越多,虚拟形象就越逼真。Synthesia 表示,在最新的 1.8 亿美元融资的支持下,希望在不久的将来能创造出可以在虚拟空间中行走和移动的全身化身。
不过,随着虚拟形象技术的不断进步,AI 不仅重新定义了个性化表达的方式,也开始引发了更深层次的社会讨论。同时,与之相关的 AI 语音、AI 视频技术的飞速发展也带来了有关隐私的担忧。
一方面,公众越来越意识到 AI 生成的内容正在蓬勃发展,并可能成为传播虚假信息的强大工具。
另一方面,目前仍不清楚深度伪造是否被大规模用于传播虚假信息,以及它们是否会广泛地改变人们的信念和行为。
AI 监管仍不完善,科技行业对内容来源的核实工作也还处于起步阶段。因此消费者在享受科技发展的同时,更应该保持警惕,以免迷失在海量信息中。1.https://www.cnbc.com/2025/01/15/ai-video-platform-synthesia-doubles-valuation-to-2point1-billion.html2.https://www.synthesia.io/?r=0【声明】:未经允许严禁转载,如需转载请联系我们,文章版权和最终解释权归元宇宙之心所有。 最新行业深度研究报告发放中! 资本实验室全新发布 37 页量化报告《 2023 全球区块链应用市场暨产业图谱报告(2023) 》,收录 1000+ 应用案例 ,探索区块链应用趋势 , 入群即可免费领取 。


AI 领域竞争加剧,初创企业在 2025 年突破重围需要具备哪些条件?
曾获 a16z 早期投资,AI 医疗代理 Hippocratic AI 最新估值已达 16.4 亿美元
AI PC 时代已来!苹果、微软谁将赢得未来 PC 市场?