你有没有想过,那些电视台、制作公司里堆积如山的视频素材,可能马上就要被彻底重新定义了?想象一下,从数千小时的视频内容中找到你需要的那一个镜头,不再需要安排一群人没日没夜地看片子、做标记,而是只需要简单描述一句"奥巴马谈论人权的片段",系统就能立刻定位到精确的时间点,并提供详细的场景描述、人物信息和镜头分析。这不是科幻电影的情节,而是刚刚获得 2400 万美元融资的 Moments Lab 正在变为现实的技术革命。
我一直在思考一个问题:为什么在这个 AI 时代,视频内容的管理和发现还停留在如此原始的阶段?媒体行业每天产生的视频内容以 TB 计算,但大部分内容在制作完成后就沉睡在存储系统中,再也没有被有效利用过。这种资源浪费不仅是成本问题,更是错失了无数创意和商业机会。而 Moments Lab 的出现,让我看到了这个问题的根本性解决方案。他们刚刚完成的这轮由 Oxx 领投、Orange Ventures、Kadmos Capital 及原有投资者 Elaia 和 Supernova 参与的融资,标志着视频 AI 技术正在从实验室走向大规模商业应用的关键节点。
从数据来看,Moments Lab 在过去 12 个月里经常性收入翻了一番,并且正朝着 2025 年的指数级增长轨道前进,最近签约的客户包括 Thomson Reuters、Sinclair、Hearst、Amazon Ads 和 Banijay 等行业巨头。
传统视频管理的困境与痛点
让我先聊聊传统视频制作行业面临的现实困境。如果你曾经参与过任何大型视频项目的制作,你就会知道寻找特定镜头有多痛苦。传统模式下,制作团队需要安排专门的人员观看大量素材,手动标记关键时刻,比如标注"打斗"、"搞笑"或"感人"等标签。以真人秀《Love Island》为例,这档 24 小时不间断拍摄的节目需要庞大的团队来审查所有素材,手动标记如"接吻"、"争吵"、"比基尼"或"太阳镜"等场景。这种工作不仅枯燥乏味,更重要的是,当这些素材进入后期制作阶段时,很多标签会丢失,编辑们往往需要重新开始,在数小时的视频中寻找特定场景,如果最终能找到的话。
这种低效率在当今多平台内容分发的时代显得尤为突出。同一份素材不再只是编辑一次发布到一个地方就结束了,而是需要被重新包装用于 YouTube、TikTok、Instagram 和其他平台,每个平台都有自己的格式、长度和受众要求。这意味着团队需要频繁快速地提取关键场景。寻找合适的时刻比以往任何时候都更重要,因为同样的素材不再只存在于一个地方,而是被重复使用并重新包装到各种平台上。我经常听到制作人抱怨,他们花在寻找素材上的时间比实际创作的时间还要多,这不仅降低了创作效率,也极大地限制了创意的发挥。
更糟糕的是,现有的 AI 视频索引工具虽然承诺能自动化这个过程,但它们通常只能识别面孔、物体并提供转录文本,却没有上下文理解能力。它们简单地用无关的元数据充斥媒体资产管理和数字资产管理系统,让搜索结果变得混乱,反而创造了比原本要解决的问题更多的新问题。我见过很多制作公司投资了昂贵的 AI 工具,但最终还是回到了人工查找的老路上,因为 AI 给出的标签太过浅层和无用。这就是为什么 Moments Lab 在 2023 年底推出 MXT 时如此引人注目——它是一个真正理解和描述视频时刻的 AI,就像人类一样。
Moments Lab 的核心产品:MXT 多模态 AI 引擎
Moments Lab 的 MXT 技术革新彻底改变了这种状况。MXT 能够像人类编辑一样理解视频内容,但以机器的速度工作,同时提供详细的、带时间码的元数据和无与伦比的语义精度。它将视频分解成有意义的场景,识别其中的人物、正在发生的事情、发生的地点,甚至使用的镜头类型。它还可以从采访、演讲或新闻发布会中提取最佳的精彩片段,让用户不必浪费时间在素材中反复搜寻。当你输入"奥巴马谈论人权"这样的搜索词时,系统会立即返回准确的场景,并提供摘要、镜头描述、出现的人物等详细信息。
我特别关注 MXT 技术的语义搜索能力,这类似于你在 Google 或 ChatGPT 中期望的体验。不需要再在数小时的素材中反复拖拽进度条,你只需搜索、点击和使用。如果你想从篮球运动员的职业生涯精彩集锦中制作短视频,MXT 甚至可以帮你完成初步的故事线规划和粗剪。客户使用 MXT 从视频库中查找和重新利用内容的速度比以前快了七倍。这种效率提升不仅仅是数字上的改进,它彻底改变了内容制作的经济学。
让我更深入地分析一下 MXT 与传统 AI 视频索引工具的根本区别。大多数 AI 驱动的视频索引工具依赖标签来使素材可搜索。虽然用"狗"、"海滩"或"人群"标记片段可能有帮助,但它并不能告诉你场景中实际发生了什么。MXT 技术不是简单地分配通用标签,而是生成丰富的、带时间码的描述,像人类一样解释每个时刻。这种细节和上下文的水平使得找到你需要的确切时刻变得容易得多,而不是在数百个模糊标记的片段中筛选。
MXT-2 的技术突破:三倍数据训练的智能升级
现在让我详细分析一下 MXT-2 这个最新版本的技术突破。MXT-2 在三倍于前一版本的数据上进行训练,使其在描述视频内容方面变得更加优秀。它能够捕捉视频内容中更大的细节和细微差别。在视频序列任务上,MXT-2 超越了 Google Research 的 Vid2Seq 模型 47% 的性能,这个数字背后代表的是质的飞跃。为了说明这种改进,我们可以看看前一个模型和新的 MXT-2 模型如何描述同一图像的差异。新版本的视频描述更加智能和精确,能够提供更丰富的上下文信息和更准确的场景理解。
MXT-2 引入的"自定义时刻"功能让我尤为兴奋。通过自定义时刻,你现在可以准确定义特定内容类型的分割方式,使得大规模查找特定时刻变得前所未有的简单。不再需要筛选数小时的素材,你可以立即精确定位对项目最重要的片段。比如,负责烹饪节目的数字团队可以使用自定义时刻自动突出显示和描述每道菜呈现给评委的画面,记录菜品类型、参赛者排名(获胜者、前三名或被淘汰者)等细节,从而创建一个可搜索的多季度最佳素食菜品集合。
新闻记者可以将每次播出的新闻节目分解成单独的故事段落,并按预定义的主题标记:重大事件、感人故事、生活新闻、经济或天气报告。这使得搜索和重新利用特定故事变得容易。处理故事片长度自然纪录片预告片的编辑可以基于节目的叙述立即浮现最具视觉冲击力的场景或关键短语。他们不需要手动梳理数小时的素材,而是可以查看关键建议时刻,如令人惊叹的摄影或有影响力的引语。一个体育编辑在报道拉力锦标赛时,可以通过设置自定义时刻来检测高冲击力的碰撞、超车或险些碰撞,快速汇编本赛季最令人惊叹的时刻,而不需要手动审查数小时的比赛录像。
自定义时刻确保最相关、最具影响力的内容立即可访问,无论正在制作什么故事,都能减少手动编辑时间。这种功能的价值在于它能够适应不同类型内容的特定需求,而不是提供一刀切的解决方案。
MXT-2 的另一个重大创新是"自定义洞察"功能,这个功能解决了视频标记和组织一直以来混乱、不一致的问题。尽管一些组织试图执行命名约定和分类法,但一些用户仍然以一种方式标记片段,而其他人以另一种方式标记,导致混乱、无序的混乱状态。自定义洞察通过利用 MXT 生成的元数据,可以根据对你最有意义的任何参数立即对视频进行分类,无论是按主题、主题、内容类型还是更具体的内容,分类不再是手动负担。
我发现自定义洞察的深层分析能力特别令人印象深刻。以拳击比赛为例,你可以要求自定义洞察按以下标准对视频进行分类:拳手的重量级别、谁获胜了、比赛在哪一轮决出胜负、比赛是通过击倒、点数判定还是平局结束的。有了这种程度的洞察,你可以立即搜索弗洛伊德·梅威瑟在前五轮中的最佳击倒,使内容发现变得毫不费力。这种能力不仅简化了视频组织,还使探索性搜索变得容易得多,无论你是在归档素材、为项目提取片段,还是只是试图在庞大的视频库中找到最佳时刻。
自定义洞察不仅帮你找到内容,还帮你使用它。除了生成媒体级别的标签来帮助分类视频外,它还可以用于自动生成任何你可以用于发布的文本,或者简单地获取关于视频的信息。你可以为想要发布到社交平台的视频生成引人入胜的标题、描述和标签;为要发布到流媒体平台的节目制作描述,而不会透露任何剧透;创建关键体育比赛的比赛报告;提供关于视频中提到但未出现的人物的见解;为想要在网站上发布的体育赛事创建报告。
这种文本生成能力的价值在于它能够理解内容的上下文和语调。系统不是简单地提取关键词或生成通用描述,而是能够根据目标平台和受众调整语言风格。这意味着为 LinkedIn 生成的描述会与为 TikTok 生成的描述在语调和重点上有显著不同,即使它们描述的是同一段视频内容。
AI Agent 时代的视频内容管理革命
现在让我深入探讨 Moments Lab 正在开发的下一个重大创新:AI agent 在视频发现和媒体资产管理中的应用。我认为这代表了人机交互的一个根本性转变,从传统的点击式界面转向对话式智能协作。正如 Moments Lab 的首席科学官 Yannis Tevissen 博士所解释的:"AI agent 将重新定义我们与机器交互的方式。看到大语言模型在工具使用和计算效率方面的快速进步,代理很可能成为默认界面,即使对于视频库管理这样的复杂任务也是如此。"
我特别感兴趣的是 AI agent 如何改变我们与视频内容库的交互方式。传统的索引假设研究人员知道视频是如何被标记的,如果它被标记的话。许多编辑和制作人仍然依靠他们团队的记忆来找到他们需要的内容,比如回忆节目中的最佳镜头或从采访中找到特定信息。这种非常手动的过程减慢了制作速度,增加了成本,并限制了创造力。但是基于 AI 驱动的视频索引和理解,AI agent 可以显著改善我们管理、搜索、重新利用和货币化视频内容的方式。
想象一下这样的工作流程:当 AI 自动整理、描述和管理你的媒体库时,你可以简单地输入你想要找的内容,并在几秒钟内检索到它。这就像有一个个人 AI 媒体研究员,确切地知道一切在哪里,你可以随时与之聊天。但好处不止于此。一旦代理通过索引理解了视频的上下文和关键时刻,它就可以自动创建简短摘要,建议引人注目的精彩集锦,甚至为不同的社交媒体平台或特定受众找到正确的片段。这大大加快了内容重新利用的速度,使视频适应不同用途变得更智能、更快速,因此你可以接触到特定观众,或快速响应趋势新闻。
联合创始人兼 CTO Fred Petitpont 对 AI agent 集成有一个深刻的见解:"想象一下你已经在使用的工具,比如 Slack 或 Teams。它们就像是将这些 AI agent 引入我们日常工作的秘密通道。你可能不再是打开程序然后四处点击,而是在 Slack 或 Teams 中与 AI agent 对话来完成简单的事情。传统的软件使用方式变成了最后一步,而不是第一步。"这种交互模式的转变将彻底改变我们对软件工具的认知和使用习惯。
产品集成与生态系统战略
从产品策略角度,我发现 Moments Lab 的集成能力特别值得关注。他们的平台被构建为无缝集成到广播公司、版权持有者和创意团队的现有工作流程中。无论你使用 Adobe Premiere Pro 还是 Blackbird 进行编辑,AWS 还是 LucidLink 进行存储,Digiteka 还是 YouTube 进行分发,Moments Lab 都能无缝集成到你的工作方式中。这种广泛的兼容性不是偶然的,而是深思熟虑的产品战略的结果。
我认为这种集成策略的重要性在于它降低了采用门槛。如果一个新的 AI 工具要求企业彻底改变他们现有的工作流程,那么无论这个工具多么强大,采用率都会很低。但是当工具能够插入现有系统并立即提供价值时,企业更有可能尝试并最终采用它。Moments Lab 显然理解了这一点,并围绕这个理念构建了他们的产品。
对于那些只有一个视频需要分析的情况,你可能可以使用 Google 或 Amazon 的基本视频索引工具。但当你处理数十万小时的素材时,情况就完全不同了。那些工具不容易扩展。你需要构建内部工作流程,启动基础设施,管理数据管道,并组建团队来保持一切运行。这不仅仅是一次性设置,而是维护和更新整个系统的持续努力。很快,成本(无论是时间还是金钱)开始螺旋上升。Moments Lab 专门为这种规模而构建,所以你不必重新发明轮子。
通过 MXT 公共 API 的发布,这项技术现在对开发者和组织来说更加可访问,可以在此基础上进行构建。这个 API 策略表明 Moments Lab 不仅仅是想成为一个封闭的产品,而是想成为更大的视频 AI 生态系统的核心基础设施。开发者可以利用 MXT 的强大能力构建自己的应用程序,这将进一步扩大 Moments Lab 技术的影响范围。
客户案例与市场验证
从客户反馈来看,Moments Lab 已经在实际应用中证明了其价值。在与一些客户的对话中,他们特别称赞了 Moments Lab 在自动生成摘要、标题或粗剪时保持与客户语调和艺术风格一致的能力,这大大加快了内容的价值实现时间,而不会损害真实性。这种对品牌一致性的关注是许多 AI 工具忽视的关键因素,但对于媒体公司来说却至关重要。
Moments Lab 的客户遍布美国、欧洲、中东和南美,他们已经看到了更快的视频工作流程、更丰富的内容发现和扩大的货币化机会的价值。最近签约的客户包括 Thomson Reuters、Sinclair、Hearst、Amazon Ads 和 Banijay 等行业巨头,这些名字本身就说明了技术的成熟度和市场认可度。这些不是小型实验性项目,而是大型媒体组织的战略性技术采用。
我特别关注 Amazon Ads 作为客户的意义。这表明 Moments Lab 的技术不仅对传统媒体公司有价值,对于数字广告和营销领域也有重要应用。在广告制作中,快速找到合适的素材、创建多个版本的广告内容、针对不同受众定制信息等需求都可以通过 Moments Lab 的技术得到更好的满足。
据报告,Moments Lab 在过去 12 个月里经常性收入翻了一番,并且正朝着 2025 年的指数级增长轨道前进。这种增长轨迹表明市场对这类技术的需求确实存在且正在快速扩大。更重要的是,这种增长是可持续的,基于真实的客户价值而不是投机或炒作。
技术挑战与未来发展方向
尽管 Moments Lab 在 AI 视频理解方面取得了令人瞩目的成果,但我认为仍有一些技术挑战需要持续关注。当前的 AI 技术虽然令人印象深刻,但在需要创造力、对人类情感和意图的细致理解以及复杂抽象推理的领域仍然有局限性。AI agent 可以非常准确地分析、推理和处理视频内容,但它们的表现仅与底层元数据的质量一样好。
这就提出了一个关键问题:在我们在每个媒体库中欢迎 AI agent 之前,我们需要做一些准备工作。你的音视频内容索引得有多好?质量索引元数据是有价值的 AI agent 用户体验的基础,这正是 Moments Lab 通过 MXT 和他们的 AI agent 为客户提供的。据他们的联合创始人兼 CTO Fred Petitpont 介绍,他们的 AI agent 在封闭测试发布中已经超出了预期,一些用户告诉他们"这就像有了一个额外的团队成员!"
我也思考过如何最有效地在日常工作中使用 AI agent。如果编辑不知道如何给代理清晰的指示(比如一个好的提示),即使是最聪明的 AI agent 也不会很有帮助。想想公司如何销售他们的在线软件(SaaS)。这正在快速变化,因为 AI agent 开始承担我们过去直接用软件做的一些任务。未来,甚至可能有比人类更多的代理使用 SaaS 产品。
从长远来看,我认为 Moments Lab 正在构建的不仅仅是一个产品,而是整个媒体行业数字化转型的基础设施。随着 5G、云计算和边缘计算技术的进一步发展,视频内容的产生、分发和消费模式都在发生根本性变化。Moments Lab 的技术为这种变化提供了智能化的支撑,让媒体公司能够更好地适应和利用新的技术环境。
投资价值与行业影响的深层思考
从投资角度分析,Oxx 选择领投 Moments Lab 的 2400 万美元融资展现了对这种技术趋势的深刻理解。正如 Oxx 的主管 Gökçe Ceylan 所说:"Moments Lab 是那种产品真正感觉像魔法的罕见公司之一。我们第一次看到 MXT 的实际操作——在几秒钟内从数小时的原始视频中提取见解——我们就知道这个团队正在解决一个只会越来越大的问题。Philippe 和 Fred 构建了一个世界级的 AI 引擎,并围绕它建立了产品 DNA 和客户同理心,这给了他们严重的优势。"
我认为这次融资的时机特别重要。我们正处在从本地部署系统向云原生基础设施的行业转变的拐点。这种转变为速度、可扩展性和协作提供了新的可能性。过去依赖传统工作流程的组织现在开始采用支持实时内容处理和分布式团队的云工具。同时,视频内容使用方式的根本性改变也推动了这种需求。单一事件或一段素材不再是编辑一次发布到单一目的地,而是被切片、本地化、加字幕并分发到越来越多的平台上。
AI 正在改变我们对内容的思考方式,关键是让内容变得常青。曾经被认为是"档案"的媒体现在正在被重新想象、重新浮现和重新利用。实际上,"档案"这个词在现代媒体运营中正在变得过时。传统解决方案根本不是为了处理挖掘非结构化视频文件中锁定的价值所需的规模、速度和语义深度而构建的。今天,每一段内容都是一个活的资产,富含未开发的潜在价值。
更具体地说,多模态 AI——能够理解和综合视觉、音频和文本信号的模型——使得将视频视为数据成为可能。在这个新现实中,Moments Lab 正是那家大规模释放这种能力的公司。通过自动化视频创建和协作工作流程的大部分内容(从摄取和索引到发现、编辑和分享),Moments Lab 让团队能够更快地行动,创造更多内容,并从每一帧素材中提取更多价值。
对媒体行业未来的战略性展望
我相信 Moments Lab 代表的不仅仅是一种技术进步,更是媒体行业生产方式的根本性变革。当视频内容的管理和发现变得如此智能和高效时,整个内容创作的经济学都会发生改变。过去,制作一个高质量的视频节目需要大量的人力投入到素材整理和编辑中,这使得只有大型制作公司才能承担复杂的视频项目。但是当 AI 能够在几分钟内完成过去需要几天才能完成的工作时,更多的创作者和小型团队将有能力制作专业级别的内容。
我特别关注这种技术对内容多元化和创新的促进作用。当寻找和组织素材不再是创作过程中的瓶颈时,创作者可以将更多精力投入到创意构思和故事叙述上。这可能会催生出我们目前还无法想象的新型内容形式和叙事方式。比如,AI agent 可以帮助创作者从不同角度重新审视历史事件,通过智能搜索找到以前被忽视的珍贵镜头,创造出更丰富、更多维的历史纪录片。
从商业模式角度看,Moments Lab 的技术将使内容资产的货币化变得更加精细和高效。媒体公司不再需要让大量珍贵内容在档案库中沉睡,而是可以通过 AI 的智能分析,持续发现新的商业机会。一段十年前的采访可能因为当前的热点话题而重新获得价值,一个过去不太受关注的体育时刻可能因为某位运动员的最新成就而变得珍贵。这种动态的价值发现将为媒体公司创造持续的收入流。
从更宏观的角度看,我认为 Moments Lab 正在构建的是整个媒体生态系统数字化转型的核心基础设施。随着内容创作民主化、分发渠道多元化、消费习惯个性化等趋势的发展,传统的媒体价值链正在被重新塑造。在这个过程中,那些能够快速理解、处理和利用视频内容的技术将成为竞争优势的关键来源。Moments Lab 通过其 MXT 技术和 AI agent 平台,为这种转型提供了强有力的技术支撑,让媒体公司能够在新的竞争环境中占据有利位置。
最后,我认为 Moments Lab 的成功预示着一个更大的趋势:AI 将从工具层面深入到创作流程的核心。未来的媒体制作不再是人类创作者使用 AI 工具,而是人类创作者与 AI 系统深度协作,共同完成复杂的创作任务。在这个过程中,AI 负责繁重的数据处理和模式识别工作,而人类专注于创意、情感和价值判断。这种人机协作模式将释放出前所未有的创作潜力,推动整个媒体行业进入一个新的发展阶段。Moments Lab 的 2400 万美元融资只是这场变革的开始,我期待看到更多类似的创新公司涌现,共同塑造媒体行业的智能未来。
结尾
最后交个朋友,我自己是一个连续创业者,并在过去两年担任了 25+ 产品的海外增长顾问,现在准备全职 All-In 入场创业,我给自己定位是 COO 的角色,希望能够找到合适的 CEO 和 CTO,感兴趣一块合作的朋友欢迎加我微信(公众号后台回复【微信】)一块交流!
点击看我介绍,我的新书也即将出版,跟我合作过的朋友应该都知道,我是一个特别落地的人,所以这本书的核心也是实用主义,没有任何空洞的理论和套话。因为我一直在一线做事,所有的内容也都是从我过去的实战经验中总结而来,以终为始,从结果出发。写这本书的目的也是希望能够帮助更多出海的朋友,快速把产品出海落地干起来,感兴趣的朋友可以关注一下哈
也欢迎大家留言讨论,分享你的观点!
觉得内容不错的朋友能够帮忙右下角点个赞,分享一下。您的每次分享,都是在激励我不断产出更好的内容。
欢迎关注深思圈,一起探索更大的世界。
往期文章
两个“特别坑”的 AI 产品创业方向,你知道吗
速度将成为 AI 时代唯一的护城河
深度解析揭秘:日本的 SaaS+AI 市场究竟是怎么样的?
【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。