DeepMind 推出新型 AI，为视频生成音轨和对话

2024-06-18 13:57

SinoDAO

2024-06-18 13:57

来源链接

订阅此专栏

收藏此文章

DeepMind，是谷歌的人工智能研究实验室，宣布他们正在开发一种为视频生成音轨的 AI 技术。

在其官方博客的帖子中，DeepMind 表示，他们将这项技术称为 V2A（“视频到音频”的缩写），并视其为 AI 生成媒体拼图中的重要一环。

虽然包括 DeepMind 在内的许多机构都开发了视频生成 AI 模型，但这些模型无法生成与视频同步的音效。

“视频生成模型正以惊人的速度发展，但许多现有系统只能生成无声输出，”DeepMind 写道。“V2A 技术[可能] 成为将生成电影带入现实的有希望的方法。”

DeepMind 的 V2A 技术通过视频搭配音轨描述（例如“水母在水下脉动，海洋生物，海洋”），创建与视频角色和基调相匹配的音乐、音效甚至对话，并由 DeepMind 的防深度伪造技术 SynthID 添加水印。DeepMind 表示，支持 V2A 的 AI 模型是一个扩散模型，通过结合声音、对话记录以及视频片段进行训练。

“通过训练视频、音频和附加注释，我们的技术学会将特定的音频事件与各种视觉场景联系起来，同时响应注释或记录中提供的信息，”DeepMind 说道。

关于训练数据是否受版权保护，以及数据创建者是否被告知 DeepMind 的工作，目前尚无确切消息。我们已联系 DeepMind 以获取进一步澄清，如果有回复将更新此帖子。

AI 驱动的声音生成工具并非新鲜事物。初创公司 Stability AI 上周刚刚发布了一个此类工具，ElevenLabs 也在今年五月推出了一个类似工具。生成视频音效的模型也并不罕见。微软（Microsoft）的一个项目可以从静态图像生成说话和唱歌的视频，Pika 和 GenreX 等平台已经训练模型，可以根据视频内容预测适当的音乐或音效。

但是 DeepMind 声称其 V2A 技术具有独特之处，它能够理解视频的原始像素，并自动将生成的声音与视频同步，即使没有描述也是如此。

尽管如此，V2A 并不完美，DeepMind 也承认这一点。由于基础模型没有在大量带有伪影或失真的视频上进行训练，因此它无法为这些视频生成特别高质量的音频。

总体而言，生成的音频并不十分令人信服；我的同事娜塔莎·洛马斯（Natasha Lomas）形容它为“一堆刻板印象的声音”，对此我也表示赞同。

基于这些原因以及防止滥用，DeepMind 表示，他们不会在近期，甚至可能永远都不会向公众发布这项技术。

DeepMind 写道：“为了确保我们的 V2A 技术能够对创意社区产生积极影响，我们正在收集来自领先创作者和电影制片人的多样化观点和见解，并利用这些宝贵的反馈来指导我们的持续研究和开发。在考虑向更广泛的公众开放访问之前，我们的 V2A 技术将接受严格的安全评估和测试。”

DeepMind 将其 V2A 技术宣传为对档案工作者和处理历史影像的人尤其有用的工具。但沿着这些路线发展的生成式 AI 也可能颠覆电影和电视行业。这需要一些非常强有力的劳动保护措施，以确保生成式媒体工具不会消除工作岗位，甚至整个职业。（TechCrunch）

来源链接

【免责声明】市场有风险，投资需谨慎。本文不构成投资建议，用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

数据请求中

数据请求中

在 App 打开

推荐专栏