GPT-5 还远吗?
撰文:Kyle
8 月 1 日消息,OpenAI 已经正式为「GPT-5」提交了商标申请,该商标涵盖了以下内容:
根据 GPT-5 的商标申请文件显示,GPT-5 商标涵盖了 AI 生成语音和文本的功能,还可以将音频文件转换为文本,实现声音和语音识别,并利用机器学习技术进行语言和语音处理。
这可能意味着 GPT-5 将支持语音能力,将为用户带来更先进、更高效的语音和文本处理体验,多模态能力进一步增强。
2023 年 3 月发布 GPT-4 时,预计 OpenAI 将在 2023 年 12 月发布下一代模型。 Runway 联合创始人 Siqi Chen 此前表示,我被告知 GPT5 计划于今年 12 月完成训练,Openai 预计它能够实现通用人工智能(AGI)。这意味着我们都会激烈争论它是否真正实现了 AGI。
然而,在 4 月份的 MIT 活动中,当被问及 OpenAI 是否正在训练 GPT-5 时,OpenAI 首席执行官 Sam Altman 表示「我们不会,并且一段时间内不会」。 而在今年 6 月份的采访中,OpenAI 创始人兼 CEO Sam Altman 在被问及什么推出 GPT-5 时曾表示,我也很好奇,我们没有答案,我们不会很快有 GPT-5,我们必须把安全性作为很重要的一部分。
尽管如此,一些人认为 OpenAI 可能会在 2023 年 10 月之前推出 GPT-4.5,这是 GPT-4 和 GPT-5 之间的中间版本,就像 GPT-3.5 一样。 据说 GPT-4.5 最终将带来多模态功能,即分析图像和文本的能力。 OpenAI 早在 2023 年 3 月的 GPT-4 开发者直播中就已经宣布并演示了 GPT-4 的多模态功能。现在微软已经在 Bing Chat 中发布了 GPT-4 的多模态功能。 看来 GPT-4 的下一个重大更新即将到来。
除此之外,在开始研究 GPT-5 之前,OpenAI 目前在 GPT-4 模型上还有很多工作要做。 目前,GPT-4 的推理时间非常长,而且运行成本相当昂贵。 GPT-4 API 访问仍然很难通过。 此外,OpenAI 最近刚刚开放了对 ChatGPT 插件和代码解释器的访问,这些插件和代码解释器仍处于测试阶段。 互联网浏览功能已从 GPT-4 中删除,因为它显示来自付费网站的内容。
虽然 GPT-4 非常强大,但我想 OpenAI 意识到计算效率是可持续运行模型的关键要素之一。 添加新的特性和功能,您就可以处理更大的基础设施,同时确保所有检查点都正常启动并可靠运行。 因此,大胆猜测一下,如果我们假设政府机构不设置监管障碍,GPT-5 很可能会在 2024 年发布。
预测:GPT-5 特性和功能
业界热议的是 GPT-5 将实现 AGI(通用人工智能)。 除此之外,GPT-5 应该可以减少推理时间、提高效率、减少幻觉等等。 让我们从幻觉开始,这是大多数用户不太相信 AI 模型的关键原因之一。
根据 OpenAI 的数据,在所有九个类别的内部对抗性设计的事实评估中,GPT-4 的得分比 GPT-3.5 高 40%。 现在,GPT-4 对不准确和不允许的内容做出响应的可能性降低了 82%。 在各个类别的准确度测试中,它非常接近 80% 的分数。 这是对抗幻觉的巨大飞跃。
现在,预计 OpenAI 将在 GPT-5 中将幻觉减少到 10% 以下,这对于使 LLM 模型值得信赖来说将是巨大的。
我们已经知道 GPT-4 的运行成本很高(每 1K token 0.03 美元),并且推理时间也更长。 而较旧的 GPT-3.5-turbo 模型比 GPT-4 便宜 15 倍(每 1K token 0.002 美元)。 根据 SemiAnalysis 最近的一份报告,GPT-4 不是一个密集模型,而是基于「专家混合」架构。 这意味着 GPT-4 针对不同的任务使用 16 种不同的模型,拥有 1.8 万亿个参数。
有了如此庞大的基础设施,运行和维护 GPT-4 模型的成本就变得非常昂贵。
事实上,很多新的大模型已经开始追求「小而精」,让大模型拥有尽可能少的参数,而不是更多。
在最近对 Google PaLM 2 模型的解释中,PaLM 2 参数相当小,但性能却很快。
虽然 GPT-4 已被宣布为多模态 AI 模型,但它仅处理两种类型的数据,即图像和文本。 借助 GPT-5,OpenAI 可能会在实现真正的多模态方面迈出一大步。 它还可以处理文本、音频、图像、视频、深度数据和温度。 它将能够将来自不同模式的数据流互连起来以创建嵌入空间。
随着 GPT-4 的发布,OpenAI 带来了 32K token 的最大上下文长度,每 1K token 的成本为 0.06 美元。 我们在几个月内迅速看到了从标准 4K token 到 32K 的转变。 最近,Anthropic 将其 Claude AI 聊天机器人的上下文窗口从 9K token 增加到了 100K token。 预计 GPT-5 可能会通过更大的上下文长度带来长期记忆支持。
这有助于让人工智能角色和朋友记住你的角色和记忆,并且可以持续多年。 除此之外,您还可以在单个上下文窗口中加载书籍和文本文档库。 由于长期记忆的支持,可能会出现各种新的人工智能应用,而 GPT-5 可以使这成为可能。
你认为 GPT-5 什么时候发布,会带来哪些颠覆性创新?
参考资料:
https://beebom.com/gpt-5/
【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。