今天是星期一,你来到办公室,却收到了十几封来自系统开发团队成员的电子邮件,要求立即与你交谈。你一周前推出的生成式人工智能库存管理系统似乎正在让新用户感到沮丧,响应竟然需要几分钟,而不是几秒钟。客户挂断了你的服务代表的电话,因为他们回答客户问题的时间太长了。由于性能滞后,网站销售额下降了 20%。你仅使用 GPU 来处理训练和推理;你进行了所有推荐的性能测试;你已经过度预配了内存空间,并且你只使用了具有最佳 I/O 性能的最快存储。事实上,你的云账单每月超过 100 美元。性能怎么会出现问题?类似的故事经常发生,因为云上生成式人工智能系统的早期采用者已经开始部署他们的第一个或第二个系统。这是一个激动人心的时刻,因为云提供商正在推广他们的生成式 AI 功能,而你基本上复制了你在上次大型云品牌会议上看到的架构配置。你是追随者,并且遵循了你认为经过验证的架构和最佳实践。
性能不佳的模型的核心问题很难诊断,但解决方案通常很容易实现。性能问题通常来自限制整体 AI 系统性能的单个组件:API 网关速度慢、网络组件损坏,甚至是上次构建时使用的一组不良库。纠正起来很简单,但要找到问题所在却难得多。生成式 AI 系统中的高延迟可能会影响实时应用程序,例如自然语言处理或图像生成。网络连接欠佳或资源分配效率低下会导致延迟。生成式 AI 模型可能是资源密集型的。优化公有云上的资源对于确保高效性能同时最大限度地降低成本至关重要。这涉及自动扩展功能和选择正确的实例类型以匹配工作负载要求。在查看所提供的内容时,请检查这些资源是否达到饱和状态,或者是否出现性能问题的症状,监控是许多组织忽视的最佳实践。围绕 AI 系统管理规划应该有一个可观察性策略,并且在使用这些工具时,性能恶化应该相对容易诊断。扩展生成式 AI 工作负载以适应不断变化的需求可能具有挑战性,并且通常会导致问题。无效的自动缩放配置和不正确的负载均衡可能会阻碍有效缩放资源的能力。管理生成式 AI 模型的训练和推理过程需要有助于高效模型训练和推理的工作流。当然,这必须在利用公有云提供的可扩展性和灵活性的同时完成。推理性能问题通常是罪魁祸首,尽管倾向于将资源和金钱投入到这个问题上,但更好的方法是先调整模型。可调参数是大多数 AI 工具包的一部分,它们应该能够提供一些指导,说明针对你的特定用例,应该将表设置成什么样子。
训练生成式 AI 模型可能既耗时又非常昂贵,尤其是在处理大型数据集和复杂架构时。并行处理能力和存储资源的低效利用可能会延长模型训练过程。请记住,我们在许多情况下都在使用 GPU,购买或租用这些 GPU 并不便宜。模型训练应尽可能高效,并且仅在需要更新模型时进行。你还可以使用其他选项来访问所需的信息,例如检索增强生成(RAG)。RAG 是自然语言处理(NLP)中使用的一种方法,它将信息检索与文本生成的创造力相结合。它解决了传统语言模型的局限性,这些模型往往难以实现事实的准确性,并提供了对外部和最新知识的访问。你可以通过访问其他信息源来增强推理处理,这些信息源可以根据需要验证和添加更新的信息到模型中。这意味着模型不必经常重新训练或更新,从而降低成本和提高性能。最后,确保生成式人工智能系统在公共云上的安全性和合规性至关重要。如果不充分解决数据隐私、访问控制和法规遵从性,可能会影响性能。在性能测试过程中,合规性治理经常被忽视。
- 培训。随时了解支持 AI 工具的人员对绩效管理的看法,确保一些团队成员报名参加定期培训。
- 可观测性。这包括关键的监视工具,这些工具可以在用户遇到性能问题之前发出警报。
- 测试。大多数组织不会在其基于云的 AI 系统上进行性能测试,但这是很有必要的。
- 性能操作。不要等到出现问题时才解决性能问题,需要对其进行持续积极的管理。
随着越来越多的生成式人工智能系统出现,无论是云端还是本地,都会出现比人们现在理解的更多的性能问题。这里的关键是要积极主动,不要等到周一早上出现意外才开始补救。原文来源于infoworld,由论道 Web3 云服务团队编译整理,英文版权归原作者所有,中文转载请联系编辑。未来哪些 Web3 场景会更多使用 Phat Contract?
Phat Contract:拓展智能合约能力边界
知识图谱|什么是 Web3.0?
◎观点聚焦◎
隐私保护技术 TEE 与 ZKP 的区别究竟在哪里?
去中心化预言机如何拯救 DeFi?
深度丨一文了解隐私计算的前世今生
◎月报一览◎
Phala 生态月报 VOL.22 丨 5.1-5.31
Phala 生态月报 VOL.23 丨 6.1-6.30
Phala 生态月报 VOL.24 丨 7.1-7.31
