根据 CAST AI 对 4000 个 Kubernetes 集群的分析,Kubernetes 集群通常只使用 13% 的 CPU 和平均 20% 的内存,这表明存在严重的过度配置。
在分析了 2023 年 1 月至 12 月期间在 AWS、Azure 和 GCP 管理的 Kubernetes 服务上运行的客户后,该公司在今天的一份报告中指出,优化可以为首席信息官们(CIO)节省一大笔钱。
(Gartner 预测,2024 年公有云服务的支出将达到 6780 亿美元,而 FinOps 的议程将继续上升,因此避免在云服务上超支是许多首席信息官(CIO)和首席技术官(CTO)的首要任务。通过 Kubernetes 优化可以节省大量成本。例如,人工智能公司 Anthropic 去年使用 Karpenter 将其 AWS 账单削减了 40%。)
另见:人工智能公司 Anthropic 通过使用 Karpenter 将其 AWS 账单削减了 40%。
对 CAST AI 联合创始人兼首席人才官(CPO)Laurent Gil 来说,调查结果表明,公司仍在“努力应对手动管理云原生基础设施的复杂性”——该公司的报告指出,在 Kubernetes 上,工作负载的大小是根据为 CPU 和内存设置的请求和限制来确定的:“优化它们就像走钢丝。”
“过度配置 CPU 和内存可以保持正常运行,但成本很高。”
“资源调配不足可能会导致 CPU 限制和内存不足,从而导致应用程序性能不佳甚至崩溃。当团队不完全了解其容器资源需求时,他们通常会谨慎行事,调配比所需更多的 CPU 和内存。”
“这就是自动化调整工作负载的用武之地。”他说到。(提供 Kubernetes 成本优化平台的 CAST AI 声称,开源替代方案为本已经很复杂的编排层增加了更多的配置复杂性,而其商业替代方案的即插即用功能是更简单的削减云支出的替代方案。)
另见:PlayStation 希望让游戏服务器在 Kubernetes 上运行。原因如下。
该报告的调查结果是基于 CAST AI 对 2023 年 1 月 1 日至 12 月 31 日期间在亚马逊网络服务(AWS)、谷歌云平台(GCP)和微软 Azure(Azure)上运行的 4000 个集群的分析,之后这些集群由该公司的自动化平台进行优化。
它进一步指出,对于包含 1000 到 30000 个 CPU 的大型集群,组织平均仅使用 17% 的预配 CPU。
简而言之,报告总结道,造成浪费的最大因素是:
过度配置:分配给应用程序或系统的计算资源超过了其所需的数量。
豪无根据的余量:对 CPU 数量的请求设置得太高。
Spot 实例使用率低:由于担心不稳定,许多公司不愿意使用 Spot 实例。
GKE 上“自定义实例大小”的使用率较低:除非自定义实例的选择是动态且自动化的,否则很难选择最佳的 CPU 和内存比率。完整的报告 在这里。
原文链接:
https://www.thestack.technology/kubernetes-clusters-are-typically-using-just-13-of-cpu-cios-could-save-a-fortune/
声明:本文为 InfoQ 翻译,未经许可禁止转载。
今日好文推荐马斯克最新回应:OpenAI 的“邮件攻击”在说谎!斯诺登力挺:OpenAI 这么做是反人类!
4 秒处理 10 亿行数据!Go 语言的 9 大代码方案,一个比一个快
周鸿祎首堂AI课引争议,专业性错误遭质疑;智联招聘被“挤崩”,网友:找工作更焦虑了;马斯克起诉OpenAI,要求开源 | Q资讯