改善 Kubernetes 日志以增强可观测性

作者 | Prithvish Kovelamudi 译者 | 张卫滨 策划 | Tina 核心要点
  • Kubernetes 的分布式特性使得从容器、Pod 和节点等不同数据源收集和集中日志变得很具挑战性。容器动态创建和销毁的环境,以及大量和高度生成的日志数据均使传统的日志管理方式难以胜任。

  • 采用专门为 Kubernetes 的动态和分布式特性设计的容器原生日志管理工具至关重要。这些工具,如 Elastic Stack(包括 Beats 和 Logstash)、Fluentd 和 Prometheus,提供了日志聚合、容器感知日志以及与 Kubernetes 对象集成等特性。

  • 实现高效的日志收集策略(比如 sidecar 模式)、利用 Kubernetes 原生的特性(如 Logs API、Kubelet 日志和 DaemonSets)并探索云供应商的解决方案(AWS CloudWatch Logs、GCP Stackdriver、Azure Monitor),可以简化和集中化日志收集,降低复杂性和性能开销。

  • 利用先进的日志分析技术,包括借助像 Kibana 和 Grafana 这样的工具以仪表盘的形式可视化日志,设置日志告警和监控,并使用那些提供日志解析、查询和基于机器学习的日志分析功能的工具执行深度的日志分析。

  • 本文重点介绍了有效管理 Kubernetes 日志的最佳实践,例如,标准化和集中化的日志格式,实现日志收集、解析和分析的自动化,以及通过适当的访问控制和加密来保护敏感的日志数据,从而确保安全性。

引   言

在微服务和容器化应用程序的时代,有效管理和监控应用程序的健康状况和性能变得至关重要。Kubernetes 是一个开源系统,用于自动化部署、扩展和管理容器化的应用程序,它已经成为企业寻求敏捷性和韧性的首选解决方案。

但是,由于 Kubernetes 的分布式架构、高日志量和动态化等特征,在 Kubernetes 中管理日志仍然是一项重大的挑战。恰当的日志可以提供对应用程序行为的重要洞察力,帮助开发和运维团队快速诊断问题并维持高可靠性。

本文将会探讨在 Kubernetes 中日志管理的高级策略和最佳实践。从高效的日志收集和聚合到富有洞察力的分析技术,我们将会深入研究如何增强可观测性。

通过采用容器原生的日志工具、集中式的日志收集并利用 Kubernetes 原生的特性,你将学会如何简化日志管理流程并获得可操作的知识,从而确保你的应用程序能够顺利运行。

我们深入了解一下在 Kubernetes 环境中实现无缝日志管理的挑战、策略和最佳实践。

理解 Kubernetes 中日志管理的挑战

在深入探讨具体的策略之前,我们先了解一下在 Kubernetes 中日志管理所面临的挑战。了解这些挑战有助于认识计划详尽的日志管理策略的重要性。

Kubernetes 的分布式特征

Kubernetes 采用了分布式的架构,容器会在集群中的多个节点上运行。这种分布式的特征会从容器、Pod、节点和 Kubernetes 控制平面等不同数据源生成日志。从多个位置收集和集中日志可能会很复杂,尤其是在大规模部署的环境中更是如此。设想一下,如果一个错误源于跨多个容器的服务,那么该如何排除故障呢?如果没有集中式的日志,找到相应的容器可能要花费数小时的时间。

日志的数量和生成速度

容器和微服务是轻量级的,会产生大量的日志。动态 Kubernetes 环境中容器的快速创建和销毁进一步加快了日志数据生成速度。大量涌入的日志可能会让传统的日志管理系统不堪重负,从而带来存储、处理和分析方面的挑战。事实上,根据 CNCF 的一项调查,微服务产生的日志数据是单体应用的 10 倍。在具有可自动扩展的动态集群中,数百个容器每天可能会产生数 GB 的日志,所以实时分析至关重要。

日志格式和上下文

容器和微服务通常会以不同的格式生成日志,这给数据的解析和分析带来了困难。此外,由于 Kubernetes 部署动态化的特征,要了解日志的上下文(比如,日志来自哪个容器或 Pod)也很困难。出现问题的 Pod 所生成的日志可能不会直接表明涉及的服务或节点,因此很难找出根本原因。

合规性和安全性

日志通常包含敏感数据或者需要监管的信息。日志管理欠佳可能会导致数据泄露或违背行业标准。在缺乏保障措施的情况下记录个人身份信息(personally identifiable information,PII)可能会导致 GDPR 或 CCPA 数据保护规则的处罚。

在 Kubernetes 中有效收集日志的策略

日志收集是日志管理流程中至关重要的第一步。以下列出了在 Kubernetes 环境中,确保高效、全面收集日志的策略:

拥抱容器原生的日志

由于其动态性和分布式特性,Kubernetes 引入了一系列新的日志需求。我们应该采用专门为该环境设计的容器原生日志工具和框架。这些工具能够理解在 Kubernetes 中记录日志的独特挑战,并提供日志聚合、容器感知日志以及与 Kubernetes 集成的特性。

容器原生日志解决方案的样例包括 Elastic Stack,它包含了用于轻量级数据传输的 Beats 和用于数据处理的 Logstash;Fluentd,它提供了灵活的日志路由,并且支持多个输出目的地;以及 Prometheus,它为度量指标提供了原生支持,并且可以扩展到日志收集。

采用 Sidecar 模式集中收集日志

Sidecar 模式会在每个 Pod 中部署一个日志代理作为 sidecar 容器。该代理从 Pod 的主应用程序容器收集日志,并将日志发送到一个中心化的位置。无论节点或 Pod 位于何处,这种方式都能确保在整个集群中以一致的方式收集日志。

Sidecar 模式通过为所有的日志提供一致的接口,简化了日志的收集,使日志基础设施的管理和扩展都变得更加容易。

利用 Kubernetes 的原生特性

Kubernetes 提供了便于进行日志收集的原生特性,比如:

  • Kubernetes Logs API:Kubernetes API 服务器会暴露在 Pod 中运行的容器的日志。我们能够以编程的方式使用该 API 检索日志,从而实现中心化的收集。

  • Kubelet Logging:在每个节点上运行的 Kubelet 可以进行配置,以便于收集容器日志,并将其发送至本地日志文件或远程日志服务器。

  • 用于集群范围内日志收集的 DaemonSets:使用 DaemonSets 将日志代理部署到集群中的所有节点,从而确保在每个节点收集日志。

通过利用这些原生特性,我们可以简化日志的收集,降低日志基础设施的复杂性。使用原生组件也会最大程度地降低性能方面的开销。

探索云供应商的日志解决方案

如果你的 Kubernetes 集群托管在云平台上,可以探索云供应商所提供的日志解决方案,例如:

  • Amazon Web Services(AWS):AWS 提供了 CloudWatch Logs,这是一项托管服务,可以收集和存储在 AWS 上运行的 Kubernetes 集群的日志。

  • Google Cloud Platform(GCP):GCP 提供了 Stackdriver,这是一个监控和日志平台,能够与 GCP 上运行的 Kubernetes 集群无缝集成。

  • Microsoft Azure:Azure Monitor 为 Azure 上部署的 Kubernetes 集群提供了全面的日志功能。

这些云供应商解决方案提供了无缝集成、简化设置以及一些额外的特性,如日志分析和告警。

有效的日志管理策略

有效的日志管理涉及高效存储、处理和索引日志,以便于快速分析和检索。以下是优化日志管理的一些策略:

实现日志聚合和流式处理

日志聚合涉及到从多个来源收集日志并将其集中到一个位置,通常被称为日志聚合层。这个层可以是一个日志管理平台(如 Elastic Stack),也可以是基于云的日志服务。

通过聚合日志,可以简化管理流程,降低分析来自不同数据源的日志的复杂性。日志流能够确保日志实时转发到聚合层,以便于实现及时分析和告警。

优化日志存储和保存

Kubernetes 中生成的大量日志会迅速消耗存储空间。我们要实现优化日志存储的策略,例如:

  • 日志轮转:定期轮转日志,防止日志文件无限增长。

  • 日志压缩:压缩旧的日志,以减少存储的消耗。

  • 日志归档:将旧日志归档到更便宜的长期存储解决方案中。

除此之外,还应该定义日志的保存策略,根据日志的重要性和监管要求,列出日志应该保留的时间。这可以确保你不会保留不必要的日志,从而降低存储成本并提高日志的搜索性能。

增强日志的搜索和索引

快速搜索和检索相关日志对于高效排除故障非常重要。我们可以通过如下方式增强日志的搜索和索引能力:

  • 为日志添加标签:使用标签对日志进行分类,使其更易于搜索和过滤。

  • 结构化日志:鼓励使用 JSON 或键 - 值对这样的结构化日志格式,以便更容易地解析日志数据并创建索引。

  • 日志索引工具:使用具有高级索引功能的日志管理平台,以加快日志日志搜索的速度。

通过改进日志的搜索和索引,我们可以减少故障的排查时间,更快地了解应用程序的行为。

分布式系统中的日志架构示例

深入分析日志的策略

在 Kubernetes 中分析日志需要提取出有价值的见解,以提高应用程序的性能、识别潜在的问题并确保系统的健康。如下的这些策略有助于高效分析日志:

使用仪表盘可视化日志

通过仪表盘对日志进行可视化,这样能够快速浏览系统的健康状况和性能。创建可显示重要日志指标和趋势的自定义仪表盘,这样可以及时发现异常并识别出问题。

例如,你可以使用 Kibana,它能够为 Elasticsearch 中索引的日志数据提供可自定义的仪表盘。我们可以跟踪错误率、响应时间和资源使用情况。Grafana 则非常适合将日志和其他指标结合起来,提供一个全面的可观测性仪表盘。

日志的可视化 Grafana 仪表盘示例

设置日志告警和监控

积极的日志监控和告警可以帮助我们避免潜在的问题。请根据特定的日志模式或异常情况设置日志告警规则。例如,你可以为关键错误、安全漏洞或日志量的激增配置告警。

将日志管理平台与通知工具(如 Slack 或 PagerDuty)进行集成,以确保在出现关键问题时立即通知正确的团队成员。

执行日志分析

日志分析涉及到深入挖掘日志数据,以发现对系统的见解和趋势。请使用提供高级分析功能(如日志解析、日志查询和基于机器学习的日志分析)的日志管理平台。

例如,你可以针对特定的日志模式或错误进行搜索,从而识别出某个问题的根本原因。机器学习算法能够探测日志数据中的异常情况,有助于将潜在的问题在影响用户之前就识别出来。

为日志添加标签或标记

使用相关的元数据为日志添加标签,以提供更好的上下文并简化过滤。这样能够根据应用程序、容器或严重性条件更快地搜索、过滤和分类日志。利用 Kubernetes 原生的标签或注解实现自动化标记。我们可以根据内部要求(如环境、版本或发布阶段)应用自定义的标签。

日志管理和存储解决方案

收集日志只是第一步。要了解数据流的意义,最好有一个中心化的存储解决方案。这就是像 Elasticsearch 和 Loki 这样强大的日志存储解决方案能够发挥作用的地方了。

  • Elasticsearch 和 Kibana 的强大组合:我们可以将 Elasticsearch 想象为一个巨大、有序的日志仓库。它能够高效地存储和索引数据,从而实现强大的过滤和搜索功能。与可视化工具 Kibana 组合,Elasticsearch 可以将日志转化为富有洞察力的仪表盘和报告。

  • Loki 用于扩展日志存储:如果可扩展性是你比较关注的问题,那么 Loki 可能就是你的救世主。这种可水平扩展的日志存储解决方案专门用于处理来自 Kubernetes 等云原生环境的海量日志数据。

另外,还有托管的日志服务,它们负责整个日志管理的基础设施,为那些喜欢当甩手掌柜的人提供了便捷的可选方案。

Kubernetes 日志管理的最佳实践

遵循如下的最佳实践可以简化 Kubernetes 日志的管理,并确保从数据中获得最大的收益。标准化和集中化:

  • 一致性是关键!在所有的应用程序中统一日志格式,以简化分析和问题排查。此外,争取使用集中式的日志平台,将所有的日志汇总到一个易于访问的位置。

  • 自动化是你的益友:尽可能实现自动化。这包括使用像 Prometheus 这样的工具实现日志收集、解析和分析任务的自动化。让机器来做这些繁重的工作,这样你就可以专注于更高层次的任务了。

  • 安全方面的考量因素:日志通常会包含敏感信息。不要让它们落入坏人的手里!对日志数据要实现适当的访问控制和加密,以确保只有授权用户才能访问这些数据。

案例研究:在 Kubernetes 环境中使用 Elastic Stack 进行高效的日志聚合 公司概况

某家专门从事实时金融交易和服务的中型金融科技公司在管理其基于 Kubernetes 的应用程序的大量日志方面面临重大挑战。其现有的日志管理解决方案难以跟上数据的规模和速度,影响了其有效监控、分析和响应系统行为的能力。

挑战

随着公司的发展,其服务的复杂性和 Kubernetes 集群中微服务的数量也在不断增长。开发和运维团队发现,由于以下原因,跟踪和分析日志变得越来越困难:

  • 各种服务的日志格式不一致。

  • 难以关联应用程序技术栈中不同组成部分的日志。

  • 搜索和检索相关日志数据的延迟较高。

    解决方案的实现

该公司实现了流行的日志聚合方案 Elastic Stack 来解决这些挑战。其实现包含如下几个核心组件:

  1. Elasticsearch:用作高可扩展的搜索和分析引擎。

  2. Logstash:用于处理传入的日志,并在存储前充实日志的内容。

  3. Kibana:用于可视化日志并创建实时仪表盘。

  4. Beats:跨 Kubernetes 节点部署的轻量级数据传输器(Filebeat 和 Metricbeat),以收集日志和度量指标。

    部署策略
  • 与 Kubernetes 集成:Filebeat 使用 DaemonSets 进行部署,以确保集群中的每个节点都能将日志转发到 Logstash。

  • 对日志进行充实:配置 Logstash 流水线,利用额外的元数据解析和丰富日志,从而实现更简单直接的关联和分析。

  • 集中化的日志:所有的日志均集中在 Elasticsearch 中,从而实现高效存储、搜索和分析。

  • 实时可观测性:设置了 Kibana 仪表盘,以便实时了解应用程序的性能、错误率和系统健康状况。

    结果

Elastic Stack 的实现改变了公司的日志管理能力:

  • 改进了日志关联:增强的元数据使团队能够快速关联各服务的日志,显著缩短了识别和解决问题的时间。

  • 增强了搜索能力:Elasticsearch 的强大搜索功能使团队能够在数秒内对数十亿条日志条目执行复杂的查询。

  • 实时监控和告警:Kibana 仪表盘提供了系统健康状况的全面视图,集成的告警机制会主动通知团队潜在的问题。

  • 可扩展性和灵活性:该解决方案可以轻松地随公司服务的增长而扩展,在处理日志量增加的同时不会降低性能。

    结   论

掌握 Kubernetes 中的日志管理对于在微服务架构中实现强大的可观测性并维护系统的可靠性至关重要。Kubernetes 具有分布式、高日志量和动态化的特征,这给它带来了独特的挑战。但是,只要采取正确的策略,这些挑战就能转化为获取更深入洞察力的机遇。

通过理解日志管理的复杂性、采用高效的收集策略(如容器原生的日志工具和集中式 sidecar 模式)并充分利用 Kubernetes 的原生功能,我们可以建立一个综合性的基础。有效的日志分析策略(如仪表盘可视化、主动报警和高级分析)能够确保原始的日志数据可以转化为具有可操作性的指南。

结合标签、与其他遥测数据进行关联和合规性等最佳实践,可以确保我们的日志框架与应用程序的增长和性能目标保持一致。无论是排除故障、识别性能瓶颈,还是提供安全性和合规性,战略性的日志管理都能帮助团队优化运维。

优化的日志管理方式可以帮助团队避免潜在的问题,确保应用程序性能平稳,并改善决策。实施这些策略可以提升 Kubernetes 的日志实践,从而实现稳健、可靠和韧性的基础架构。

通过实现本文所述的策略,你就能很好地掌握 Kubernetes 环境中的日志管理,确保系统平稳运行并提高应用程序性能。

关于作者

Prithvish Kovelamudi,是一位经验丰富的软件工程师,拥有 9 年以上的工作经验,他目前在 Marqeta 负责构建高度可扩展的云计算平台。Prithvish 曾在英特尔公司的加速计算部门长期任职,研究云计算平台的基础技术。他热衷于与技术社区分享自己的知识,目前正在撰写各种技术出版物。

查看英文原文:

Elevating Kubernetes Logging for Enhanced Observability  (https://www.infoq.com/articles/kubernetes-logging-enhanced-observability/)

声明:本文由 InfoQ 翻译,未经许可禁止转载。

今日好文推荐

剥离几百万行代码,复制核心算法去美国?TikTok 最新回应来了

微软偷偷决定不开源 Linux 及 macOS 版 WebView2,网友:等了四年,我还是用 Electron?!

大厂期权归属前遭暴力裁员,80 余万期权泡汤;去哪儿宣布每周两天“不坐班”;萝卜快跑是人类远程代驾?客服:无人操控 | Q资讯

微软中国 CTO 韦青:亲身经历大模型落地的体会与思考

相关推荐

  • Construct 公司从 0 到 1 基于 Kitex+Istio 的微服务系统建设
  • 是时候重塑金融机构的思想结构与资产结构了
  • 入局大模型!值得开发者好好看一看的 AI 入门法!(内附教程)| 极客时间
  • 刚刚!苹果发布新款iPhone重大更新预览版,果粉测试方法来了
  • 无须英伟达,AMD本地可跑CUDA?惊现极客团队开发三方编程工具包,网友群议指责AMD无作为:已经晚了,CUDA已经是事实标准了
  • 神经网络架构「殊途同归」?ICML 2024论文:模型不同,但学习内容相同
  • VLM集体「失明」?视力测试惨败,GPT-4o、Claude 3.5全都不及格
  • Claude 3.5核心编码prompt揭秘,全网码农沸腾!四步调教法,最新V2版放出
  • 一枚「弃子」打破80年黎曼猜想纪录!菲尔兹奖得主MIT大拿联手,陶哲轩转赞
  • 提升准确率召回率的创新风控策略与算法
  • 图技术在金融反欺诈中的应用
  • 火山引擎基于 DataLeap 的电商指标管理实践
  • 抛弃视觉编码器,这个「原生版」多模态大模型也能媲美主流方法
  • 谷歌机器人专家:机器人在现实中碰过的壁,AI也会碰
  • 公理训练让LLM学会因果推理:6700万参数模型比肩万亿参数级GPT-4
  • 太酷了!iPhone、iPad、MacBook老旧设备组成异构集群,能跑Llama 3
  • 全程免费!「真格星球AI+创业营」与十数位大咖导师一道,碰撞AI灵感、寻找落地商机
  • [Pnetlab实战演练]手把手教你配置华为防火墙的Telnet远程访问!
  • 从草稿到样品图,只需要一步AI|AI产品测评
  • 大模型“玩”Excel更6了,微软搞的