摘要: 这是专栏第 8 篇,介绍一下 node-exporter 的 conntrack 插件。这个插件大家平时关注可能较少,但是在一些场景下,比如防火墙、NAT 网关等,需要监控 conntrack 表的使用情况。a56爆大奖在线娱乐就遇到过一次生产事故,就是因为 conntract 表满了,导致新连接无法建立,a56爆大奖在线娱乐这个插 阅读全文
posted @ 2024-06-13 18:17 SRETalk 阅读(11) 评论(0) 推荐(1) 编辑
摘要: Prometheus 生态的原生做法,由于阈值是放在 promql 中的,恢复时的消息中难以拿到恢复时的值,夜莺 v7.0.0.beta10 版本开始,提供了a56爆大奖在线娱乐较为简单的内置方式,解决这个问题。下面a56爆大奖在线娱乐们就来看一下如何实现这个能力。 升级方法 从 v6 版本开始,程序自动创建表结构,a56爆大奖在线娱乐 v6、v7 阅读全文
posted @ 2024-06-12 15:40 SRETalk 阅读(32) 评论(0) 推荐(0) 编辑
摘要: 夜莺资深用户群有人推荐的一个工具,看了一下真挺好的,也推荐给大家。 需求场景 A 服务调用 B 服务的 HTTP 接口,发现 B 服务返回超时,不确定是网络的问题还是 B 服务的问题,需要排查。 工具简介 就类似 curl,httpstat 也可以请求某个后端,而且可以把各个阶段的耗时都展示出来,包 阅读全文
posted @ 2024-06-11 10:06 SRETalk 阅读(219) 评论(0) 推荐(0) 编辑
摘要: 前言 Prometheus 生态里有很多采集器负责各类监控数据的采集,其中使用最广泛的,显然是 node-exporter,负责 Linux、BSD 等系统的常规监控指标的采集,比如 CPU、内存、硬盘、网络、IO 等。其 github 地址是:https://github.com/promethe 阅读全文
posted @ 2024-05-31 11:03 SRETalk 阅读(70) 评论(0) 推荐(0) 编辑
摘要: 问题背景 多个 Prometheus 集群或者多个 VictoriaMetrics 集群,在 Grafana 和夜莺里通常需要创建多个不同的数据源,这也就意味着,数据没法聚合查询,比如统一做一下 sum 之类的运算会比较麻烦,a56爆大奖在线娱乐讲述两种 Prometheus 生态的聚合查询方案,以供参考。 场景模 阅读全文
posted @ 2024-05-24 10:45 SRETalk 阅读(43) 评论(0) 推荐(0) 编辑
摘要: 这个版本最大的改动,就是仪表盘变量和业务组下的机器联动。大家可以导入这个大盘做测试: https://github.com/ccfos/nightingale/blob/main/integrations/Linux/dashboards/host_generic_categraf.json 这是查 阅读全文
posted @ 2024-05-23 14:19 SRETalk 阅读(47) 评论(0) 推荐(0) 编辑
摘要: Prometheus 生态里如果要查询数据,需要编写 promql,对于普通用户来说,门槛有点高。通常有两种解法,一个是通过 AI 的手段做翻译,你用大白话跟 AI 提出你的诉求,让 AI 帮你写 promql,另a56爆大奖在线娱乐是平台里内置现成的 promql,覆盖常用场景开箱即用。夜莺监控(Nighting 阅读全文
posted @ 2024-05-13 11:56 SRETalk 阅读(57) 评论(1) 推荐(0) 编辑
摘要: Prometheus 的重要性和流行度已经无需多言。直入主题,a56爆大奖在线娱乐对 Prometheus 监控平台的各个组件做深度讲解,希望能帮助读者更好地理解 Prometheus。 监控系统的核心逻辑 对于一套监控系统而言,核心就是采集数据并存储,然后做告警判定、数据展示分析,这个 专栏文章 详细讲解了这个数 阅读全文
posted @ 2024-05-11 10:49 SRETalk 阅读(73) 评论(0) 推荐(0) 编辑
摘要: 谈起当下监控,Prometheus 无疑是最火的项目,如果只是监控机器、网络设备,Zabbix 尚可一战,如果既要监控设备又要监控应用程序、Kubernetes 等基础设施,Prometheus 就是最佳选择。甚至有些开源项目,已经内置支持了 Prometheus 协议的指标暴露,比如新版本的 Zo 阅读全文
posted @ 2024-05-09 18:05 SRETalk 阅读(134) 评论(0) 推荐(0) 编辑
摘要: 虽说监控系统最侧重的功能是指标采集、存储、分析、告警,为了能够快速恢复故障,告警自愈机制也是需要重点投入建设的,所有可以固化为脚本的应急预案都可以使用告警自愈机制来快速驱动。夜莺开源项目从 v7 版本开始内置了告警自愈模块,a56爆大奖在线娱乐将详细介绍告警自愈的原理和实现。 夜莺项目介绍 夜莺监控是一款开源云原生 阅读全文
posted @ 2024-05-08 16:59 SRETalk 阅读(92) 评论(0) 推荐(0) 编辑