腾讯云服务器监控进阶——用Prometheus+Grafana搭建专属运维看板

发布时间:2026-07-05 00:59:58

腾讯云服务器监控进阶——用Prometheus+Grafana搭建专属运维看板

腾讯云自带的云监控已经很好用,但对于有技术追求的团队,可能希望更灵活的指标收集、自定义面板和告警。Prometheus与Grafana组合是云原生监控的标配,完全可以在腾讯云服务器上自建,而且能监控轻量、CVM甚至容器服务。作为代理商,我们为需要精细化运维的客户部署过很多这样的看板。这篇文章就分享如何在腾讯云服务器上搭建Prometheus+Grafana监控系统,并配置常用指标采集,附上部署与看板配置表格。

为什么要自建监控?

腾讯云监控提供基础指标和告警,但对于业务指标(如网站在线人数、订单队列长度)或定制化指标,需要自建。另外,Prometheus的灵活查询语言和Grafana丰富的可视化,可以打造出专属于你的“驾驶舱”。

部署架构选择

方案

说明

适用场景

单机Docker部署

在一台轻量/CVM上用Docker运行Prometheus+Grafana

小型环境,监控少量目标

双机分离

一台运行Prometheus,一台运行Grafana

要求资源隔离

高可用

使用Thanos或VictoriaMetrics等,多个Prometheus

大规模生产环境,当前暂不讨论

对于大多数用户,用一台2核4G轻量或CVM,通过Docker Compose同时运行Prometheus和Grafana,就可以满足需求。资源占用大约1.5GB内存。

步骤一:环境准备与Docker安装

推荐使用腾讯云轻量或CVM,镜像选Ubuntu + Docker CE。创建以下目录结构:/opt/prometheus/opt/grafana用于持久化数据。

步骤二:编写docker-compose文件

我们提供一个模板:

yaml

复制

下载

version: '3'services:  prometheus:    image: prom/prometheus:latest    container_name: prometheus    volumes:      - /opt/prometheus/prometheus.yml:/etc/prometheus/prometheus.yml      - /opt/prometheus/data:/prometheus    command:      - '--config.file=/etc/prometheus/prometheus.yml'      - '--storage.tsdb.path=/prometheus'    ports:      - "9090:9090"  grafana:    image: grafana/grafana:latest    container_name: grafana    ports:      - "3000:3000"    volumes:      - /opt/grafana/data:/var/lib/grafana    environment:      - GF_SECURITY_ADMIN_PASSWORD=yourpassword

轻量防火墙需要开放9090和3000端口(建议仅内部或通过VPN访问,或设置白名单)。

步骤三:配置Prometheus监控目标

编辑prometheus.yml,添加要监控的服务器和应用的exporter。常用exporter及配置:

监控对象

Exporter

采集端口

备注

Linux主机(CPU、内存、磁盘等)

node_exporter

9100

需要在被监控服务器上安装并启动

MySQL

mysqld_exporter

9104

需创建监控用户

Nginx

nginx-prometheus-exporter

9113

需要Nginx开启stub_status

Redis

redis_exporter

9121

连接Redis

容器(cAdvisor)

cadvisor

8080

收集Docker容器指标

黑盒监控(HTTP/TCP)

blackbox_exporter

9115

监控网站可用性和SSL证书

如果想监控腾讯云轻量服务器,只需在轻量上安装node_exporter,并配置Prometheus抓取它的IP:9100。多个目标都可在配置文件中添加。

步骤四:Grafana配置与看板导入

登录Grafana(默认端口3000),添加Prometheus数据源。然后可以导入社区提供的精美看板模板,例如Node Exporter Full的模板ID为1860。导入后立刻拥有专业的主机监控面板,包含CPU、内存、磁盘、网络等图形。

我们通常为客户导入以下看板:

监控对象

Grafana模板ID

描述

Node Exporter全视图

1860

服务器详细指标

MySQL Overview

7362

数据库性能

Nginx

9612(或其他)

请求与连接

Redis

11835

缓存命中率、内存

告警配置:从被动到主动

Prometheus支持Alertmanager发送告警到微信、邮件等。我们可以配置如CPU>90%、磁盘>85%、网站不可达等规则。Grafana也支持直接告警。相比云监控,自建告警更灵活。我们常把重要告警接入企业微信,实现及时通知。

安全加固要点

自建监控需要注意安全:

Grafana和Prometheus端口限制访问IP(安全组规则)。

使用HTTPS和OAuth登录Grafana。

定期更新镜像。

node_exporter等端口也做防火墙限制。

我们交付时会完成这些配置,并提供监控入口给客户。

监控的价值故事

有一位做在线工具的客户,之前没监控,用户说“网站打不开”,他才发现服务器CPU爆满。部署Prometheus后,他设定了CPU长期超过80%自动触发企业微信告警,并且历史数据帮他分析出流量高峰时段,提前扩容。现在他几乎不用被动处理故障。

代理商的支持

如果你有服务器但缺乏时间搭建监控,我们可以提供代部署服务,甚至提供远程监控托管,帮你做7x24小时告警处理。云服务器不仅需要跑起来,更需要有人看着。

如果需要更深入咨询了解可以联系全球代理上TG:@jinniuge  他们在云平台领域有更专业的知识和建议,他们有国际阿里云,国际腾讯云,国际华为云,aws亚马逊,谷歌云一级代理的渠道,客服1V1服务,支持免实名、免备案、免绑卡。开通即享专属VIP优惠、充值秒到账、官网下单享双重售后支持。不懂找他们就对了。