IT资产监控服务器硬件管理:IT资产监控实战
很多刚开始接触服务器运维的朋友,都会遇到同一个问题:服务器的CPU是不是跑满了?
内存还剩多少?
硬盘什么时候会爆?
如果不提前掌握这些信息,一旦硬件出故障,业务就会停摆。
今天我就带大家用一套轻量且免费的方案——Prometheus + node_exporter + Grafana,搭建一套属于自己的IT资产监控服务器硬件管理系统。
整个过程不依赖复杂面板,只要你能登录Linux终端就能上手。
工欲善其事:需要准备什么
在开始操作前,请确认你至少有一台Linux服务器(CentOS 7+/Ubuntu 18.04+均可),并且能用root或sudo执行命令。
建议先关闭系统防火墙或放行以下端口:Prometheus默认端口9090、node_exporter端口9100、Grafana端口3000。
如果你用的是云服务器,记得在安全组中也打开这些端口。
另外,服务器需要能正常访问互联网,因为我们要下载安装包。
分步搭建:从安装到跑起来
1. 下载并启动node_exporter(数据采集端)
node_exporter是Prometheus官方提供的数据采集器,可以收集CPU、内存、磁盘、网络等硬件信息。
登录你的服务器,执行:
wget https://github.com/prometheus/node_exporter/releases/download/v1.6.1/node_exporter-1.6.1.linux-amd64.tar.gz
tar xzf node_exporter-1.6.1.linux-amd64.tar.gz
cd node_exporter-1.6.1.linux-amd64
./node_exporter &
启动后使用curl http://localhost:9100/metrics检查输出。
如果能看到大量以node_开头的指标,比如node_cpu_seconds_total,说明采集成功。别忘了用nohup或systemd管理进程,避免终端关闭后程序退出。
2. 安装Prometheus(数据存储与查询)
在另一台机器(如果单机测试也可放同一台)上执行:
wget https://github.com/prometheus/prometheus/releases/download/v2.48.0/prometheus-2.48.0.linux-amd64.tar.gz
tar xzf prometheus-2.48.0.linux-amd64.tar.gz
cd prometheus-2.48.0.linux-amd64
编辑配置文件prometheus.yml,在scrape_configs下添加node_exporter的地址:
scrape_configs:
- job_name: 'node'
static_configs:
- targets: ['你的服务器IP:9100']
替换你的服务器IP为实际IP。
保存后启动Prometheus:
./prometheus --config.file=prometheus.yml &
访问http:,
//服务器IP:
9090
在查询框中输入up,
看到node对应的值为1,
代表抓取正常。注意:
如果targets写127.0.0.1但node_exporter在另一台机器,
则必须写真实IP。
3. 安装Grafana(可视化面板)
用以下命令安装Grafana(以CentOS为例):
sudo yum install -y https://dl.grafana.com/enterprise/release/grafana-enterprise-10.2.2-1.x86_64.rpm
sudo systemctl start grafana-server
sudo systemctl enable grafana-server
浏览器访问http://服务器IP:3000,默认账号密码都是admin,登录后按提示设置新密码。
接着添加数据源:点击左侧齿轮图标 → Data Sources → Add data source → 选择Prometheus,在URL栏填入http://localhost:9090(如果Grafana和Prometheus在同一台机器)或实际IP,点击Save & Test。
4. 导入硬件监控仪表盘
Grafana官方社区有现成的node_exporter仪表盘,ID为1860(CPU、内存、磁盘、网络全覆盖)。
点击左侧+号 → Import → 输入1860 → Load → 选择刚才创建的Prometheus数据源 → Import。
几秒后你就能看到服务器的CPU使用率、内存占用、磁盘IO、网络流量等实时图表。
所有数据来自你自己部署的监控系统,安全可控。
新手常见陷阱与避坑指南
防火墙和端口没放行:不少朋友启动服务后无法访问,十有八九是防火墙的问题。
检查firewalld或iptables规则,或者干脆先关闭防火墙测试。
云服务器的话,检查安全组入方向是否放行了9090、9100、3000端口。
磁盘空间不足:Prometheus默认保留15天的数据,如果监控的服务器数量多,数据量会增长很快。
建议定期检查/data目录(如果自定义了数据目录)。
可以在启动时用--storage.tsdb.retention.time=30d参数调整保留时长。
node_exporter版本不匹配:长期运行的服务器上,如果使用旧版node_exporter,某些指标名可能不同。
建议下载最新的稳定版,并保持Prometheus版本也同步更新。
Grafana面板不显示数据:导入仪表盘后一片空白,大概率是因为数据源名称或指标名不一致。
确认Prometheus数据源连接正常,然后在Grafana的Explore页面手动查询node_cpu_seconds_total测试一下。
验证监控是否生效
完成上述配置后,你可以做几件事来确认整个IT资产监控服务器硬件管理系统已经跑通:
- 查看Prometheus目标状态:访问
http://PrometheusIP:9090/targets,确保node的State是UP。 - 用Grafana钻取数据:在仪表盘中点击CPU图表,切换到“View”模式,观察曲线是否随时间更新。也可以手动给服务器施压(比如运行
stress --cpu 4),看图表是否立刻反映变化。 - 告警测试(可选):如果你配置了Alertmanager,可以设置一个CPU超过80%的告警规则,验证通知渠道是否正常。
现在你已经拥有了一套免费且功能强大的硬件监控系统。
无论是日常巡检还是故障排查,都能第一时间掌握服务器的健康状态。
如果你在处理IT资产监控服务器硬件管理时遇到其他问题,或者想要更精细的磁盘温度、风扇转速监控,欢迎留言交流。
记得定期检查监控数据,才能真正发挥这套系统的作用。