IT资产监控服务器硬件管理：IT资产监控实战

知识分享

2026-06-08 03:40

15 阅读

很多刚开始接触服务器运维的朋友，都会遇到同一个问题：服务器的CPU是不是跑满了？
内存还剩多少？
硬盘什么时候会爆？
如果不提前掌握这些信息，一旦硬件出故障，业务就会停摆。
今天我就带大家用一套轻量且免费的方案——Prometheus + node_exporter + Grafana，搭建一套属于自己的IT资产监控服务器硬件管理系统。
整个过程不依赖复杂面板，只要你能登录Linux终端就能上手。

工欲善其事：需要准备什么

在开始操作前，请确认你至少有一台Linux服务器（CentOS 7+/Ubuntu 18.04+均可），并且能用root或sudo执行命令。
建议先关闭系统防火墙或放行以下端口：Prometheus默认端口9090、node_exporter端口9100、Grafana端口3000。
如果你用的是云服务器，记得在安全组中也打开这些端口。
另外，服务器需要能正常访问互联网，因为我们要下载安装包。

分步搭建：从安装到跑起来

1. 下载并启动node_exporter（数据采集端）

node_exporter是Prometheus官方提供的数据采集器，可以收集CPU、内存、磁盘、网络等硬件信息。
登录你的服务器，执行：

wget https://github.com/prometheus/node_exporter/releases/download/v1.6.1/node_exporter-1.6.1.linux-amd64.tar.gz
tar xzf node_exporter-1.6.1.linux-amd64.tar.gz
cd node_exporter-1.6.1.linux-amd64
./node_exporter &

启动后使用curl http://localhost:9100/metrics检查输出。
如果能看到大量以node_开头的指标，比如node_cpu_seconds_total，说明采集成功。别忘了用nohup或systemd管理进程，避免终端关闭后程序退出。

2. 安装Prometheus（数据存储与查询）

在另一台机器（如果单机测试也可放同一台）上执行：

wget https://github.com/prometheus/prometheus/releases/download/v2.48.0/prometheus-2.48.0.linux-amd64.tar.gz
tar xzf prometheus-2.48.0.linux-amd64.tar.gz
cd prometheus-2.48.0.linux-amd64

编辑配置文件prometheus.yml，在scrape_configs下添加node_exporter的地址：

scrape_configs:
  - job_name: 'node'
    static_configs:
      - targets: ['你的服务器IP:9100']

替换你的服务器IP为实际IP。
保存后启动Prometheus：

./prometheus --config.file=prometheus.yml &

访问http: //服务器IP: 9090，
在查询框中输入up，
看到node对应的值为1，
代表抓取正常。注意：
如果targets写127.0.0.1但node_exporter在另一台机器，
则必须写真实IP。

3. 安装Grafana（可视化面板）

用以下命令安装Grafana（以CentOS为例）：

sudo yum install -y https://dl.grafana.com/enterprise/release/grafana-enterprise-10.2.2-1.x86_64.rpm
sudo systemctl start grafana-server
sudo systemctl enable grafana-server

浏览器访问http://服务器IP:3000，默认账号密码都是admin，登录后按提示设置新密码。
接着添加数据源：点击左侧齿轮图标 → Data Sources → Add data source → 选择Prometheus，在URL栏填入http://localhost:9090（如果Grafana和Prometheus在同一台机器）或实际IP，点击Save & Test。

4. 导入硬件监控仪表盘

Grafana官方社区有现成的node_exporter仪表盘，ID为1860（CPU、内存、磁盘、网络全覆盖）。
点击左侧+号 → Import → 输入1860 → Load → 选择刚才创建的Prometheus数据源 → Import。
几秒后你就能看到服务器的CPU使用率、内存占用、磁盘IO、网络流量等实时图表。
所有数据来自你自己部署的监控系统，安全可控。

新手常见陷阱与避坑指南

防火墙和端口没放行：不少朋友启动服务后无法访问，十有八九是防火墙的问题。
检查firewalld或iptables规则，或者干脆先关闭防火墙测试。
云服务器的话，检查安全组入方向是否放行了9090、9100、3000端口。

磁盘空间不足：Prometheus默认保留15天的数据，如果监控的服务器数量多，数据量会增长很快。
建议定期检查/data目录（如果自定义了数据目录）。
可以在启动时用--storage.tsdb.retention.time=30d参数调整保留时长。

node_exporter版本不匹配：长期运行的服务器上，如果使用旧版node_exporter，某些指标名可能不同。
建议下载最新的稳定版，并保持Prometheus版本也同步更新。

Grafana面板不显示数据：导入仪表盘后一片空白，大概率是因为数据源名称或指标名不一致。
确认Prometheus数据源连接正常，然后在Grafana的Explore页面手动查询node_cpu_seconds_total测试一下。

验证监控是否生效

完成上述配置后，你可以做几件事来确认整个IT资产监控服务器硬件管理系统已经跑通：

查看Prometheus目标状态：访问http://PrometheusIP:9090/targets，确保node的State是UP。
用Grafana钻取数据：在仪表盘中点击CPU图表，切换到“View”模式，观察曲线是否随时间更新。也可以手动给服务器施压（比如运行stress --cpu 4），看图表是否立刻反映变化。
告警测试（可选）：如果你配置了Alertmanager，可以设置一个CPU超过80%的告警规则，验证通知渠道是否正常。

现在你已经拥有了一套免费且功能强大的硬件监控系统。
无论是日常巡检还是故障排查，都能第一时间掌握服务器的健康状态。
如果你在处理IT资产监控服务器硬件管理时遇到其他问题，或者想要更精细的磁盘温度、风扇转速监控，欢迎留言交流。
记得定期检查监控数据，才能真正发挥这套系统的作用。

磁盘阵列RAID配置数据防护：零基础搞定磁盘阵列RAID配置

零基础用GitBook搭建个人技术知识库完整教程