IT资产监控服务器硬件管理:IT资产监控实战

很多刚开始接触服务器运维的朋友,都会遇到同一个问题:服务器的CPU是不是跑满了?
内存还剩多少?
硬盘什么时候会爆?
如果不提前掌握这些信息,一旦硬件出故障,业务就会停摆。
今天我就带大家用一套轻量且免费的方案——Prometheus + node_exporter + Grafana,搭建一套属于自己的IT资产监控服务器硬件管理系统。
整个过程不依赖复杂面板,只要你能登录Linux终端就能上手。

工欲善其事:需要准备什么

在开始操作前,请确认你至少有一台Linux服务器(CentOS 7+/Ubuntu 18.04+均可),并且能用root或sudo执行命令。
建议先关闭系统防火墙或放行以下端口:Prometheus默认端口9090、node_exporter端口9100、Grafana端口3000
如果你用的是云服务器,记得在安全组中也打开这些端口。
另外,服务器需要能正常访问互联网,因为我们要下载安装包。

分步搭建:从安装到跑起来

1. 下载并启动node_exporter(数据采集端)

node_exporter是Prometheus官方提供的数据采集器,可以收集CPU、内存、磁盘、网络等硬件信息。
登录你的服务器,执行:

wget https://github.com/prometheus/node_exporter/releases/download/v1.6.1/node_exporter-1.6.1.linux-amd64.tar.gz
tar xzf node_exporter-1.6.1.linux-amd64.tar.gz
cd node_exporter-1.6.1.linux-amd64
./node_exporter &

启动后使用curl http://localhost:9100/metrics检查输出。
如果能看到大量以node_开头的指标,比如node_cpu_seconds_total,说明采集成功。别忘了用nohup或systemd管理进程,避免终端关闭后程序退出。

2. 安装Prometheus(数据存储与查询)

在另一台机器(如果单机测试也可放同一台)上执行:

wget https://github.com/prometheus/prometheus/releases/download/v2.48.0/prometheus-2.48.0.linux-amd64.tar.gz
tar xzf prometheus-2.48.0.linux-amd64.tar.gz
cd prometheus-2.48.0.linux-amd64

编辑配置文件prometheus.yml,在scrape_configs下添加node_exporter的地址:

scrape_configs:
  - job_name: 'node'
    static_configs:
      - targets: ['你的服务器IP:9100']

替换你的服务器IP为实际IP。
保存后启动Prometheus:

./prometheus --config.file=prometheus.yml &

访问http:
//服务器IP:
9090

在查询框中输入up
看到node对应的值为1
代表抓取正常。注意:
如果targets写127.0.0.1但node_exporter在另一台机器,
则必须写真实IP。

3. 安装Grafana(可视化面板)

用以下命令安装Grafana(以CentOS为例):

sudo yum install -y https://dl.grafana.com/enterprise/release/grafana-enterprise-10.2.2-1.x86_64.rpm
sudo systemctl start grafana-server
sudo systemctl enable grafana-server

浏览器访问http://服务器IP:3000,默认账号密码都是admin,登录后按提示设置新密码。
接着添加数据源:点击左侧齿轮图标 → Data Sources → Add data source → 选择Prometheus,在URL栏填入http://localhost:9090(如果Grafana和Prometheus在同一台机器)或实际IP,点击Save & Test。

4. 导入硬件监控仪表盘

Grafana官方社区有现成的node_exporter仪表盘,ID为1860(CPU、内存、磁盘、网络全覆盖)。
点击左侧+号 → Import → 输入1860 → Load → 选择刚才创建的Prometheus数据源 → Import。
几秒后你就能看到服务器的CPU使用率、内存占用、磁盘IO、网络流量等实时图表。
所有数据来自你自己部署的监控系统,安全可控。

新手常见陷阱与避坑指南

防火墙和端口没放行:不少朋友启动服务后无法访问,十有八九是防火墙的问题。
检查firewalldiptables规则,或者干脆先关闭防火墙测试。
云服务器的话,检查安全组入方向是否放行了909091003000端口。

磁盘空间不足:Prometheus默认保留15天的数据,如果监控的服务器数量多,数据量会增长很快。
建议定期检查/data目录(如果自定义了数据目录)。
可以在启动时用--storage.tsdb.retention.time=30d参数调整保留时长。

node_exporter版本不匹配:长期运行的服务器上,如果使用旧版node_exporter,某些指标名可能不同。
建议下载最新的稳定版,并保持Prometheus版本也同步更新。

Grafana面板不显示数据:导入仪表盘后一片空白,大概率是因为数据源名称或指标名不一致。
确认Prometheus数据源连接正常,然后在Grafana的Explore页面手动查询node_cpu_seconds_total测试一下。

验证监控是否生效

完成上述配置后,你可以做几件事来确认整个IT资产监控服务器硬件管理系统已经跑通:

  1. 查看Prometheus目标状态:访问http://PrometheusIP:9090/targets,确保node的State是UP
  2. 用Grafana钻取数据:在仪表盘中点击CPU图表,切换到“View”模式,观察曲线是否随时间更新。也可以手动给服务器施压(比如运行stress --cpu 4),看图表是否立刻反映变化。
  3. 告警测试(可选):如果你配置了Alertmanager,可以设置一个CPU超过80%的告警规则,验证通知渠道是否正常。

现在你已经拥有了一套免费且功能强大的硬件监控系统。
无论是日常巡检还是故障排查,都能第一时间掌握服务器的健康状态。
如果你在处理IT资产监控服务器硬件管理时遇到其他问题,或者想要更精细的磁盘温度、风扇转速监控,欢迎留言交流。
记得定期检查监控数据,才能真正发挥这套系统的作用。

分享到:
上一篇
磁盘阵列RAID配置数据防护:零基础搞定磁盘阵列RAID配置
下一篇
零基础用GitBook搭建个人技术知识库完整教程
1
系统公告

高考专属福利来袭|凭准考证免费领香港 CN2 云服务器

值高考落幕之际,泽御云开启考生专属回馈 + 产品限时特惠双重活动,助力学子暑期学习建站 高考 考生专属福利 全体应届高考生,凭高考准考证即可免费申领【香港 CN2 轻量云服务器,4 核 4G AMD 处理器】,免费使用周期 30 天,可用于搭建个人站点、编程实操、技术实训,祝各位考生金榜题名,前程似锦! 泽御云资质齐全合规自营机房,线路覆盖香港 CN2、国内 BGP、内蒙电信、美国精品线路,售后全天候技术支持。 官方网站:www.zeyuyun.com,活动限时有效,优惠逾期不再保留。
服务中心
客服
在线客服
24小时为您服务
咨询
联系我们
联系我们,为您的业务提供专属服务。
24/7 技术支持
如果您遇到寻求进一步的帮助,请过工单与我们进行联系。
24/7 即时支持
泽御云
售前客服
泽御云
泽御云
售后客服
泽御云
技术支持
评价
您对当前页面的整体感受是否满意?
😞
非常不满意
😕
不满意
😐
一般
🙂
满意
😊
非常满意