2026/4/6 8:41:56
网站建设
项目流程
做软件开发十几年其中5年专攻ITIMS监控。过去接触的是交换机、路由器、WebLogic、东方通、IBM存储那套传统体系——更偏向稳定、合规、集中式管控。今年从0上手PrometheusGrafana到现在基本可用。这篇不做教程做一次阶段性复盘现状、不足、以及为什么不盲目往深了做。一、当前监控体系已落地内容目前整套环境基于HP服务器 第二台虚拟机节点Docker部署核心模块都已跑通Prometheus Grafana 基础环境容器化部署配置持久化基础指标采集、存储正常面板可正常展示、查询服务器基础监控CPU、内存、负载、磁盘使用率、网络流量、TCP连接数等系统指标覆盖两台服务器节点MySQL 主从监控连接数、慢查询、运行状态、主从同步状态可视化展示Redis 基础监控内存使用、命中率、连接数、键数量、基本运行健康度告警通道与告警大屏邮件告警已打通服务异常可正常通知独立告警总览大屏核心组件异常能及时感知整体来说这套监控已经实现了“能看、能告警、能发现问题”满足DevOps底座最基本的可观测性需求。二、和传统ITIMS监控的差异感受因为有多年传统监控背景这次搭建云原生风格监控感受特别明显维度传统ITIMS监控DevOps监控定位更重、更全、更偏向基础设施层更轻、更灵活、更贴近服务与容器覆盖网络设备、存储、应用服务器、中间件全覆盖指标更细、更自动化目标稳定、统一、合规快速部署、动态扩容、自助式排查一个保稳定一个保迭代。思路不一样但核心目标一致系统稳不健康、出问题能不能快速发现。三、当前监控体系的明显不足虽然能用但离“好用、细致、企业级”还有明显差距只有基础指标没有服务级指标目前更多是机器层面Java服务、接口状态、业务相关指标几乎没有告警依赖固定阈值容易误报/漏报阈值靠经验拍没有动态基线高峰期容易误告警低负载又可能发现不了问题没有和日志联动监控看到异常后还要手动去翻日志无法一站式定位根因没有告警降噪、分级、收敛一个故障可能引发一堆告警没有重点、没有优先级没有自动自愈告警之后还是要人处理无法自动重启、自动恢复、自动扩容这些都是后续可以优化的方向但我不打算一口气全做。四、为什么不盲目把监控做深、做全很多人一上手监控就想一步到位全指标、全面板、全告警、全链路。以我过去的经验这样很容易陷入“为了监控而监控”。我现阶段保持克制主要有几个原因没有明确业务需求前不做过度设计我的平台还在迭代业务规模、接口量级、访问模型都没稳定监控太细没有实际意义DevOps底座优先于监控精细化环境稳定、部署顺畅、双活可用、数据库可靠这些优先级远高于花哨面板避免精力分散一边做DevOps一边学AI还要写文章、做个人内容监控先做到“够用”即可未来会结合AI升级现在没必要重复造轮子后面计划用AI做告警优化、根因分析、日志聚类现在堆太多规则后面反而要重构监控是S级重要但不代表要一上来就做到极致。先解决“有没有”再逐步优化“好不好”。五、后续监控体系精细化规划结合整体DevOps路线我的监控会按下面节奏逐步推进补全组件监控把Nginx、Jenkins、Docker容器、FRP等关键组件先覆盖完整优化告警规则减少噪音分级、降噪、调整阈值让告警“准、少、有用”接入日志系统Loki实现指标日志联动异常一键下钻逐步加入服务级指标随着业务接口稳定再接入JVM、接口耗时、错误率等指标AI辅助告警中长期用AI做动态阈值、根因分析、异常预测整体思路先稳定、再完善、后智能。六、总结监控是整个DevOps体系的“眼睛”重要性毋庸置疑对我这种有ITIMS背景的人来说更是核心赛道。但越是重要越不能急、不能堆功能、不能盲目深入。现阶段做到“基本可用”已经足够支撑后续开发与迭代。后续再围绕真实需求、真实场景、真实问题一点点精细化不做花架子不做无用功不盲目跟风只做真正能提升效率、保障稳定的事情。关注我持续更新《人生底稿》成长史 《技术底稿》实战干货一起踏实成长不焦虑、不内卷。 系列导航【人生底稿 01】农村少年1995–2005【技术底稿】0137岁老码农用4台机器搭了套个人DevOps平台