智能运维
面向智算集群、云平台、容器集群、边缘节点和 AI 作业的全栈可观测与智能运维平台
统一观测资源、作业、日志和告警,以智能诊断降低运维复杂度
平台亮点
兼顾技术先进性、资源效率、部署灵活性、运维可控性与安全可靠性
核心功能
智能运维 的主要能力模块
全栈资源观测
统一监控物理机、虚拟机、容器集群与边缘节点
覆盖 CPU、GPU、显存、内存、存储、网络等资源指标
实时掌握功耗、温度与资源运行状态
硬件级深度感知
深入观测 CPU 火焰图、PCIe/NVLink 带宽等硬件指标
支持 SM Active、显存碎片、磁盘 S.M.A.R.T. 等细粒度分析
精准识别底层硬件异常与性能瓶颈
AI 作业观测
深度剖析训练与推理作业运行过程
覆盖 Loss、学习率、MFU/HFU、GPU 饥饿率等训练指标
支持 QPS、TTFT、KV Cache、动态 Batch 等推理指标观测
故障诊断与日志分析
支持多阈值告警规则与邮件、短信通知
提供告警趋势分析、根因关联与影响范围评估
采集运行日志、任务日志、设备日志与操作日志,支撑定位追溯
度量模型与开放接口
建设设备、应用、故障等统一度量模型
沉淀标准化指标体系,支撑平台能力复用
支持 RESTful API 与 MCP 封装接口,便于上层系统集成调用
运维智能体
基于大模型能力辅助故障诊断与运维处置
集成 RAG 检索、专家经验库与工具调用能力
结合安全围栏与人工审查,构建受控运维闭环
关键指标
以可量化指标呈现产品在资源效率、交付效率和稳定运行方面的价值






