智能运维

面向智算集群、云平台、容器集群、边缘节点和 AI 作业的全栈可观测与智能运维平台

统一观测资源、作业、日志和告警,以智能诊断降低运维复杂度

平台亮点

兼顾技术先进性、资源效率、部署灵活性、运维可控性与安全可靠性

智能运维平台亮点

核心功能

智能运维 的主要能力模块

全栈资源观测

统一监控物理机、虚拟机、容器集群与边缘节点

覆盖 CPU、GPU、显存、内存、存储、网络等资源指标

实时掌握功耗、温度与资源运行状态

硬件级深度感知

深入观测 CPU 火焰图、PCIe/NVLink 带宽等硬件指标

支持 SM Active、显存碎片、磁盘 S.M.A.R.T. 等细粒度分析

精准识别底层硬件异常与性能瓶颈

AI 作业观测

深度剖析训练与推理作业运行过程

覆盖 Loss、学习率、MFU/HFU、GPU 饥饿率等训练指标

支持 QPS、TTFT、KV Cache、动态 Batch 等推理指标观测

故障诊断与日志分析

支持多阈值告警规则与邮件、短信通知

提供告警趋势分析、根因关联与影响范围评估

采集运行日志、任务日志、设备日志与操作日志,支撑定位追溯

度量模型与开放接口

建设设备、应用、故障等统一度量模型

沉淀标准化指标体系,支撑平台能力复用

支持 RESTful API 与 MCP 封装接口,便于上层系统集成调用

运维智能体

基于大模型能力辅助故障诊断与运维处置

集成 RAG 检索、专家经验库与工具调用能力

结合安全围栏与人工审查,构建受控运维闭环

关键指标

以可量化指标呈现产品在资源效率、交付效率和稳定运行方面的价值

不少于90天监控数据持久化
≤30s告警响应