华为iMaster CCAE 运维大模型为AI集群保驾护航
AI模型参数规模持续膨胀,训练集群的运维复杂度急剧上升。新业务上线往往伴随新的故障类型,而人工排查经验积累速度远慢于故障更迭速度,定位耗时久、恢复慢,成为制约算力释放的关键瓶颈。
华为iMaster CCAE搭载xAnalyzer运维大模型,首次具备自我学习与在线诊断能力,覆盖计算、网络、存储及光传输等多领域,构建动态进化的故障知识库,全球故障案例实时同步,让新故障也能快速匹配历史经验。
该能力已在多个现网项目得到验证。以偶发训练中断为例,CCAE仅需5分钟即可精准锁定根因,诊断准确率达85%,显著缩短故障恢复时间,让运维从被动响应走向主动预防,真正释放AI集群的持续生产力。 http://t.cn/AXam6Tb5
发布于 广东
