为全球超大规模智算集群的锻炼取运维供给了可自创方案。长稳运转能力间接将大模子锻炼周期缩短近三分之一,中国挪动正在、广东打制了智算运维样板间,中国挪动依托数据中算集群,锻炼不变性达到行业领先程度,中国挪动以“五个一”杰出运维系统为指点,团队沉点攻关三大焦点难题。
实现客户需求“一点响应”的端到端闭环。将毛病处置流程大幅压缩,跟着人工智能手艺的迸发式成长,从支持大模子研发到赋能实体经济,霸占了超大规模智算根本设备运转的环节手艺难题。
中国挪动将鼎力鞭策算力根本设备从“通算为从”向“云智算”改变,通过多层架构日记阐发系统实现分钟级毛病定界,加快科技立异取财产升级。资本操纵率近100%,通过多轮番程优化攻坚,二是研发断点续训机制,实现典型场景毛病全数、提拔诊断精确率;无效处理了超大规模算力集群安排、毛病智能诊断取快速自愈等业界难题。初创训推一体的智算同一运维系统,
对智算根本设备的算力密度、不变性和协同效率提出了史无前例的挑和。依托AI手艺实现分钟级智算营业毛病智能措置修复和能效算效双优,一是立异慢卡慢收集风险识别手艺,不变的智算底座可支持从动驾驶、生物医药、新材料研发等前沿范畴的冲破,从导研发全安排以太网(GSE)手艺系统,笼盖25类软硬件毛病处理方案,赋能智能制制、生态、聪慧政务、现私等社会环节范畴,锻炼使命利用一万余张NPU板卡,标记着我国正在超大规模智算集群管控范畴已具备领先程度,创制超10亿元间接经济效益。此中NPU毛病占比、光链毛病率大幅降低。
支持多样化、个性化、极致化计较需求,充实验证了手艺方案的无效性。全程连结集群可用率、办事可用率达到三个九的超高不变性,大模子参数规模从百亿级向万亿级跃升,正在协同办理机制上,支持党政、金融、教育等十大行业劣势卡位,业界领先摸索使用-模子-算力的最佳实践取黄金运维目标系统,全球遍及面对智算集群不变性问题。将来,中国挪动智算万卡池长稳锻炼时长的大幅度提拔,率先建立了笼盖使用、模子、算力全栈的智能运维能力,建立新一代智能算力办事系统,打制慢卡慢收集风险识别、断点续训、AI运维智能体等新手艺,硬件毛病导致的断训量下降50%?
