超万卡集群让算力迈上新台阶

光山新闻网 采集侠 2024-10-18 07:14:01
浏览

超万卡集群让算力迈上新台阶

 

  中国移动智算中心(哈尔滨)万卡智算集群俯瞰图。
  采访对象供图

 

超万卡集群让算力迈上新台阶

 

  工作人员在中国移动智算中心(哈尔滨)机房进行设备维护。
  采访对象供图

 

  位于黑龙江省哈尔滨市哈南工业新区的中国移动哈尔滨数据中心内,机房整齐排列,万余台服务器指示灯闪烁不停,精密运转……数据中心总占地面积达86万平方米,从高空俯瞰,这里犹如一块镶嵌在黑土地上的“集成电路”。

  日前,由中国移动通信集团黑龙江有限公司建设的全球运营商最大单集群智算中心——中国移动智算中心(哈尔滨)节点超万卡智算集群建成并正式投用,这标志着哈尔滨跻身国内人工智能研发一线城市,“算力”辐射范围进一步扩大。

  “高效灵活的智算云服务能力,将为万亿级大模型训练提供高效、稳定、安全可控的算力底座,推动国内人工智能产业健康发展。”中国移动黑龙江公司董事长刘刚表示,该智算中心的建设将对拉动新一轮经济增长、引领产业AI转型升级发挥重要作用。

  夯实智算基础

  智算中心作为人工智能、大数据和物联网等前沿技术的载体,是推动数字经济高质量发展的重要基础设施。

  近年来,黑龙江省高度重视人工智能产业建设,将发展数字经济作为换道超车产业“新引擎”,先后出台多项政策支持智算中心建设并提供优质服务。同时,构建了“平台+大小模型算法+应用引擎”的政务“AI+”基座,为省、市、县政务应用提供丰富算法与智能引擎,助力政务服务跑出“加速度”。

  中国移动黑龙江公司打造基于国产生态体系的运营商单集群规模最大超万卡智算集群,在哈尔滨智算中心共计部署1.8万张AI加速卡。截至目前,该集群具有单集群算力规模最大,国产化网络设备组网规模最大,国内智能融合分级存储规模最大等特点,可实现集群故障的分钟级定界定位,提供算力6.9EFLOPS(每秒690亿亿次半精度浮点运算)。

  “6.9EFLOPS智能算力相当于300多万台高性能计算机,通过人工智能算力‘超级工厂’,释放算力集群优势,为人工智能万亿模型训练提供坚实的算力基础。”中国移动黑龙江公司计划建设部项目经理闫文说。

  用了“两个100天”、30多个单位、千余人协同作战……从项目开工到建设完成,该智算中心节点克服技术新、工期紧、任务重、挑战多等多重困难,完成3千多平方米高功耗机房重大调整改造、千万级精密器件复杂施工,提前4个月建成全球运营商最大单集群智算中心。

  据业界专家介绍,此前,智算规模大多在一万卡以下,对于千亿或者万亿模型训练来说,仍会在一定程度上受限于底层的算力资源。中国移动智算中心(哈尔滨)1.8万卡集群的建成和投入,将更有利于模型团队充分利用底层资源,通过设施并行度更高的训练策略,加快模型训练的进度。

  汇聚创新合力

  硬件打基础,布局上台阶。作为公共算力新型基础设施,智算中心扮演的不仅是算力生产者和提供者的角色,也是发展数字经济的底座。为此,黑龙江不断强化新型信息基础设施建设布局。

  中国移动黑龙江公司汇聚技术创新,按照“算网协同融合、算力立体多样、网络泛在智联、基础设施匹配”的建设思路,全面推进黑龙江算力网络资源布局:以算力基础设施为重点,建设哈尔滨国家互联网骨干直联点,网间互访时延降幅达70%;提升光网络覆盖能力,构建135毫秒时延圈网络,实现异地同城体验。