近日,有幸參觀了中國移動智算中心(哈爾濱)。該中心是全球運營商最大單集群智算中心,AI芯片國產化率100%,首次通過國產網絡設備探索1.8萬張智算卡單集群部署規模上限,可提供6.9EFLOPS(每秒690億億次半精度浮點運算)智能算力,融合分級存儲達 150P,創新應用GSE1.0,天池SDN等多項中國移動自主研發技術。

中國移動智算中心(哈爾濱)曾用名#哈爾濱數據中心,中國移動移動的三大低成本數據中心(另外兩個在內蒙古和貴州)。

哈爾濱數據中心抓住全球大模型高速增長商機,在當地政府、集團公司及供應鏈伙伴的支持下,基于“D-PDCA雙循環”管理機制,歷時兩個100天,完成3千多平米高功耗機房重大調整改造,千萬級精密器件復雜施工;在30多個單位,千余人的協同作戰下,提前4個月,建成全球運營商最大單集群智算中心,充分展現了龍江速度。

第一個“一個100天”,完成機房的電源、空調、電氣、建筑結構的擴容及智能化改造。業內首次挑戰46KW高功耗風冷,創新引入大型集裝箱式“10KV中壓直供設備”新型供電模式,通過規、建、監、施協同作戰,優化創新方案、專業強化管理等措施,實現430可裝機,530全加電,620優交付,工期壓縮40%。
第二個“一個100天”,實現智算集群全量設備點亮。面對大規模集群施工在技術領先性、首創性和復雜性的交付挑戰,通過“早啟動、定標準、造工具、融工序、勇創新、強投入”六大舉措,筑牢集群質量,實現610可調測,730全點亮,830全交付,提前4個月投產。
中國移動智算中心(哈爾濱)支持萬卡并行訓練,智能斷點續訓,AI任務生命周期管理,分鐘級故障定界、定位。目前,中國移動九天千億參數模型已在集群上實現高效、長期穩定訓練。

中國移動智算中心(哈爾濱)通過科學管理、精細化設計和高工藝實施,完成集群穩定性、算力效率、海量數據和高可用性挑戰,打造具備極致算力、極限組網、極效存儲、極速運維的智算“超級工廠”,釋放算力集群優勢,為萬億模型訓練提供強大的算力底座。

極致算力,AI芯片國產化率100%,首次通過國產網絡設備探索1.8萬張智算卡單集群部署規模上限,算力達到 6.9EFLOPS(每秒 690 億億次半精度浮點運算),通過單一集群強大算力有效支撐大型AI模型訓練,并通過網絡精細化設計、軟硬件全棧整合優化,實現集群算力效率的近線性提升,確保萬卡集群最大化釋放算力,滿足萬億參數大模型訓練要求。
極限組網,采用國產46KW 風冷網絡設備、構建最大規模兩級組網。高性能、高功耗國產網絡設備首次端口滿負荷配置,達到網絡設備能力上限,采用高速、低延時、無阻塞兩級組網,保證數據的高效通信。創新應用中國移動自研的天池SDN,提供網絡功能自服務能力;創新引入中國移動自主知識產權、首個非美標智算組網GSE技術。

極效存儲,面對萬億模型PB級訓練數據集的多協議處理,采用大規模融合分級存儲,通過訓練數據智能分級和統一管理,實現數據高效共享和處理,滿足大模型訓練時海量、多樣數據的高效處理和高吞吐要求。
極速運維,建立SLA標準服務支撐體系,提供矩陣式維護服務;部署一體化智能管控工具,對AI訓練任務進行全生命周期管理,實現小時級智能斷點續訓、分鐘級故障定界定位;建立Class8級機房環境標準,降低千萬精密器件故障率。通過制度、技術和標準三大措施,保障萬張AI加速卡長時間穩定并行訓練,為萬億模型訓練提供高性能、高可用、高可靠的算力底座。

“該集群高效靈活的智算云服務能力,將為萬億級大模型提供高效、穩定、安全可控的算力底座,推動國內人工智能產業健康發展!敝袊苿雍邶埥菊笫聵I部經理郅剛說。