点击右上角微信好友
朋友圈
请使用浏览器分享功能进行分享
随着人工智能和多模态大模型的迅猛发展,算力需求日益激增。截至今年6月底,中国移动已在京津冀、长三角、粤港澳大湾区、内蒙古等投产首批13个智算中心节点,智能算力规模快速增长、达到19.6 EFLOPS(2024年上半年新增智能算力9.5EFLOPS),智能算力再总算力占比超70%。其中,中国移动智算中心(呼和浩特)节点,智能算力规模高达6.7EFLOPS(每秒670亿亿次浮点运算),国产化算力占比超85%,是全球运营商最大单体智算中心。
该智算中心于今年6月28日全部集群上线。作为公共算力新型基础设施,智算中心扮演的不仅是算力生产者和提供者的角色,也是数字经济发展的核心“底座”。为何该智算中心布局在“西部草原”?它可以解决哪些痛点、难题?近日,记者前往呼和浩特进行了探访。
焦点一:在“西部草原”布局有何优势
想起内蒙古以及呼和浩特,可能第一反应是广袤的大草原。我们很难想象,这里也是国际公认的大数据产业黄金纬度区。这座全球运营商最大单体智算中心在这里“落户”,有哪些优势?
在政策方面,《国务院关于推动内蒙古高质量发展奋力书写中国式现代化新篇章的意见》提出,加快推进全国一体化算力网络内蒙古枢纽节点建设,支持和林格尔数据中心集群“东数西算”项目建设。
呼和浩特也出台了《支持绿色算力及人工智能产业发展的若干政策》,从项目投资、电力保障、算力补贴、人才引育等方面给予全方位的政策支持。该智算中心所在的和林格尔新区,正是“东数西算”10个国家数据中心集群之一,已被纳入国家发展战略规划布局。
此外,呼和浩特还有可靠的能源基础,电力供应充足,发电量位居全国第一,绿电占比位居全国前列;同时,内蒙古电价低廉稳定,依托相对独立的蒙西电网,实施电力多边交易,数据中心平均用电价格稳定在每度电0.32元左右。
随着“东数西算”工程“京数蒙算”合作、“东数西算”工程“和—京—芜—贵”算力一体化协同合作、内蒙古数据交易中心运营、和林格尔数据中心集群多云算力资源监测与调动平台启动,呼和浩特已深度融入国家一体化算力体系建设和国家算力产业大格局建设。
我们了解到,国家气象局、中科院等国家机关、中国移动为代表的运营商,中国银行等金融机构,以及一大批行业龙头企业,都选择在呼和浩特布局算力中心和智算中心。这里的服务器装机能力超过150万台,算力总规模达到2.3万P,其中智能算力达到2.1万P,在全国算力指数20强城市中位居第15位。
焦点二:如何实现“绿色节能”
今年7月,国家发改委《数据中心绿色低碳发展专项行动计划》中提到,2025年底,全国数据中心平均电能利用效率(PUE)降至1.5以下。
中国移动呼和浩特数据中心副总经理李程贵介绍,智算中心从制冷、绿电、能耗管理三个方面,全系统打造节能创新体系,在保障智算中心安全稳定可靠运行的基础上,实现绿色节能,PUE全面压降到1.15。
在制冷方面,智算中心首次大规模引入前沿的冷板式液冷方案,并配套闭式冷却塔、小母线等新型节能技术。数据中心园区内95%以上设备采用了新型空调末端,能够实现机柜级就近制冷,缩短了空调送风距离,解决了传统数据中心中常见的局部过热问题,显著提升了整体制冷效率和能效比。当冬季到来,园区还充分利用余热回收技术,变“废热”为“优能”,满足冬季采暖需求,降低冷却水系统能耗。
在绿电使用方面,结合政策指引、内部偏差率控制、准确掌握电力市场动态及时交易和调整等举措,最大程度提高绿电使用比例。据统计,2023年智算中心使用绿电5.25亿度,绿电比例从2019年的41%提升至2023年的55%。据介绍,当前智算中心的绿电使用比例更是已达到80%。
在能耗管理方面,智算中心构建了一套计量规范、准确度高、分析精准的能耗管理平台,从“监”“管”“控”三个层面实现数智化管控。
焦点三:攻克了哪些痛点、难题
数据显示,智算中心在今年6月底全面上线,智能算力规模高达6.7EFLOPS,也就是每秒670亿亿次浮点运算,其中,国产化算力占比超85%。
“中心启用填补了我国人工智能广泛应用所需算力的巨大缺口,可以快速赋能千行百业的大模型训练。”中国移动呼和浩特数据中心监控值机孟繁跃表示,现在数字政府的建设,以及交通、医疗等各行各业大模型建设,都需要算力支撑,这里可以支撑千亿、万亿参数训练,对于后期产业的升级赋能有非常大帮助。
事实上,作为国内首个超万卡国产液冷智算集群,智算中心在初期建设运维中,也面临着GPU卡故障频发、网络链路不稳、软件系统缺陷等挑战。
中国移动云能力中心智算专家李道通深有感触,智算中心在制冷、供电等方面对于基础设施要求,是原有IDC普通数据中心的10倍甚至更高。设备上线后,普通服务器GPU利用率可能在40%甚至更低,而这里的GPU负载利用率则可能到80%甚至更高。“在如此高负载场景下,设备出故障的概率非常高”。
对此,中心不仅打造了一套自动交付工具、研发了一个智能管控平台,还组建了一个专业集成调优团队。据了解,该团队专注于数据治理、模型跨平台迁移、训练效率优化及推理加速等关键环节,提供从模型设计到部署应用的全栈调优服务,实现大模型在不同AI芯片生态间的无缝衔接与最优性能表现。
“智算中心部署了约2万张AI加速卡,智能算力规模高达6.7EFLOPS……在这里,可以让大模型训练更加高效。”孟繁跃说。
此外,针对“多租户模型高效训练问题”,中国移动首创容器的弹性资源管理KOSMOS架构,实现租户间安全隔离,确保了多租户环境下的数据隐私与操作独立性,并融合交换机亲和性的任务调度机制,提升AI任务的启动速度,确保AI任务内节点间的通信链路最优。
针对“模型跨平台迁移问题”,中国移动正致力于深度整合硬件平台与AI软件栈,全面推动大模型训推框架、算子、三方库等关键技术在国产化异构算力上的迁移适配。当前,已完成16个系列32款模型的训练、微调、推理适配,形成一整套模型迁移工具,可实现不同硬件平台模型训练权重的迁移与接续训练。(李政葳)