点击右上角微信好友
朋友圈
请使用浏览器分享功能进行分享
2024年世界互联网大会乌镇峰会期间,20项世界互联网大会领先科技奖获奖项目在现场发布。其中,由腾讯公司、北京大学、北京科技大学共同申报的关键技术组项目“Angel大规模机器学习平台关键技术与应用”获奖。
在现场发布该项目的腾讯公司副总裁蒋杰介绍,大模型时代,模型参数超过万亿,训练数据超过十万亿,如此庞大的规模,给模型训练和推理带来了通信挑战、效率挑战、规模挑战。为应对这些挑战,腾讯全链路自研了Angel机器学习平台。
腾讯公司副总裁
蒋杰
项目突破万亿级机器学习模型分布式训练和推理、大规模应用部署等关键技术,构建的Angel机器学习平台针对众多核心底层硬件和关键软件技术实现自主研发,助力实体产业升级和数字经济发展。
在通信方面,从网卡到交换机,再到路由协议,腾讯自研的RDMA网络实现了集群高速互联,单节点带宽达到3.2T。在效率方面,自研了训练/推理框架,提出显存+主存的一体化机制,实现多维并行和算子优化,相比开源框架,训练性能提升2.6倍,推理速度提升2.3倍。在规模方面,采用了GPU拓扑感知调度,研发了层次化规约计算,GPU集群加速比从50%提升到99%,实现了单任务万卡的线性扩展。
Angel平台已获得多项行业奖项,并广泛应用在大模型、广告、社交、金融等领域。
世界互联网大会领先科技奖是面向互联网领域的国际性科技奖项,旨在引领科技前沿创新,倡导技术交流合作。奖项分基础研究、关键技术、工程研发三种成果类型进行征集评选。
关键技术是推动行业发展的核心动力。评审委员会关键技术组专家充分考虑成果的先导性、关键性与应用效益显著性,评选出包括“Angel大规模机器学习平台关键技术与应用”在内的9个关键技术组获奖项目。基于这些成果的转化应用,有助于持续推动产业数字化转型升级,为数字技术服务实体经济发展注入源源不断的新动能,促进经济社会高质量发展。
点击视频,了解更多“Angel大规模机器学习平台关键技术与应用”项目现场发布的精彩内容——
视频:雷渺鑫、曾震宇 撰文:李飞 编辑:孔繁鑫、李汶键 策划:李政葳
光明网出品
更多内容欢迎扫码关注“光明网数字化频道”