马斯克宣布训练世界上最强大的人工智能!万卡集群背后的算力竞赛迅猛升级
本文约1900字
阅读完约3分钟
金融投资报记者薛蕾
当地时间7月22日,马斯克在社交平台X上发文宣布,XAI团队、X团队、英伟达及支持公司于当地时间凌晨4时20分开始在孟菲斯超级集群上进行训练。据他介绍,该集群在单个RDMAfabric上使用10万张液冷H100,号称“世界上最强大的AI训练集群”。马斯克在评论区透露,其目标是“今年12月前训练出世界上最强大的人工智能”。
制图:卿子秀
1
马斯克的目标具有挑战性
据马斯克介绍,这个集群由10万张液冷H100GPU组成,而这些芯片是英伟达去年开始提供的。马斯克还表示,该集群在单个RDMA结构(即远程直接数据存取结构)上运行。这种结构可以在计算节点之间提供更高效、更低延迟的数据传输,而不会给中央处理器(CPU)带来负担。
实际上,马斯克今年5月曾透露这一计划,马斯克宣布训练世界上最强大的人工智能!万卡集群背后的算力竞赛迅猛升级将英伟达H100串联到一台巨型的超级计算机中,并称其为“算力超级工厂”。马斯克旗下特斯拉的汽车工厂也被称之为超级工厂。
值得注意的是,微软正在与OpenAI首席执行官萨姆·阿尔特曼合作开发价值1000亿美元的AI训练超级计算机,代号为Stargate。如果这一项目取得成功,孟菲斯超级集群可能不会长期保持全球最强大的AI训练集群地位。
“马斯克的目标具有一定的挑战性,但并非完全不现实。”科方得智库负责人张新原在接受金融投资报记者采访时表示,如果能够充分利用孟菲斯超级集群的强大计算能力,并采用先进的技术和方法,有可能实现这个目标。这将推动AI研究和应用领域的发展,可能会带来更智能化的应用,如自动驾驶、医疗诊断、机器人等。如果成功,孟菲斯超级集群将成为全球AI行业的一个重要里程碑,可能会引领AI训练和推理的新趋势。
2
国内万卡集群已蔚然成风
金融投资报记者注意到,在国内,字节跳动、阿里巴巴、百度、科大讯飞等也都在积极推动万卡集群的建设。
比如,字节跳动搭建了一个12288张卡的训练集群,研发MegaScale生产系统,用于训练大语言模型;科大讯飞2023年建成了首个支持大模型训练的超万卡集群算力平台“飞星一号”。
7月1日,腾讯宣布其自研星脉高性能计算网络全面升级,升级后的星脉网络2.0搭载全自研的网络设备与AI算力网卡,支持超10万卡大规模组网,网络通信效率比上一代提升60%,大模型训练效率提升20%。
近期,摩尔线程宣布,AI旗舰产品夸娥(KUAE)智算集群解决方案重大升级,从当前的千卡级别扩展至万卡规模,从而具备万P级或者说10E级浮点运算能力,也就是每秒可执行千亿亿次级别的计算。
目光聚焦四川,金融投资报记者注意到,天府智算西南算力中心在训练AI方面卓有成效。
据了解,天府智算西南算力中心为提升算力效率(MFU),与浪潮信息AI团队紧密配合,对算力系统进行专业设计,对集群架构、高速互联、算力调度等全面优化,并结合浪潮信息源大模型的训练优化经验,对分布式训练策略进行针对性优化,通过合理设计张量并行、流水并行和数据并行,精准调整模型结构和训练过程的超参数,最终实现千亿参数规模AI大模型的训练算力效率(MFU)提升至80%,刷新业界AI大模型训练算力效率(MFU)新高。
除了在算力效率(MFU)方面出类拔萃之外,天府智算西南算力中心还在数据中心能效层面进行了大胆创新和突破,以42kW智算风冷算力仓为创新切入点,完美解决数据中心高密部署、高效散热和机房维护改造等一系列挑战。
IDC亚太区半导体研究总监郭俊丽曾公开表示,万卡集群需要考虑三个方面,首先是硬件的高性能、稳定性和扩展性;其次,万卡集群也需要配备高速网络互联设备,确保各计算节点之间的高效通信;第三,需要设计高效的电力供应系统和散热系统,以保证长期稳定运行。
3
券商建议关注国产算力
实际上,马斯克的最新言论对英伟达及特斯拉的股价也有一定拉动作用,截至当地时间7月22日美股收盘,英伟达上涨4.76%,特斯拉上涨5.15%。
近年来,全球算力需求持续快速增长。根据TrendForce集邦咨询数据,2023年人工智能服务器(包含搭载的GPU、FPGA、ASIC等)出货量近120万台,同比增长38.4%,占整体服务器出货量的近9%,预计到2026年将占15%。2022年至2026年人工智能服务器出货量年复合增长率约为22%。
中信证券研报指出,AI产业快速发展,国内云厂商、运营商等持续加大投入,三大运营商合计推出310亿AI服务器集采,而在国内厂商技术进步的背景下,国产算力与网络设备产业链迎来加速发展期。建议重点关注国产交换机及芯片、高速连接器、光模块、AIDC、液冷等产业链机会。
另据华西证券研报,随着国产算力加速推进,智算基础设施建设持续加码,国产算力迎来新的发展机遇。同时运营商资本开支向算力倾斜。华西证券认为,算力网络将是长线投资热点,在全球算力发展过程中,竞争加速和芯片禁运等外部催化下,叠加国内AI大模型与应用的加速普及,国产算力发展成为当前市场的明确方向。在万卡集群加速建设的过程中,政府与运营商持续推动国产化比例提升,包括华为昇腾系列以及以太网适配的国产算力厂商都在持续发力。重点关注国产AI芯片、交换机及交换机芯片、机柜内的高速互联、液冷应用等领域。
编辑|贺梦璐
校检|袁钢
审核|姚彦如
本文为金融投资报jrtzb028(微信号)原创文章,未经授权,禁止转载。如需转载,请联系金妹儿。转载须在正文开头显著位置注明稿件来源及作者名,违者必究。
:028-86968491
互联网新闻信息服务许可证号:51120180008
免责声明:本网站部分内容由用户上传,若侵犯您权益,请联系我们,谢谢!联系QQ:2760375052