11 月 6 日,在百度智能云技巧沙龙时期,百度超过系统架构师、百度智能云 AI 筹算部认真东说念主王雁鹏示意,环球科技巨头正在积极打造 10 万卡集群,冲刺 AGI;而国内构建 10 万卡集群则濒临着三浩劫题:跨地域部署、多芯混训以及集群贯通性。这些难题包括技巧和工程上的多重挑战。王雁鹏先容,历程多年的技巧积存和产业实践,百舸 4.0 已或者收场 10 万卡集群的高效不断,并通过 HPN 高性能收集、自动化混训切分计谋、自研集聚通讯库等一系列居品技巧翻新,搞定了上述难题。
为什么需要 10 万卡集群?
大模子竞赛本体是算力竞赛
自 OpenAI 发布 Chatgpt 两年来,大模子产业发展的脚步似乎慢了。关联词大洋此岸,xAI、Meta、OpenAI 等开阔科技巨头齐在积极布局 10 万卡乃至更大范畴的智算集群。
当地时分 7 月 22 日,马斯克通告位于好意思国田纳西州孟菲斯市的孟菲斯超等集群运行干预检察。该集群配备了 10 万个英伟达 H100 GPU,被称为“寰宇上最苍劲的 AI 检察集群”。两个月后,马斯克在 X 平台上通告该集群名为“Colossus(巨东说念主)”,将在将来几个月内再加多 10 万颗 GPU,其中 5 万颗将是更为先进的英伟达 H200。Grok 3 大模子正在超算中心中进行检察,检察瞻望在三到四个月内完成,想法是在本年 12 月发布 Grok 3。
另一家科技巨头 Meta 也不示弱。Meta 首席推行官马克 扎克伯格在第三季度财报电话会议上自满,Llama 4 模子正在一个由 10 万片 H100 GPU 构成的集群上进行检察,并瞻望在来岁头次推出。为了补助大模子,Meta 瞻望本年度本钱支拨将高达 400 亿好意思元,比前年加多了逾越 42%。扎克伯格在财报电话会议中强调,来岁将进一步加大对 AI 基础圭表的投资。
而大模子领头羊 OpenAI 与微软的“黄金搭档”却因为筹算集群的委用程度产生了不合。此前微软与 OpenAI 配合共建一个代号为“星际之门”的巨型数据中心技俩。这个技俩瞻望成本逾越 1150 亿好意思元,旨在容纳一台面向 AI 的配备数百万块 GPU 的超等筹算机。据报说念,微软权术到来岁年底向 OpenAI 提供约 30 万个英伟达最新的 GB200 图形处理器。关联词面对紧追不舍的敌手,阿尔特(300825)曼似乎对微软的速率不现象。完成 66 亿好意思元融资后,OpenAI 运行寻求愈加沉寂的数据中心和云职业格式并与甲骨文达成了契约,将在德克萨斯州的一个新数据中心租用职业器。该数据中心被誉为寰宇上最大的数据中心之一,将来可能容纳数十万个英伟达 AI 芯片。
王雁鹏示意,从好意思国科技企业的荒诞布局 10 万卡不错看得出,Scaling Law 定律当今看仍然有用。公开数据自满,GPT-3 的检察数据集包含 3000 亿个 token。而 GPT-4 的检察数据集包含约 13 万亿个 token。模子的捏续升级,意味着数据量的指数级增长。而检察数据量的升级对筹算集群也惨酷了挑战。10 万卡的检察集群恰是为了满足模子参数增长所带来的高算力需求。
10 万卡集群难在哪?
跨地域部署、多芯混训、集群贯通性是最大挑战
10 万卡虽好,但部署如斯大范畴的算力集群会濒临很大挑战。
举例,好意思国老旧的电网就无法跟上大模子的步骤。由于集群耗电量纷乱,好意思国的众大齐据中心齐遭受了电网崩溃。一位微软工程师曾示意,为 GPT-6 搭建 10 万个 H100 检察集群时,通盘这个词电网发生了崩溃。据估算,一个 10 万卡集群每天的耗电量达到 300 万度,相称于北京市东城区一天的住户用电量。此外,10 万卡集群需要梗概 10 万往日米,相称于 14 个圭臬足球场的面积。如若念念在单一修复中部署这样大的集群,将濒临选址可贵和程序限度等挑战。
出于上述原因,好意思国科技公司的超大集群大多取舍跨地域部署。为了胁制单一数据中心的范畴限度,谷歌和微软已入辖下手将大范畴模子检察扩张至多个数据中心园区。其中,谷歌的 Gemini 1 Ultra 模子已领先收场大齐据中心检察。微软权术将其在凤凰城的 AI 检察基地扩张至 10 座修复,自建 24 个数据中心,在多个超大范畴园区互联,实施掩饰全好意思的大范畴散播式检察。
王雁鹏先容,由于电网配电限度、占地空间大等原因,十万卡集群需要跨楼、跨园区,致使跨城部署。而这种跨地域部署例必会加多收集通讯的复杂性。跨地域通讯需要搞定长距离通讯蔓延、拥塞限度等技巧问题。
国内企业构建 10 万卡集群还濒临着一个施行的可贵:芯片。国内企业濒临算力供应不贯通的挑战,较难构建单一大范畴检察集群。施行情况是,企业里面会出现团结厂商不同代际芯片,或者不同厂商芯片共存的情况。这些芯片何如进行混部检察,同期保证混部检察的后果亦然难题。
此外,跟着芯片集成度的络续提高,芯片的故障率也会相应飞腾,英伟达 H 系列芯片的故障率比 A 系列高 3-4 倍。何况算力集群范畴越大,其故障率就越高。按照 H 系列芯片的故障率水平,十万卡集群每 20 分钟就会出现故障。较高的故障率对贯通性检察保险惨酷了更高的条目。
何如破局?
何如搞定跨地域部署、多芯混训、集群贯通性是国内 10 万卡部署的三浩劫题?王雁鹏先容,以百度为代表的厂商正在破解这些难题。
在跨地域方面,针对由于传输距离变长所产生的高蔓延,百舸 4.0 还是构建了十万卡级别的超大范畴 HPN 高性能收集,通过提供更高效的拓扑结构、更优的多旅途负载平衡计谋及通讯计谋,或者收场几十公里的跨地域通讯。同期,在通讯后果上,通过优化的拥塞限度算法、集聚通讯算法计谋,将带宽有后果普及至 95%,收场了透顶无结巴。临了,通过 10ms 级别超高精度收集监控,保险了收集贯通性。
在多芯混训方面,百舸或者将不同地方、不同范畴的异构算力进行和解不断,构建起多芯资源池。当业务提交使命负载时,可自动进行芯片选型,依据集群剩余的芯片资源,取舍性价比最高的芯片来运行任务,从而最大化地运用集群的剩余资源。最终,可收场高达 95% 的万卡多芯搀和检察效率。
在集群贯通性方面,百舸提供全面的故障会诊技能,不错快速自动侦测到导致检察任务极度的节点故障。同期,百度自研的 BCCL(百度集聚通讯库),或者快速定位故障同期提供自动化的容错智商,再行支援任务到健康节点,连续完成检察,当今还是将故障复原时分从小时级裁汰到分钟级。
王雁鹏示意,公有云是企业进行大模子检察的主流格式。在 10 万卡集群出现之前,为满足企业大模子的检察需求,云厂商常常接收职业一个企业,搭建一个集群的格式。关联词,这种格式存在彰着弱势,即每个集群齐是为特定企业职业,在企业的检察任务不处于岑岭期时,集群中的筹算资源可能会处于闲置状况,形成资源的滥用。而当 10 万卡集群出现后,云厂商就不错依靠这个大型集群为开阔企业提供职业,字据不同企业的需求动态分拨筹算资源,这样不仅提高了资源运用率,也裁汰了企业使用云职业的成本,极地面增强了云厂商在阛阓中的竞争上风。
“通过跨地域部署、多芯混训等技巧开云kaiyun官方网站,云厂商不错有用裁汰运营及算力成本,从而为企业客户带来愈加实惠的云职业。”王雁鹏说。