AI

英伟达和OpenAI要部署的“10GW”数据中心到底是多大?

发布于 2025-09-27 09:35:28

今天如果你没有看到“OpenAI and NVIDIA Announce Strategic Partnership to Deploy 10 Gigawatts of NVIDIA Systems”这条新闻的话,说明你out啦。开个玩笑。
那么: 10 Gigawatts 到底是什么?电量单位?还是算力单位还是功率单位?谷歌翻译直接翻译成了 10 千兆瓦,Chatgpt 则翻译为 10GW(吉瓦)。另外,为什么OpenAI 和英伟达合作部署数据中心,会用10 Gigawatts来描述其规模?数字“单位”的变化,是否背后是行业竞争范式的变化?

查看更多

关注者
4
被浏览
86
3 个回答
北美人工智能
北美人工智能 认证专家 2025-09-27
这家伙很懒,什么也没写!

为了搞明白第一个疑惑,分别借助尚在限次免费的gpt5和自己订阅的gemini 2.5 pro作为工具开始了研究。首先对于10 Gigawatts的解读,两个工具给的解释一致,“吉瓦”(Gigawatt)是一个功率单位,用来衡量电能产生或消耗的速率。

瓦 (W, Watt):功率单位吉 (G, Giga):国际单位制词头,代表“十亿”所以,1 吉瓦 (GW) = 10亿 瓦, 10吉瓦 (10 GW) 就等于 100亿瓦!!
一个功率是100亿瓦的数据中心!简直无法想象。
GPT5很贴心的给出了这个功率数字的具象化描述。如果一个数据中心群持续以 10 GW 运转:年耗电量 ≈ 876 亿度电(kWh)相当于约 2190 万个家庭 一年的用电量(按每户每年 4000 kWh 计算)。
换句话说,这个规模的数据中心几乎相当于一个 中等发达国家的居民用电需求。
至此我的第一个疑惑解决了。紧接着第二个疑惑,为什么GW 描述算力?AI无法给我解答,但通过上面关于GW的解读,我们已经很清楚地看到电力基建已经成为继GPU之后新的核心瓶颈。

通过gpt5和gemini的科普,让我对OpenAI和英伟达的强强联合有点后怕,竟然把AI的门槛提高到这个地步了嘛。Altman一贯很drama,但也很能折腾。年初才和甲骨文与软银宣布在美国搞Stargate,这又和英伟达搞数据中心。左手算力右手数据,年中OpenAI放弃盈利转型,转为公益责任公司(PBC),彻底走上了“AI造福人类”之路。
OpenAI的每一步,似乎都在将自己推上神坛。
最后一个问题,10 GW大约对应多少张 NVIDIA GPU?GPT5给出了明确的计算过程,注意下面的推理过程来自全部来自AI(GPT5),请谨慎观看。
结论先看要点
在合理假设下,10 GW 电力规模 大致对应(理论峰值、非常粗略):
GPU 数量(范围):约 4.8 百万 — 16.7 百万 张 H100 级别 GPU(取决于 GPU 型号/功耗与场内配比假设)。参考值:H100 SXM 变体 TDP 可达 700 W,PCIe 版约 350 W。(NVIDIA)
按 8 卡/节点(例如 DGX/HGX)计:约 59.5 万 — 104 万 台 8-GPU 节点。
理论峰值 (FP8 tensor peak) 算力量级:在上述 GPU 数量与 H100 官方峰值(FP8 ≈ 3,958 TFLOPS,即每卡 ≈ 3.958 petaFLOPS(峰值,FP8))下,总峰值可以达到 数万到数十万 exaFLOPS(理论峰值)(注意这是峰值/理论的 FP8 吞吐量,不是实际训练可持续吞吐)。(Colfax International)

关键点:上面这些都是理论上的“峰值吞吐”或基于电力分配的推断,实际可用于模型训练/推理的算力会低很多(受 PUE、服务器/网络/存储占比、互联延迟、软件效率、实际运算精度限制等多重因素影响)。

我用了哪些合理假设(请务必注意这些会显著影响结果)
1 PUE(数据中心总体效率):默认取 1.2(行业优秀值)。也给出更保守的 1.5 结果作为下限情景。
2 10 GW 表示的是“场外电力能力”(新闻措辞中通常是设施级电力),我们把它作为总输入电力(facility power)。
3 IT(服务器)占总电力比例 = 总电力 / PUE 得到 IT 侧可用功率;再假设 GPU 在 IT 侧耗电占比为 70%(保守情景取 50%)(因为服务器还有 CPU、存储、交换机等)。
4 单卡功耗:以 NVIDIA H100 为参考:SXM 版上限 ≈700 W(高性能数据中心常用),PCIe 版典型 ≈300–350 W。不同卡/代会差别很大。(NVIDIA)
5 每卡峰值吞吐:使用公开 datasheet 给出的 FP8 / FP16 峰值(例如 H100 的 FP8/FP16 极限数)。这类数字是 理论 tensor-core 峰值,真实训练/推理中的可持续吞吐通常远低于这一峰值。(Colfax International)

具体计算(示例,便于复核)
示例用的主场景假设:PUE = 1.2,GPU 占 IT 功耗 70%,H100 SXM TDP = 700 W,H100 FP8 峰值 = 3,958 TFLOPS)
1 总输入电力 = 10 GW = 10,000,000,000 W。
2 IT 可用功率 = 10 GW / PUE = 8.333... GW。
3 假设 GPU 使用占 70% → GPU 专用功率 ≈ 5.833 GW。
4 如果每卡 700 W → GPU 数 ≈ 5.833e9 W / 700 W ≈ 8.33 百万 张。(如果用 350 W/卡,则 ≈ 16.7 百万 张。)
5 峰值算力(FP8,理论):每卡 ≈ 3,958 TFLOPS ≈ 3.958 petaFLOPS;8.33M 卡 × 3.958 PF ≈ 3.298×10^4 exaFLOPS(理论峰值)。
(我也做了更保守情形:PUE=1.5、GPU 占 50%,对应 GPU 数 ≈ 4.76M(700W)—9.52M(350W),理论峰值也相应降低,但仍然极其巨大。)
(上面数字在技术上是可计算的数学乘法,但请记住这是理论极限/峰值的乘法结果,不代表可持续训练吞吐或对外“服务能力”)。
(我在计算中参考了 NVIDIA 官方与多家硬件/第三方资料对 H100 的 TDP 与 Tensor 峰值描述。) (NVIDIA)

为什么“理论峰值”与“实际可用算力”差别会很大(必须强调)
精度不同:FP8/INT8 的峰值远高于 FP16/FP32,训练时并非所有工作都能用最高精度或能持续达到峰值。(Advanced Clustering Technologies)
软件与通信开销:分布式训练需要大量通信(AllReduce、参数同步),网络/互联的带宽与延迟会成为瓶颈。
内存/带宽限制:模型大小、显存、HBM 带宽会限制并行度与利用率。
热与功耗节流:持续满功耗运行不总是可持续或经济(风冷/液冷设计、热限制会影响平均功耗)。
PUE 与基础设施:冷却、配电、冗余等会消耗大量电力,只有一部分电力用于实际 GPU 计算。

因此把 “10 GW” 直译成 “多少张 GPU × 峰值算力” 虽能给出尺量级感知,但不等同于“实际可训练的算力”或“可对外提供的推理吞吐”。

小结

新闻里的 10 GW 更准确地是指 电力/基础设施规模 —— 按当前主流最强 GPU(H100)粗算,可以容纳 数百万到上千万级别 GPU,对应的理论峰值算力巨大(达到极高的 exaFLOPS 级别),但实际训练/推理可用算力会远低于这些理论峰值,受 PUE、卡功耗、互联、软件效率等多项因素限制。

LingTan
LingTan 2025-09-27
h2harbor.com 氢港

英伟达与英特尔官宣:将共同开发AI基础设施和个人计算产品

2025年9月18日,英伟达和英特尔宣布达成合作,将共同开发多代定制化的数据中心和个人计算产品,以加速超大规模计算、企业级及消费级市场的各类应用与工作负载的处理。
在数据中心领域,英特尔将为英伟达定制x86 CPU,由英伟达将其集成至人工智能基础设施平台并投放市场;在个人计算领域,英特尔将生产并向市场供应集成英伟达RTX GPU芯片的x86系统级芯片(SOC)。英伟达将以每股23.28美元的价格向英特尔普通股投资50亿美元,此项投资需符合惯例成交条件,包括获得必要的监管批准。此次合作将NVIDIA的AI和加速计算堆栈与英特尔的CPU和庞大的x86生态系统紧密结合,实现了两大先进平台的融合。双方将携手扩展生态系统,为新计算时代奠定基础。
英伟达创始人兼首席执行官黄仁勋表示:“AI正在推动一场新的工业革命,并重塑计算堆栈的每一层——从芯片到系统再到软件。这场变革的核心是NVIDIA的CUDA架构。此次历史性的合作将NVIDIA的AI和加速计算堆栈与英特尔的CPU和庞大的x86生态紧密结合,实现了两大先进平台的融合。我们将携手扩展生态系统,为新计算时代奠定基础。”
英特尔首席执行官Lip-Bu Tan表示:“英特尔的x86架构是现代计算的基础——我们正在创新我们的整个产品组合,以支持未来的计算需求。英特尔领先的数据中心和客户端计算平台,结合我们的制程技术、制造和先进的封装能力,将补充英伟达在AI和加速计算领域的领导地位,为行业带来新的突破。我们感谢黄仁勋和英伟达团队对我们的信任,并期待未来的合作,为我们的客户创新并发展我们的业务。”。合作的具体内容如下:在数据中心,英特尔将为英伟达定制x86 CPU,这些CPU将被集成到英伟达的AI基础设施中,为数据中心提供更强大的算力支持。在个人电脑领域,英特尔将生产集成了英伟达RTX GPU芯片的x86系统级芯片(SOC),这将为PC带来显著的性能提升,特别是在游戏和图形处理方面。英伟达的RTX GPU芯片以其先进的图形处理能力和AI加速功能而闻名,此次集成将使得个人电脑能够更好地满足对高性能计算和图形处理的需求。
此外,英伟达和英特尔还将利用NVIDIA的NVLink技术实现架构无缝互连。NVLink是一种高速互连技术,允许多个GPU之间或GPU与CPU之间进行快速高效的数据交换,能够有效提升数据中心的性能和效率,满足日益增长的AI和高性能计算需求。此项合作对双方都具有重要的战略意义。对英伟达而言,通过与英特尔的合作,可以进一步扩大其在CPU生态中的影响力,巩固其在AI和加速计算领域的领导地位,同时也为其AI基础设施提供了更加多样化和强大的硬件支持。英伟达能够借助英特尔的x86架构和制造能力,优化其AI计算平台,更好地满足数据中心和企业客户的需求。此外,英伟达对英特尔的50亿美元投资也表明了其对英特尔技术和未来发展的信心,同时也为英特尔提供了重要的资金支持,有助于英特尔在AI转型过程中加速研发和创新

对英特尔来说,与英伟达的合作是其在AI时代重获竞争力的重要一步。近年来,英特尔在与AMD和英伟达等竞争对手的较量中面临诸多挑战,此次合作不仅为其带来了急需的资金,还为其在AI芯片市场提供了强有力的技术支持和战略背书。通过与英伟达的合作,英特尔能够将其先进的CPU技术与英伟达的AI和GPU技术相结合,开发出更具竞争力的产品,从而在数据中心和个人计算市场中占据更有利的地位。同时,这也表明英特尔在AI领域的努力得到了行业领先企业的认可,有助于提升其在投资者和市场中的信心。受此合作消息影响,英特尔的股价在美股盘前短线拉升,涨超30%。从行业角度来看,英伟达和英特尔的合作将对整个半导体行业产生深远的影响。
首先,这种跨领域的合作模式可能会推动行业内的进一步整合和创新,激励其他企业加强合作,共同应对AI时代的挑战。其次,英特尔和英伟达的联合产品可能会重新定义数据中心和个人计算的性能标准,为用户提供一种更高效、更强大的计算解决方案。这将加速AI技术的普及和应用,推动各行业的数字化转型。最后,这一合作也可能加剧市场竞争,促使其他竞争对手如AMD等加快研发和产品推出速度,从而推动整个行业的发展和进步。英伟达和英特尔的合作是一次具有里程碑意义的战略联盟,它不仅将为双方带来显著的商业价值和市场机遇,还将对AI基础设施和个人计算产品的发展产生重大而深远的影响。信息来源:英伟达公众号、英特尔公众号

LingTan
LingTan 2025-09-27
h2harbor.com 氢港

OpenAI和甲骨文推进5000亿美元星际之门项目,德州首个站点正式投运。
9月23日,OpenAI、甲骨文以及为该项目提供资金支持的软银宣布,将在美国德克萨斯州、新墨西哥州、俄亥俄州以及中西部一个未披露地点新增五个“星际之门”项目站点。
这5个新选址连同德克萨斯州阿比林旗舰站点以及与CoreWeave的合作项目,使星际之门项目有望在未来三年投资4000亿,最终达到7GW
据报道,位于德克萨斯州阿比林的旗舰站点已经投入运营。该站点配备了甲骨文的云基础设施和英伟达的芯片机架,是OpenAI庞大算力版图中的第一块实体拼图。
OpenAI首席财务官Sarah Friar表示:德州阿比林园区最终有望扩展至超过1吉瓦的容量,足以为约75万个美国家庭供电。

撰写答案

请登录后再发布答案,点击登录

发布
问题

分享
好友

手机
浏览

扫码手机浏览