一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

前言OpenAI 内部快因为 GPU 抢翻天了!总裁直言分配起来 “痛苦又煎熬”,过去一年光算力就花了 70 亿,其中 50 亿都砸在了大模型训练上。就在各团队争得不可开交时,...

前言

OpenAI 内部快因为 GPU 抢翻天了!

总裁直言分配起来 “痛苦又煎熬 ”,过去一年光算力就花了 70 亿 ,其中 50 亿都砸在了大模型训练上 。

就在各团队争得不可开交时 ,微软突然甩出大招,上线了全球首个 4600 多块 GPU 的超算,专门供 OpenAI 使用 。

这台 “算力巨兽 ” 真能解决问题吗?据说以前要数周的训练 ,现在几天就能完成。

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

内部抢破头

说实话,OpenAI 里抢 GPU 的场面 ,比咱们小区大妈抢特价菜还激烈。

Greg 在播客里举过个例子,有回早上刚到公司,研发团队的负责人就堵在办公室门口 ,手里攥着厚厚一叠项目方案,就为了争取下季度的算力配额;

下午应用产品团队又拿着用户增长数据来找,说要是算力不够 ,新功能就没法按时上线 。

他苦笑说,每个团队的点子都特别好,拒绝哪个都心疼 ,可 GPU 就那么多 ,手心手背都是肉,怎么分都难。

为啥大家对 GPU 这么执着?看看数据就知道了。

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

去年 OpenAI 花的 70 亿算力经费里 ,50 亿都用在了大模型研发上,这可不是小数目 —— 平均到每天,光研发这块就得花近 1400 万美元在算力上 。

而推理计算 ,也就是咱们平时用 ChatGPT 这类工具时消耗的算力,才花了 20 亿。要知道,训练一个万亿参数的大模型 ,得处理海量的数据,每一轮迭代都要让 GPU 反复运算,就像工厂批量生产零件一样 ,少一个机器都得拖慢进度。

之前有内部员工透露,有次为了赶一个模型的训练节点,团队连续一周盯着 GPU 状态 ,就怕设备出问题耽误事儿 。

为了让分配更公平 ,OpenAI 特意搭了套三层机制。

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

最顶层是奥特曼和 Fidji Simo 带队的领导班子,他们会根据公司下阶段的重点定方向 —— 比如要是计划加强多模态模型研发 ,就会给研究团队多拨点算力;要是应用产品要推新功能,也会适当倾斜。

中间层是研究团队内部,首席科学家和各个研究负责人会坐在一起开会 ,根据项目的紧急程度和重要性,给下面的小团队分资源 。

最底层是 Kevin Park 带的小团队,一共就几个人 ,却管着全公司 GPU 的 “调度权”—— 哪个项目结束了,他们得第一时间把 GPU 收回来;哪个新项目启动,又得赶紧把设备调过去 ,有时候一天要调整好几次。

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

即便这样 ,还是有人会来 “求情” ,毕竟算力直接关系到项目能不能推进,谁都不想落后。

OpenAI 的首席产品官 Kevin Weil 就说过,每次新的 GPU 一到货 ,不用通知,各团队就主动来问,当天就能把设备装起来用 ,根本留不住 。

微软送猛货

就在 OpenAI 为算力愁得睡不着觉的时候,老搭档微软还真就送来 “及时雨 ” 了 。

今年早些时候,微软其实就推出过 GB200 的虚拟机给 OpenAI 用 ,当时就帮着解决了不少训练难题。

这次纳德拉直接在公开场合官宣,全球第一台专门为 OpenAI 定制的超算正式上线,光里面的 GB300 NVL72 设备就有 4600 多个 ,而且微软已经计划好了,未来要把这超算的 GPU 数量扩展到 10 万块 —— 这规模,想想都觉得震撼。

英伟达作为芯片领域的巨头 ,也忍不住夸这台超算 ,说它简直是 “算力巨兽” 。以前 OpenAI 训练一个万亿参数的大模型,得从头到尾跑好几周,中间还得担心算力不够中断;现在有了这台超算 ,几天时间就能完成训练,效率直接翻了好几倍。

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

这可不是吹的 ,咱们来看看这超算的 “硬件配置” 就知道了 —— 它是按机架来设计的,每个机架里都装着 18 个虚拟机,每个虚拟机又搭配了 72 个 Blackwell Ultra GPU 和 36 个 Grace CPU ,相当于每个机架都有一整套 “超强计算组合 ”。

除此之外,每个机架还配了 37TB 的高速内存,咱们平时家用电脑的硬盘一般是 1TB、2TB ,37TB 就相当于 30 多块普通硬盘叠起来的容量,数据存在里面,调取速度比普通内存快太多了 。

而且微软为了让这超算发挥最大作用 ,几乎把能优化的地方都优化了。

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

先说数据传输,机架内部用了 NVLink 和 NVSwitch 技术,每秒能传输 130TB 的数据 —— 打个比方 ,要是传一部 10GB 的电影,一秒钟能传 13000 多部,根本不会出现数据 “堵车” 的情况。

跨机架传输也不含糊 ,用的是当今最快的 Quantum-X800 InfiniBand 网络,每块 GPU 的带宽能达到 800Gb/s,就算超算扩展到几万个 GPU ,数据在不同机架间传也照样快 。

散热也是个大问题,这么多高性能设备堆在一起,发热量肯定不小。

一年花70亿算电费!OpenAI抢设备愁坏了	,微软一招救场

微软专门设计了 “独立散热器单元”,每个设备都有针对性的散热方案,再配合整个数据中心的冷却系统 ,既能保证设备一直处于稳定的温度 ,又不会像传统散热那样浪费太多水。

这一点也很重要,毕竟大型数据中心的能耗和水资源消耗一直是个难题,微软这次算是考虑得很周全了 。

一年花70亿算电费!OpenAI抢设备愁坏了	,微软一招救场

软件方面更是没落下,微软重新优化了存储 、编排和调度的软件栈。

简单说,就是让软件能 “指挥 ” 硬件高效工作 ,比如在训练大模型时,软件能合理分配每个 GPU 的任务,不让有的设备闲着 ,也不让有的设备超负荷;在处理长上下文对话时,软件能快速调用高速内存里的数据,让 AI 的响应速度更快。

一年花70亿算电费!OpenAI抢设备愁坏了	,微软一招救场

有内部测试说,用这台超算跑多模态模型,生成一张复杂的图片或者理解一篇上万字的文档 ,比以前快了近一半 。

结语

OpenAI 内部抢 GPU 的 “痛苦与煎熬” ,其实就是当下 AI 行业竞争的一个缩影 。

70 亿美元砸在算力上还不够用,4600 多个 GPU 的超算刚上线就计划扩到 10 万块,这些数据都在告诉咱们:算力已经成了 AI 发展的 “硬通货”。

不光是 OpenAI ,Meta 的小扎也说要把 “人均算力 ” 当成核心优势,谷歌在加码 TPU 芯片,亚马逊云服务也在偷偷建自己的 AI 超算 ,整个行业都在算力上 “内卷”。

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

微软这次给 OpenAI 送超算,表面上是帮老搭档解燃眉之急 ,实际上是在 AI 赛道上 “加码下注”—— 谁都知道,能支撑起更强大的大模型,谁就能在未来的 AI 竞争中占得先机 。

对咱们普通用户来说 ,算力提升也不是跟自己没关系,以后用 AI 工具写文章 、做设计、处理工作,响应会更快 ,能做的事儿也会更多。

说到底 ,这场算力争夺战,早就不是单个公司的事儿了,而是整个科技行业的 “军备竞赛 ”。

现在 4600+GPU 的超算已经落地 ,10 万块 GPU 的目标也提上了日程,未来还会有更强大的算力设备出现 。谁能在这场竞赛中笑到最后?答案或许就藏在那些不断增加的 GPU 数量和越来越快的训练速度里。

本文来自作者[神都未醒]投稿,不代表视听号立场,如若转载,请注明出处:https://stddy.com/youxi/202510-52031.html

(2)

文章推荐

  • 山东实时疫情通报(山东疫情实时更新)

    山东疫情五一能结束吗?预计山东疫情结束时间山东疫情在五一假期期间能否结束目前无法确定,预计结束时间也不好判断。原因如下:疫情现状:截止目前,山东仍有高风险地区10个,中风险地区30个,这表明疫情尚未完全得到控制。新增病例:据山东省卫健委通报,近期仍有新增本土确诊病例和无症状感染者,这进一步说明

    2025年06月10日
    104
  • 石家庄疫情几号开始的.石家庄疫情多少号开始的?

    石家庄疫情今年什么时候开始的1、石家庄疫情今年开始的时间是2023年1月。具体来说:疫情发现时间:2023年1月,石家庄市发现了首例新型冠状病毒感染的肺炎确诊病例。疫情传播与应对措施:此后,疫情迅速传播,石家庄市采取了一系列紧急措施,包括加强医疗资源的调配、社区防控以及宣传教育等,以减少疫情的传播

    2025年06月13日
    115
  • 广西新增本土病例12例.广西新增本土病例12例详情?

    广西多少例柳州:根据2022年广西省人民政府网的数据,柳州市报告的艾滋病病例数为9667例。南宁:同样来自2022年广西省人民政府网的数据,南宁市报告的艾滋病病例数为7397例。钦州:数据显示,钦州市报告的艾滋病病例数为5905例。艾滋病是由人类免疫缺陷病毒(HIV)引起的,这种病毒主要攻击人

    2025年07月01日
    84
  • 关于冬奥闭幕式几号的信息

    2022年冬奥会闭幕式时间,地点年冬奥会闭幕式的时间为2022年2月20日晚8点,地点在北京的国家体育场。时间:2022年冬奥会闭幕式在2022年2月20日晚8点举行,标志着这届历时16天的冬奥会正式结束。地点:闭幕式地点设在北京的国家体育场,这座场馆因其独特的造型也被称为“鸟巢”。在这里,观众们

    2025年07月09日
    92
  • 打皮皮麻将原来真的有挂呢(确实真有挂)/打皮皮麻将有什么诀窍

    笑到抽筋的笑话长篇你无法叫醒一个不回你消息的人,但是红包却可以。一位姑娘上了高铁,发现自己的座位上有个男子。她礼貌地提醒:“先生,您坐错位置了吧?”男子出示了车票,生气地说:“看清楚点,这是我的座位,你眼神有问题吗?”女孩仔细看了男子的票,没再说话,只是静静地站在座位旁。手机铃声响起,一看是我兄弟

    2025年07月27日
    98
  • 【多乐跑得快牌一直很差是怎么原因(其实是有挂确实有挂),多乐跑得快怎么老是输】

    多乐跑得快的赢的概率能调吗〖壹〗、多乐跑得快的赢的概率是不能调的。多乐跑得快是一款深受欢迎的休闲游戏,它的规则和玩法与传统的跑得快类似,但加入了一些新的元素和特效,使得游戏更加刺激和有趣。在多乐跑得快中,赢的概率是由游戏算法和随机数生成的,玩家无法自行调整。〖贰〗、学会顶牌,学会记牌。学会顶牌:多

    2025年08月03日
    75
  • 微乐山西麻将免输神器下载(揭秘手机上系统发好牌)的简单介绍

    好玩的手机麻将有哪些《欢乐麻将》:这可是腾讯游戏出品的一款超经典的手机游戏哦!它不仅能让你随时随地享受打麻将的乐趣,还能轻松创建房间,邀请好友一块儿来玩。腾讯欢乐麻将这款应用可以玩多种麻将打法,四川麻将、贵阳捉鸡、广东麻将等等都OK,而且每天都会送补助金,可以让你少花钱甚至不花钱的体验麻将乐趣

    2025年08月12日
    106
  • 包含31省份新增本土确诊65例广西64例的词条

    31省区市新增本土病例21例,分别是在哪里?据国家卫健委网站消息,7月29日0—24时,31个省(自治区、直辖市)和新疆生产建设兵团报告新增确诊病例64例,其中境外输入病例43例(云南21例,广东9例,上海7例,福建3例,辽宁1例,山东1例,四川1例),本土病例21例(江苏18例,湖南2例,北京1

    2025年08月16日
    70
  • 终于发现了“多乐跑胡子有挂吗(专用辅牌神器免安装)

    软件神器超棒!邯郸胡乐麻将的输赢规律(怎么才能赢)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”邯郸胡乐麻将的输赢规律是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户

    2025年09月10日
    39
  • 终于发现了“程序麻将机视频(专用辅牌神器免安装)

    超绝软件神器!长春科乐麻将胡牌技巧(有没有猫腻)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”长春科乐麻将胡牌技巧是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以

    2025年10月09日
    11

发表回复

本站作者后才能评论

评论列表(4条)

  • 神都未醒
    神都未醒 2025年10月13日

    我是视听号的签约作者“神都未醒”!

  • 神都未醒
    神都未醒 2025年10月13日

    希望本篇文章《一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场》能对你有所帮助!

  • 神都未醒
    神都未醒 2025年10月13日

    本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 神都未醒
    神都未醒 2025年10月13日

    本文概览:前言OpenAI 内部快因为 GPU 抢翻天了!总裁直言分配起来 “痛苦又煎熬”,过去一年光算力就花了 70 亿,其中 50 亿都砸在了大模型训练上。就在各团队争得不可开交时,...

    联系我们

    邮件:视听号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们