英伟达年终核弹！全新B300为o1推理大模型打造 RTX5090也曝光了

日期: 2025-03-11 00:51 作者: PokerKing游戏平台

依据SemiAnalysis爆料，从第三季度开端，许多AI巨子现已将订单从B200搬运到了B300（只要微软还在第四季度持续购买了部分B200）。

既是处理了此前传闻中B200因规划缺点被逼推延的问题，又是对近邻AMD MI300系列后续产品将在2025年进步显存容量的回应。

GB200系列供给整个Bianca Board，也就包含两颗GPU、一颗CPU、CPU的内存等一切组件都集成在一块PCB版上。

显存的晋级对OpenAI o1/o3一类的推理大模型至关重要，由于推理思想链长度会添加KVCache，影响batch size和推迟。

以一个GB300 NVL72“核算单元”为单位考虑时，它使72个GPU能够以极低的推迟处理相同的问题，并同享显存。

下图是在不同批处理巨细下，运用H100和H200两种GPU处理长序列时，Llama 3.1 405B在FP8精度下的处理速度。

二是H200可运转更高的batch size，这使得其每秒能够生成的token数量添加了3倍，相应地，本钱也削减了约3倍。

众所周知，推理模型呼应时刻一般更长，显着缩短推理时刻能进步用户体会和运用频率。

并且内存晋级完成3倍功能进步，本钱削减3倍，这一进步速度也远超摩尔定律。

除此之外，SemiAnalysis还剖析观察到，才能更强和具有显着差异化的模型能收取更高的溢价

前沿模型毛利率超70%，而还在与开源模型竞赛的次一级模型毛利率缺乏20%。

当然，英伟达并不是仅有一家能添加内存的芯片公司，但怎么办英伟达还有杀手锏NVLink。

结合此前爆料称5090有必定的概率会装备32GB大显存，有望支撑8K超高清游戏，完成60fps的流通游戏体会。

关于5090的发布时刻，大伙儿猜想大约会是1月6日老黄CES讲演的时分。