依据SemiAnalysis爆料,从第三季度开端,许多AI巨子现已将订单从B200搬运到了B300(只要微软还在第四季度持续购买了部分B200)。
既是处理了此前传闻中B200因规划缺点被逼推延的问题,又是对近邻AMD MI300系列后续产品将在2025年进步显存容量的回应。
GB200系列供给整个Bianca Board,也就包含两颗GPU、一颗CPU、CPU的内存等一切组件都集成在一块PCB版上。
显存的晋级对OpenAI o1/o3一类的推理大模型至关重要,由于推理思想链长度会添加KVCache,影响batch size和推迟。
以一个GB300 NVL72“核算单元”为单位考虑时,它使72个GPU能够以极低的推迟处理相同的问题,并同享显存。
下图是在不同批处理巨细下,运用H100和H200两种GPU处理长序列时,Llama 3.1 405B在FP8精度下的处理速度。
二是H200可运转更高的batch size,这使得其每秒能够生成的token数量添加了3倍,相应地,本钱也削减了约3倍。
众所周知,推理模型呼应时刻一般更长,显着缩短推理时刻能进步用户体会和运用频率。
并且内存晋级完成3倍功能进步,本钱削减3倍,这一进步速度也远超摩尔定律。
除此之外,SemiAnalysis还剖析观察到,才能更强和具有显着差异化的模型能收取更高的溢价
前沿模型毛利率超70%,而还在与开源模型竞赛的次一级模型毛利率缺乏20%。
当然,英伟达并不是仅有一家能添加内存的芯片公司,但怎么办英伟达还有杀手锏NVLink。
结合此前爆料称5090有必定的概率会装备32GB大显存,有望支撑8K超高清游戏,完成60fps的流通游戏体会。
关于5090的发布时刻,大伙儿猜想大约会是1月6日老黄CES讲演的时分。