黄仁勋将揭晓世界前所未见新芯片 推理时代来临。3月中旬,NVIDIA将在加州圣何塞召开GTC大会,这是AI领域最受瞩目的盛会之一。此前,黄仁勋宣布将推出一款"世界前所未见"的全新芯片。这一消息在资本市场引起了热议。目前主流观点认为,这款芯片最有可能是融入Groq LPU(语言处理单元)设计的全新推理产品。

如果作为现有GPU的插件,数据传输仍然要经过PCIe或NVLink等外部接口,这会引入新的延迟,部分抵消SRAM的低延迟优势。更理想的方案是像Cerebras那样,打造一个专为推理设计的、以SRAM为中心的全新计算架构。
随着新一代Agent应用如"小龙虾"(OpenClaw)的火爆,全球算力需求结构正发生明显变化,市场重心从训练转向推理。据德勤《2026科技、传媒和电信行业预测》,到2026年,"推理"将占据全部AI计算能力的三分之二。未来将出现价值数十亿美元的推理专用优化芯片,部署在数据中心和企业服务器中,部分芯片的功耗将与通用AI芯片相当甚至更高。
对于此次大会,业界推测最大的亮点除了英伟达可能正式揭晓Rubin及下一代Feynman架构GPU的核心技术细节外,还可能推出整合了LPU技术的全新推理芯片。这将是英伟达首次在核心AI算力产品线中大规模引入外部架构。
中信证券称,此前NVIDIA推出的Rubin CPX针对Prefill降本需求,在对Groq收购后,本次或将推出LPU或"类LPU"芯片来实现Decode提效。在推理过程中,模型通常经历两阶段:pre-fill阶段处理用户输入;decode阶段逐Token生成输出结果。实际影响用户推理体验的关键在于decode阶段的生成速度与延迟。基于GPU的推理架构中,由于大量模型参数存放于HBM中,频繁的数据搬运会影响模型decode阶段的时效性。而Groq LPU采用离计算核心更近的存储单元SRAM来存储模型参数,提供高达80TB/s的内存带宽,远超GPU架构。
0 评论