新闻中心

英伟达创满血DeepSeek推理天下记录机能明显晋升

日期：2025-03-21 09:44 浏览：

英伟达在NVIDIA GTC 2025上发布，其NVIDIA Blackwell 开元官方版下载DGX体系创下DeepSeek-R1年夜模子推感性能的天下记录。在搭载了八块Blackwell GPU的单个DGX体系上运转6710亿参数的满血DeepSeek-R1模子可实现每用户每秒超250 token的呼应速率，体系最高吞吐量冲破每皇冠手机版下载秒3万token。英伟达创满血DeepSeek推理世界纪录跟着NVIDIA平台持续在最新的Blackwell Ultra GPU跟Blackwell GPU上冲破推理极限，其机能将会一直进步。比方，在运转TensorRT-LLM软件的NVL8设置的NVIDIA B200 GPU上，单节点设置为DGX B200（8块GPU）与DGX H200（8块GPU），测试参数为输入1024 token / 输出2048 token；此前测试为输入/输出各1024 token，盘算精度方面，B200采取FP4，H100/H200采取FP8精度。英伟达创满血DeepSeek推理世界纪录性能显著提升自2025年1月以来，经由过程硬件跟软件的联合，英伟告竣功将DeepSeek-R1 671B模子的吞吐量进步了约36倍。节点设置包含DGX B200（8块GPU）、DGX H200（8块GPU）以及两个DGX H100（8块G澳门bet356体育在线官网PU）体系，测试参数仍然采取TensorRT-LLM外部版本，输入1024 token / 输出2048 token，并发性MAX，盘算精度方面，B200采取FP4，H100/H200采取FP8精度。英伟达创满血DeepSeek推理世界纪录性能显著提升与Hopper架构比拟，Blackwell架构与TensorRT软件相联合实现了明显的推感性能晋升。DGX B200平台在运转TensorRT软件并应用FP4精度时，与DGX H200平台比拟供给了3倍以上的推理吞吐量晋升，实用于包含DeepSeek-R1、Llama 3.1 405B跟Llama 3.3 70B在内的多个模子。在对模子停止量化以应用低精度盘算上风时，确保精度丧失最小化是出产安排的要害。在DeepSeek-R1模子上，相较于FP8基准精度，TensorRT Model Optimizer的FP4练习后量化技巧在差别数据集上仅发生微不足道的精度丧失。

新闻中心

英伟达创满血DeepSeek推理天下记录 机能明显晋升

英伟达创满血DeepSeek推理天下记录机能明显晋升