英伟达创满血DeepSeek推理天下记录 机能明显晋升

日期:2025-03-21 09:44 浏览:

英伟达在NVIDIA GTC 2025上发布,其NVIDIA Blackwell 开元官方版下载DGX体系创下DeepSeek-R1年夜模子推感性能的天下记录。在搭载了八块Blackwell GPU的单个DGX体系上运转6710亿参数的满血DeepSeek-R1模子可实现每用户每秒超250 token的呼应速率,体系最高吞吐量冲破每皇冠手机版下载秒3万token。英伟达创满血DeepSeek推理世界纪录跟着NVIDIA平台持续在最新的Blackwell Ultra GPU跟Blackwell GPU上冲破推理极限,其机能将会一直进步。比方,在运转TensorRT-LLM软件的NVL8设置的NVIDIA B200 GPU上,单节点设置为DGX B200(8块GPU)与DGX H200(8块GPU),测试参数为输入1024 token / 输出2048 token;此前测试为输入/输出各1024 token,盘算精度方面,B200采取FP4,H100/H200采取FP8精度。英伟达创满血DeepSeek推理世界纪录 性能显著提升自2025年1月以来,经由过程硬件跟软件的联合,英伟告竣功将DeepSeek-R1 671B模子的吞吐量进步了约36倍。节点设置包含DGX B200(8块GPU)、DGX H200(8块GPU)以及两个DGX H100(8块G澳门bet356体育在线官网PU)体系,测试参数仍然采取TensorRT-LLM外部版本,输入1024 token / 输出2048 token,并发性MAX,盘算精度方面,B200采取FP4,H100/H200采取FP8精度。英伟达创满血DeepSeek推理世界纪录 性能显著提升与Hopper架构比拟,Blackwell架构与TensorRT软件相联合实现了明显的推感性能晋升。DGX B200平台在运转TensorRT软件并应用FP4精度时,与DGX H200平台比拟供给了3倍以上的推理吞吐量晋升,实用于包含DeepSeek-R1、Llama 3.1 405B跟Llama 3.3 70B在内的多个模子。在对模子停止量化以应用低精度盘算上风时,确保精度丧失最小化是出产安排的要害。在DeepSeek-R1模子上,相较于FP8基准精度,TensorRT Model Optimizer的FP4练习后量化技巧在差别数据集上仅发生微不足道的精度丧失。

0
首页
电话
短信
联系