GPU NVIDIA для LLM-инференса — Сравнение 2026
Исследование • Февраль 2026

GPU NVIDIA для LLM-инференса

Глубокое сравнение RTX 4090, RTX 5090, RTX PRO 6000 Blackwell SE, H100 PCIe и H200 SXM — технические характеристики, бенчмарки производительности и мульти-GPU эквиваленты

RTX 4090 · 24 ГБ
RTX 5090 · 32 ГБ
PRO 6000 SE · 96 ГБ
H100 PCIe · 80 ГБ
H200 SXM · 141 ГБ

Важные уточнения

  • H100 PCIe имеет 80 ГБ HBM2e, а не 96 ГБ. Версия 96 ГБ — это H100 NVL (другой продукт с NVLink-мостом).
  • H200 доступен преимущественно в форм-факторе SXM (141 ГБ HBM3e, 700W). Есть также H200 NVL (PCIe, 141 ГБ, 600W).
  • RTX PRO 6000 SE имеет ECC-память и частоту 25 Гбит/с (против 28 Гбит/с у RTX 5090), что даёт 1 597 ГБ/с вместо 1 792 ГБ/с.
Полная таблица спецификаций
Ключевые параметры пяти GPU для задач инференса LLM
Параметр RTX 4090 RTX 5090 PRO 6000 SE H100 PCIe H200 SXM
Архитектура
Чип / Архитектура AD102 / Ada Lovelace GB202 / Blackwell GB202 / Blackwell GH100 / Hopper GH100 / Hopper
Техпроцесс TSMC 4N (5 нм) TSMC 4N (4 нм) TSMC 4N (4 нм) TSMC N4 (4 нм) TSMC N4 (4 нм)
CUDA-ядра 16 384 21 760 24 064 14 592 16 896
Тензорные ядра 512 (4-е пок.) 680 (5-е пок.) 752 (5-е пок.) 456 (4-е пок.) 528 (4-е пок.)
Память (главный фактор для LLM)
Объём VRAM 24 ГБ GDDR6X 32 ГБ GDDR7 96 ГБ GDDR7 ECC 80 ГБ HBM2e 141 ГБ HBM3e
Шина памяти 384-бит 512-бит 512-бит 5 120-бит 5 120-бит
Пропускная способность 1 008 ГБ/с 1 792 ГБ/с 1 597 ГБ/с 2 000 ГБ/с 4 800 ГБ/с
Производительность
FP32 TFLOPS 82,6 105 117 51 67
FP16 Tensor (dense) 330 TFLOPS ~419 TFLOPS ~460 TFLOPS 756 TFLOPS 989 TFLOPS
FP8 Tensor (dense) 661 TFLOPS ~838 TFLOPS ~920 TFLOPS 1 513 TFLOPS 1 979 TFLOPS
FP4 Tensor (sparse) 3 352 TFLOPS 3 700 TFLOPS
Платформа и стоимость
TDP 450W 575W 600W 300–350W 700W
PCIe 4.0 x16 5.0 x16 5.0 x16 5.0 x16 SXM5
NVLink Нет Нет Нет Да (600 ГБ/с) Да (900 ГБ/с)
MIG Нет Нет Да (4×24 ГБ) Да (7×10 ГБ) Да (7×18 ГБ)
Цена (новая) $1 600–1 800 $2 000–2 500 $8 000–10 000 $25 000–35 000 $30 000–40 000
Аренда (облако) $0,17–0,59/ч $0,30–0,89/ч $1,39–2,40/ч $2,00–3,93/ч $2,50–10,60/ч
Главный фактор скорости генерации
Генерация токенов при batch=1 полностью ограничена скоростью чтения весов из VRAM. Каждый токен = чтение всей модели.
RTX 4090
1 008 ГБ/с
PRO 6000 SE
1 597 ГБ/с
RTX 5090
1 792 ГБ/с
H100 PCIe
2 000 ГБ/с
H200 SXM
4 800 ГБ/с
RTX 5090 быстрее PRO 6000 SE на 3–10% на моделях одного размера — из-за разницы частоты памяти (28 vs 25 Гбит/с). Но PRO 6000 SE — единственная GDDR-карта, запускающая модели 70B+ без шардинга. Это полностью компенсирует разницу в bandwidth.
Какие модели поместятся в GPU?
Совместимость при различных уровнях квантизации. Указаны только веса модели без KV-кэша.
DeepSeek-R1:14B
FP16 ~28 ГБ · Q4 ~9 ГБ
RTX 4090 (24)
Q4Q8
RTX 5090 (32)
Q4Q8FP16
PRO 6000 SE (96)
Все форматы
H100 PCIe (80)
Все форматы
H200 SXM (141)
Все форматы
GPT-OSS ~20B MoE
FP16 ~40 ГБ · Q4 ~12 ГБ
RTX 4090 (24)
Q4
RTX 5090 (32)
Q4Q8
PRO 6000 SE (96)
Все форматы
H100 PCIe (80)
Все форматы
H200 SXM (141)
Все форматы
QWEN3:32B
FP16 ~64 ГБ · Q4 ~20 ГБ
RTX 4090 (24)
Q4 впритык
RTX 5090 (32)
Q4
PRO 6000 SE (96)
Все форматы
H100 PCIe (80)
Q4Q8FP16
H200 SXM (141)
Все форматы
DeepSeek-R1:70B
FP16 ~140 ГБ · Q4 ~40 ГБ
RTX 4090 (24)
Не помещается
RTX 5090 (32)
Не помещается
PRO 6000 SE (96)
Q4
H100 PCIe (80)
Q4
H200 SXM (141)
Q4Q8FP16
GPT-OSS ~120B MoE
FP16 ~240 ГБ · Q4 ~60 ГБ
RTX 4090 (24)
Не помещается
RTX 5090 (32)
Не помещается
PRO 6000 SE (96)
Q4
H100 PCIe (80)
Q4
H200 SXM (141)
Q4Q8
Скорость генерации токенов
Реальные замеры и расчётные оценки для 5 моделей в двух режимах работы
DeepSeek-R1:14B
Q4_K_M · batch=1 · ctx 4K
RTX 4090
~60 т/с
H100 PCIe
~95 т/с
PRO 6000 SE
~97 т/с
RTX 5090
~105 т/с
H200 SXM
~230 т/с
GPT-OSS ~20B (MoE)
Q4_K_M · batch=1 · MoE ~12 ГБ активных параметров
RTX 4090
~164 т/с
H100 PCIe
~210 т/с
PRO 6000 SE
~238 т/с
RTX 5090
~249 т/с
H200 SXM
~450 т/с
QWEN3:32B (dense)
Q4_K_M · batch=1 · ctx 4K
RTX 4090
~38 т/с
H100 PCIe
~50 т/с
PRO 6000 SE
~46 т/с
RTX 5090
~51 т/с
H200 SXM
~120 т/с
DeepSeek-R1:70B
Q4_K_M · batch=1 · Мульти-GPU для RTX 4090/5090
2× RTX 4090
~19 т/с
H100 PCIe
~25 т/с
2× RTX 5090
~27 т/с
PRO 6000 SE
~28 т/с
H200 SXM
~65 т/с
RTX 4090 и RTX 5090 — через PCIe, pipeline parallelism. Реальный оверхед ~25–40%.
GPT-OSS ~120B (MoE)
Q4_K_M · batch=1 · Только GPU с ≥60 ГБ VRAM
RTX 4090 / 5090
❌ OOM
H100 PCIe
~150 т/с
PRO 6000 SE
~182 т/с
H200 SXM
~400 т/с
5 одновременных пользователей — агрегатная / на 1 пользователя
Q4_K_M · 5 concurrent · ctx 4K
Модель RTX 4090 RTX 5090 PRO 6000 SE H100 PCIe H200 SXM
DeepSeek-R1:14B 250 / 50 450 / 90 420 / 84 380 / 76 850 / 170
GPT-OSS ~20B MoE 680 / 136 1 050 / 210 1 000 / 200 870 / 174 1 700 / 340
QWEN3:32B ⚠️ 90 / 30 200 / 40 195 / 39 210 / 42 430 / 86
DeepSeek-R1:70B 2×: 48 / 10 2×: 80 / 16 105 / 21 95 / 19 240 / 48
GPT-OSS ~120B MoE ❌ OOM ❌ OOM 700 / 140 580 / 116 1 500 / 300
Формат: агрегатная пропускная (5 юзеров суммарно) / скорость на 1 пользователя (т/с). RTX 4090 на QWEN3:32B — максимум 3 юзера при Q4.
При batch=5 веса модели читаются из памяти однократно на 5 запросов — агрегатная пропускная способность вырастает в 3,5–4,5× от batch=1 для маленьких моделей и в 3–3,5× для больших. Скорость на одного пользователя снижается до 70–90% от batch=1.
Сколько RTX 4090/5090 нужно для замены?
Эквиваленты по VRAM, bandwidth и реальной производительности с учётом PCIe-оверхеда

≈ PRO 6000 SE (96 ГБ)

Замена одной карты за $8 000–10 000

RTX 4090 по VRAM
4 карты (96 ГБ)
RTX 5090 по VRAM
3 карты (96 ГБ)
4× RTX 4090 реальная скорость
55% от PRO 6000
4× RTX 5090 реальная скорость
146% от PRO 6000
Стоимость 4× RTX 4090
~$7 200 + платформа
Стоимость 3× RTX 5090
~$7 500 + платформа

≈ H100 PCIe (80 ГБ)

Замена одной карты за $25 000–35 000

RTX 4090 по VRAM
4 карты (96 ГБ)
RTX 5090 по VRAM
3 карты (96 ГБ)
2× RTX 5090 на 70B
≈ H100 PCIe
Стоимость 2× RTX 5090
~$5 000 (в 5–7× дешевле)
Ограничения
Нет NVLink, нет P2P

≈ H200 SXM (141 ГБ)

Замена одной карты за $30 000–40 000

RTX 4090 по VRAM
6 карт (144 ГБ)
RTX 5090 по VRAM
5 карт (160 ГБ)
RTX 4090 для ≈ bandwidth
8–12 карт (нереально)
RTX 5090 для ≈ bandwidth
5–7 карт (сложно)
NVLink H200
900 ГБ/с — непревзойдимо
Ключевой факт: llama.cpp на batch=1 практически не масштабируется на несколько GPU. Бенчмарки показывают: 1× RTX 4090 = 4× RTX 4090 = 8× RTX 4090 ≈ ~19 т/с на 70B-модели. Для мульти-GPU обязательны vLLM (TP+PP) или TensorRT-LLM. Consumer RTX карты не поддерживают P2P — всё идёт через CPU.
Потребление памяти при масштабировании
DeepSeek-R1:70B (GQA, 80 слоёв, 8 KV-голов, FP16) — ~0,31 МБ на токен контекста
Контекст1 юзер5 юзеров10 юзеров
2 048 токенов0,6 ГБ3,2 ГБ6,4 ГБ
4 096 токенов1,3 ГБ6,4 ГБ12,8 ГБ
8 192 токена2,5 ГБ12,8 ГБ25,6 ГБ
32 768 токенов10,2 ГБ51 ГБ102 ГБ
PRO 6000 SE (96 ГБ) при 70B Q4 (~40 ГБ весов) оставляет ~56 ГБ для KV-кэша — это ~43 одновременных пользователя при контексте 4K. H200 (141 ГБ) — ~101 ГБ запас = ~77 пользователей при 4K. Использование FP8 KV-кэша удваивает ёмкость.
Какой GPU выбрать?
Оптимальный выбор зависит от размера модели, числа пользователей и бюджета
Модели до 14B · 1 юзер
RTX 5090
~$2 000 · 105 т/с
На 60% быстрее RTX 4090 при разнице в MSRP всего 25%. Лучший выбор для локального AI-ассистента.
Модели до 32B · 5 юзеров
RTX 5090
~$2 000 · 40 т/с на юзера
32 ГБ хватает для QWEN3:32B (Q4) с 5 пользователями. Оптимальное соотношение цена/качество.
Модели 70B · 1–5 юзеров
PRO 6000 SE
~$8 000 · 28 т/с (1 юзер)
Единственная GDDR-карта для 70B без шардинга. В 3–4× дешевле H100 PCIe при сопоставимой скорости.
Бюджетная альтернатива H100
2× RTX 5090
~$5 000 · ~27 т/с на 70B
Производительность ≈ H100 PCIe ($25–35K) при стоимости в 5–7× ниже. Нужен vLLM + PCIe 5.0.
Модели 120B+ · Продакшн
H200 SXM
~$30–40K · ~400 т/с MoE
Абсолютный лидер: 4,8 ТБ/с bandwidth + 141 ГБ + NVLink. 2–3× быстрее любой GDDR-карты.
Минимальный бюджет (облако)
RTX 4090
от $0,17/ч · 60 т/с на 14B
Самая дешёвая аренда для моделей ≤14B. Ограничение 24 ГБ — потолок для QWEN3:32B (Q4 впритык).

Данные на основе бенчмарков Hardware Corner, Database Mart, CloudRift, HostKey, NVIDIA TensorRT-LLM · Февраль 2026

Оценки для H100 PCIe и H200 SXM включают расчётные значения на основе пропорций bandwidth и подтверждённых замеров