GPU NVIDIA для LLM-инференса — Сравнение 2026

Исследование • Февраль 2026

GPU NVIDIA для LLM-инференса

Глубокое сравнение RTX 4090, RTX 5090, RTX PRO 6000 Blackwell SE, H100 PCIe и H200 SXM — технические характеристики, бенчмарки производительности и мульти-GPU эквиваленты

RTX 4090 · 24 ГБ

RTX 5090 · 32 ГБ

PRO 6000 SE · 96 ГБ

H100 PCIe · 80 ГБ

H200 SXM · 141 ГБ

Важные уточнения

H100 PCIe имеет 80 ГБ HBM2e, а не 96 ГБ. Версия 96 ГБ — это H100 NVL (другой продукт с NVLink-мостом).
H200 доступен преимущественно в форм-факторе SXM (141 ГБ HBM3e, 700W). Есть также H200 NVL (PCIe, 141 ГБ, 600W).
RTX PRO 6000 SE имеет ECC-память и частоту 25 Гбит/с (против 28 Гбит/с у RTX 5090), что даёт 1 597 ГБ/с вместо 1 792 ГБ/с.

Технические характеристики

Полная таблица спецификаций

Ключевые параметры пяти GPU для задач инференса LLM

Параметр	RTX 4090	RTX 5090	PRO 6000 SE	H100 PCIe	H200 SXM
Архитектура
Чип / Архитектура	AD102 / Ada Lovelace	GB202 / Blackwell	GB202 / Blackwell	GH100 / Hopper	GH100 / Hopper
Техпроцесс	TSMC 4N (5 нм)	TSMC 4N (4 нм)	TSMC 4N (4 нм)	TSMC N4 (4 нм)	TSMC N4 (4 нм)
CUDA-ядра	16 384	21 760	24 064	14 592	16 896
Тензорные ядра	512 (4-е пок.)	680 (5-е пок.)	752 (5-е пок.)	456 (4-е пок.)	528 (4-е пок.)
Память (главный фактор для LLM)
Объём VRAM	24 ГБ GDDR6X	32 ГБ GDDR7	96 ГБ GDDR7 ECC	80 ГБ HBM2e	141 ГБ HBM3e
Шина памяти	384-бит	512-бит	512-бит	5 120-бит	5 120-бит
Пропускная способность	1 008 ГБ/с	1 792 ГБ/с	1 597 ГБ/с	2 000 ГБ/с	4 800 ГБ/с
Производительность
FP32 TFLOPS	82,6	105	117	51	67
FP16 Tensor (dense)	330 TFLOPS	~419 TFLOPS	~460 TFLOPS	756 TFLOPS	989 TFLOPS
FP8 Tensor (dense)	661 TFLOPS	~838 TFLOPS	~920 TFLOPS	1 513 TFLOPS	1 979 TFLOPS
FP4 Tensor (sparse)	—	3 352 TFLOPS	3 700 TFLOPS	—	—
Платформа и стоимость
TDP	450W	575W	600W	300–350W	700W
PCIe	4.0 x16	5.0 x16	5.0 x16	5.0 x16	SXM5
NVLink	Нет	Нет	Нет	Да (600 ГБ/с)	Да (900 ГБ/с)
MIG	Нет	Нет	Да (4×24 ГБ)	Да (7×10 ГБ)	Да (7×18 ГБ)
Цена (новая)	$1 600–1 800	$2 000–2 500	$8 000–10 000	$25 000–35 000	$30 000–40 000
Аренда (облако)	$0,17–0,59/ч	$0,30–0,89/ч	$1,39–2,40/ч	$2,00–3,93/ч	$2,50–10,60/ч

Пропускная способность памяти

Главный фактор скорости генерации

Генерация токенов при batch=1 полностью ограничена скоростью чтения весов из VRAM. Каждый токен = чтение всей модели.

RTX 4090

1 008 ГБ/с

PRO 6000 SE

1 597 ГБ/с

RTX 5090

1 792 ГБ/с

H100 PCIe

2 000 ГБ/с

H200 SXM

4 800 ГБ/с

RTX 5090 быстрее PRO 6000 SE на 3–10% на моделях одного размера — из-за разницы частоты памяти (28 vs 25 Гбит/с). Но PRO 6000 SE — единственная GDDR-карта, запускающая модели 70B+ без шардинга. Это полностью компенсирует разницу в bandwidth.

Совместимость

Какие модели поместятся в GPU?

Совместимость при различных уровнях квантизации. Указаны только веса модели без KV-кэша.

DeepSeek-R1:14B

FP16 ~28 ГБ · Q4 ~9 ГБ

RTX 4090 (24)

Q4Q8

RTX 5090 (32)

Q4Q8FP16

PRO 6000 SE (96)

Все форматы

H100 PCIe (80)

Все форматы

H200 SXM (141)

Все форматы

GPT-OSS ~20B MoE

FP16 ~40 ГБ · Q4 ~12 ГБ

RTX 4090 (24)

RTX 5090 (32)

Q4Q8

PRO 6000 SE (96)

Все форматы

H100 PCIe (80)

Все форматы

H200 SXM (141)

Все форматы

QWEN3:32B

FP16 ~64 ГБ · Q4 ~20 ГБ

RTX 4090 (24)

Q4 впритык

RTX 5090 (32)

PRO 6000 SE (96)

Все форматы

H100 PCIe (80)

Q4Q8FP16

H200 SXM (141)

Все форматы

DeepSeek-R1:70B

FP16 ~140 ГБ · Q4 ~40 ГБ

RTX 4090 (24)

Не помещается

RTX 5090 (32)

Не помещается

PRO 6000 SE (96)

H100 PCIe (80)

H200 SXM (141)

Q4Q8FP16

GPT-OSS ~120B MoE

FP16 ~240 ГБ · Q4 ~60 ГБ

RTX 4090 (24)

Не помещается

RTX 5090 (32)

Не помещается

PRO 6000 SE (96)

H100 PCIe (80)

H200 SXM (141)

Q4Q8

Бенчмарки производительности

Скорость генерации токенов

Реальные замеры и расчётные оценки для 5 моделей в двух режимах работы

DeepSeek-R1:14B

Q4_K_M · batch=1 · ctx 4K

RTX 4090

~60 т/с

H100 PCIe

~95 т/с

PRO 6000 SE

~97 т/с

RTX 5090

~105 т/с

H200 SXM

~230 т/с

GPT-OSS ~20B (MoE)

Q4_K_M · batch=1 · MoE ~12 ГБ активных параметров

RTX 4090

~164 т/с

H100 PCIe

~210 т/с

PRO 6000 SE

~238 т/с

RTX 5090

~249 т/с

H200 SXM

~450 т/с

QWEN3:32B (dense)

Q4_K_M · batch=1 · ctx 4K

RTX 4090

~38 т/с

H100 PCIe

~50 т/с

PRO 6000 SE

~46 т/с

RTX 5090

~51 т/с

H200 SXM

~120 т/с

DeepSeek-R1:70B

Q4_K_M · batch=1 · Мульти-GPU для RTX 4090/5090

2× RTX 4090

~19 т/с

H100 PCIe

~25 т/с

2× RTX 5090

~27 т/с

PRO 6000 SE

~28 т/с

H200 SXM

~65 т/с

RTX 4090 и RTX 5090 — через PCIe, pipeline parallelism. Реальный оверхед ~25–40%.

GPT-OSS ~120B (MoE)

Q4_K_M · batch=1 · Только GPU с ≥60 ГБ VRAM

RTX 4090 / 5090

❌ OOM

H100 PCIe

~150 т/с

PRO 6000 SE

~182 т/с

H200 SXM

~400 т/с

5 одновременных пользователей — агрегатная / на 1 пользователя

Q4_K_M · 5 concurrent · ctx 4K

Модель	RTX 4090	RTX 5090	PRO 6000 SE	H100 PCIe	H200 SXM
DeepSeek-R1:14B	250 / 50	450 / 90	420 / 84	380 / 76	850 / 170
GPT-OSS ~20B MoE	680 / 136	1 050 / 210	1 000 / 200	870 / 174	1 700 / 340
QWEN3:32B	⚠️ 90 / 30	200 / 40	195 / 39	210 / 42	430 / 86
DeepSeek-R1:70B	2×: 48 / 10	2×: 80 / 16	105 / 21	95 / 19	240 / 48
GPT-OSS ~120B MoE	❌ OOM	❌ OOM	700 / 140	580 / 116	1 500 / 300

Формат: агрегатная пропускная (5 юзеров суммарно) / скорость на 1 пользователя (т/с). RTX 4090 на QWEN3:32B — максимум 3 юзера при Q4.

При batch=5 веса модели читаются из памяти однократно на 5 запросов — агрегатная пропускная способность вырастает в 3,5–4,5× от batch=1 для маленьких моделей и в 3–3,5× для больших. Скорость на одного пользователя снижается до 70–90% от batch=1.

Мульти-GPU конфигурации

Сколько RTX 4090/5090 нужно для замены?

Эквиваленты по VRAM, bandwidth и реальной производительности с учётом PCIe-оверхеда

≈ PRO 6000 SE (96 ГБ)

Замена одной карты за $8 000–10 000

RTX 4090 по VRAM

4 карты (96 ГБ)

RTX 5090 по VRAM

3 карты (96 ГБ)

4× RTX 4090 реальная скорость

55% от PRO 6000

4× RTX 5090 реальная скорость

146% от PRO 6000

Стоимость 4× RTX 4090

~$7 200 + платформа

Стоимость 3× RTX 5090

~$7 500 + платформа

≈ H100 PCIe (80 ГБ)

Замена одной карты за $25 000–35 000

RTX 4090 по VRAM

4 карты (96 ГБ)

RTX 5090 по VRAM

3 карты (96 ГБ)

2× RTX 5090 на 70B

≈ H100 PCIe

Стоимость 2× RTX 5090

~$5 000 (в 5–7× дешевле)

Ограничения

Нет NVLink, нет P2P

≈ H200 SXM (141 ГБ)

Замена одной карты за $30 000–40 000

RTX 4090 по VRAM

6 карт (144 ГБ)

RTX 5090 по VRAM

5 карт (160 ГБ)

RTX 4090 для ≈ bandwidth

8–12 карт (нереально)

RTX 5090 для ≈ bandwidth

5–7 карт (сложно)

NVLink H200

900 ГБ/с — непревзойдимо

Ключевой факт: llama.cpp на batch=1 практически не масштабируется на несколько GPU. Бенчмарки показывают: 1× RTX 4090 = 4× RTX 4090 = 8× RTX 4090 ≈ ~19 т/с на 70B-модели. Для мульти-GPU обязательны vLLM (TP+PP) или TensorRT-LLM. Consumer RTX карты не поддерживают P2P — всё идёт через CPU.

KV-кэш

Потребление памяти при масштабировании

DeepSeek-R1:70B (GQA, 80 слоёв, 8 KV-голов, FP16) — ~0,31 МБ на токен контекста

Контекст	1 юзер	5 юзеров	10 юзеров
2 048 токенов	0,6 ГБ	3,2 ГБ	6,4 ГБ
4 096 токенов	1,3 ГБ	6,4 ГБ	12,8 ГБ
8 192 токена	2,5 ГБ	12,8 ГБ	25,6 ГБ
32 768 токенов	10,2 ГБ	51 ГБ	102 ГБ

PRO 6000 SE (96 ГБ) при 70B Q4 (~40 ГБ весов) оставляет ~56 ГБ для KV-кэша — это ~43 одновременных пользователя при контексте 4K. H200 (141 ГБ) — ~101 ГБ запас = ~77 пользователей при 4K. Использование FP8 KV-кэша удваивает ёмкость.

Рекомендации

Какой GPU выбрать?

Оптимальный выбор зависит от размера модели, числа пользователей и бюджета

Модели до 14B · 1 юзер

RTX 5090

~$2 000 · 105 т/с

На 60% быстрее RTX 4090 при разнице в MSRP всего 25%. Лучший выбор для локального AI-ассистента.

Модели до 32B · 5 юзеров

RTX 5090

~$2 000 · 40 т/с на юзера

32 ГБ хватает для QWEN3:32B (Q4) с 5 пользователями. Оптимальное соотношение цена/качество.

Модели 70B · 1–5 юзеров

PRO 6000 SE

~$8 000 · 28 т/с (1 юзер)

Единственная GDDR-карта для 70B без шардинга. В 3–4× дешевле H100 PCIe при сопоставимой скорости.

Бюджетная альтернатива H100

2× RTX 5090

~$5 000 · ~27 т/с на 70B

Производительность ≈ H100 PCIe ($25–35K) при стоимости в 5–7× ниже. Нужен vLLM + PCIe 5.0.

Модели 120B+ · Продакшн

H200 SXM

~$30–40K · ~400 т/с MoE

Абсолютный лидер: 4,8 ТБ/с bandwidth + 141 ГБ + NVLink. 2–3× быстрее любой GDDR-карты.

Минимальный бюджет (облако)

RTX 4090

от $0,17/ч · 60 т/с на 14B

Самая дешёвая аренда для моделей ≤14B. Ограничение 24 ГБ — потолок для QWEN3:32B (Q4 впритык).