Executive Summary

Исследование применимости локальных LLM (Open Weights) для Enterprise-задач в контуре безопасности. Фокус на сценарии аналитики и CRM без передачи данных третьим лицам.

Ключевая Рекомендация

Гибридный подход

Basket A (70B+) для сложной аналитики + Basket B (14-32B) для high-load CRM задач.

Инфраструктура

vLLM + OpenAI API

Стандартизированный слой инференса с поддержкой метрик и совместимости.

Главный Риск

Точность RAG

Галлюцинации требуют строгого 'Grounding' и фильтрации контекста.

Матрица Критериев Выбора

Распределение весов при выборе модели для корпоративного сегмента. Приоритет отдается качеству на русском языке и безопасности.

Итоговая Рекомендация (Shortlist)

Basket A: Analytics & Complex RAG

DeepSeek-R1 (Distill 70B) / Qwen2.5-72B

Лучшие показатели Reasoning и работы с документами. Требуют 2xA100 (80GB) или 4xA6000.

Basket B: CRM & Fast Tasks

Qwen2.5-32B / Gemma-2-27B

Идеальный баланс скорости и качества. Помещаются на одну карту A100/A6000 или даже потребительские 3090/4090 (в 4-bit).

Карта Use-Case'ов

Детализация сценариев использования LLM в контуре компании. Выберите категорию для фильтрации.

Сравнение Моделей (Longlist & Shortlist)

Анализ кандидатов по соотношению качества рассуждений (Benchmark Proxy) к требованиям VRAM. Размер точки отражает количество параметров.

Quality vs. Hardware Cost Landscape

Shortlist Others

Детальная Таблица Сравнения

Модель	Параметры	Контекст	RU/EN	Tool Call	Min VRAM (4-bit)	Статус

Архитектура & План PoC

Целевая схема развертывания в закрытом контуре и дорожная карта пилотного проекта.

Целевая On-Prem Архитектура

CLIENT LAYER

CRM System

Analytics BI

Internal Chatbot UI

▼ HTTPS / REST / gRPC ▼

API GATEWAY & ORCHESTRATION

Security & Guardrails (PII Masking, Auth, Rate Limit)

Application Logic (LangChain / LlamaIndex / Custom)

▼

VECTOR STORE

Milvus / Qdrant

Embeddings (e5-multilingual)

LLM INFERENCE RUNTIME

vLLM Server

High Throughput

TGI / TRT-LLM

Alternative

OBSERVABILITY

LangFuse / Arize

Tracing & Eval

HARDWARE: NVIDIA A100 / A6000 Ada / H100 (Kubernetes/Docker)

План PoC (4-8 недель)

Недели 1-2: Подготовка и Baseline

Развертывание vLLM, закупка/выделение GPU. Подготовка датасета из 100 обезличенных тикетов CRM и 50 аналитических отчетов. Запуск Qwen2.5-32B как бейзлайна.

Недели 3-4: RAG & Tuning

Интеграция векторной БД. Тестирование DeepSeek-R1 для сложных запросов. Настройка системного промпта для JSON-вывода.

Недели 5-6: Red Teaming & Eval

Тесты на Prompt Injection. Замер latency. Оценка "faithfulness" ответов по RAG. Сравнение Basket A и Basket B.

Недели 7-8: Go/No-Go

Финальный отчет. Выбор архитектуры. Бюджетирование продакшена.

Реестр Рисков

Анализ вероятности и влияния ключевых угроз при внедрении on-prem LLM.

Распределение типов рисков

Prompt Injection / Jailbreak

Вероятность: Высокая | Влияние: Критическое

????

Атака через злонамеренные входящие данные (письма, тикеты), заставляющая модель игнорировать инструкции.
Мера: Использовать LLM-guardrail на входе/выходе, не давать модели прав на запись без подтверждения человека.

Деградация качества при квантизации

Вероятность: Средняя | Влияние: Высокое

????

Использование 4-bit (GGUF/AWQ) может сломать сложные логические цепочки.
Мера: Использовать FP16/BF16 для моделей Basket A. Квантовать только Basket B.

Resource Starvation

Вероятность: Средняя | Влияние: Среднее

????

Длинные контекстные запросы (RAG 32k+) могут забить очередь инференса.
Мера: Continuous Batching (vLLM), ограничение токенов на выходе, rate limiting.