Старый vs Новый — Урок 10

1. Fine-tuning для знаний → RAG для знаний

Старый рефлекс	Современный подход
Дообучить модель на документах компании.	Индексировать документы и отвечать через RAG с источниками.
Переобучать модель при каждом обновлении документа.	Переиндексировать изменённые документы.
Надеяться, что модель «запомнила» факт.	Показывать найденный источник и проверять retrieval.

⚠️ Fine-tuning может улучшить стиль и формат ответов RAG-системы, но не заменяет актуальный источник данных.

2. Full fine-tuning → PEFT/LoRA

Подход	Минусы	Что использовать сейчас
Обучать все веса модели	Дорого, много GPU-памяти, большие чекпоинты.	PEFT/LoRA, когда задача позволяет.
Сохранять полную копию модели	Сложнее хранить и деплоить.	Сохранять адаптер и базовую модель отдельно.
Игнорировать baseline	Непонятно, стало ли лучше.	Оценивать prompt baseline, RAG baseline и fine-tuned вариант.

3. Хардкод токенов → secret management

# плохо
HF_TOKEN = "hf_..."

# лучше
HF_TOKEN = os.getenv("HF_TOKEN")

Секреты не должны попадать в код, ноутбуки, скриншоты и git history. Даже учебный пример стоит писать так, чтобы его было не страшно показать на GitHub.

4. Один train split → train/test/evals

Если вы обучаете и проверяете модель на одних и тех же примерах, вы измеряете запоминание, а не качество. Минимум нужен отдельный test split. Для production добавляют регрессионные evals и набор safety-кейсов.

5. Cloud tuning API «как в туториале» → проверка актуальности

Провайдер	Что важно проверить
Google Gemini API / AI Studio	Официальная документация сообщает, что после shutdown Gemini 1.5 Flash-001 tuning больше не поддерживается ни одной моделью в Gemini API/AI Studio.
OpenAI	Документация fine-tuning/model optimization указывает, что fine-tuning platform сворачивается и недоступна новым пользователям.
Hugging Face	Локальный/open-source путь остаётся учебно полезным: Trainer, PEFT, LoRA, adapters, но требует ресурсов и MLOps-дисциплины.

6. «Запустили модель» → продуктовая эксплуатация

AI-приложение нужно обслуживать: логи, мониторинг качества, latency, стоимость токенов/GPU, обновления моделей, rollback, privacy review, human review для high-stakes решений и red-team перед запуском.

⚖️ Старый vs Новый: fine-tuning в 2026

⚡ Главное отличие

1. Fine-tuning для знаний → RAG для знаний

2. Full fine-tuning → PEFT/LoRA

3. Хардкод токенов → secret management

4. Один train split → train/test/evals

5. Cloud tuning API «как в туториале» → проверка актуальности

6. «Запустили модель» → продуктовая эксплуатация