🏠 Домашнее задание

← К оглавлению урока

⚡ Что сдать

  • Выбранный или созданный датасет для fine-tuning.
  • Очистка данных и train/test split.
  • Fine-tuning или воспроизводимый план обучения.
  • Оценка качества на тестовых данных.

Оригинальное ДЗ из LMS

Выберите датасет. Найдите или создайте небольшой датасет для fine-tuning (например, классификация текстов, генерация ответов в специфической нише).

Подготовьте данные. Очистите текст от шума (например, удалите дубликаты, исправьте ошибки). Разбейте данные на обучающую и тестовую выборки.

Fine-tune модель. Проведите обучение и оцените результат.

Оцените качество модели. Протестируйте модель на тестовых данных.

Рекомендуемая структура сдачи

# homework_10.md
## 1. Задача
- Что должна делать модель:
- Почему выбран fine-tuning:
- Почему prompt/RAG недостаточны:

## 2. Датасет
- Источник:
- Размер:
- Поля:
- Примеры строк:
- Лицензия/приватность:

## 3. Очистка
- Что удалено:
- Как обработаны дубликаты:
- Как обработаны ошибки:

## 4. Split
- Train:
- Test:
- Seed:

## 5. Обучение
- Модель:
- Метод: LoRA/PEFT или другой:
- Основные параметры:
- Где запускалось:

## 6. Оценка
| Тест | Baseline | Fine-tuned | Комментарий |
|---|---:|---:|---|

## 7. Вывод
- Улучшение есть/нет:
- Что бы улучшили дальше:
- Риски production:

Если нет GPU

Можно сдать воспроизводимый план и маленький локальный dry-run: подготовить датасет, split, токенизацию и конфиг обучения, но явно написать, что полноценное обучение требует GPU. Главное — показать корректный процесс и оценку.

Критерии хорошей работы

  • Задача подходит для fine-tuning, а не просто для RAG.
  • Данные очищены и приведены к единому формату.
  • Есть отдельный test set.
  • Есть baseline и таблица сравнения.
  • Указаны privacy/safety ограничения.