✅ Решения

← К оглавлению урока

⚡ Кратко

CLIP сравнивает текстовые и визуальные векторы; Stable Diffusion генерирует изображение из шума по промпту. В отчёте важны не только картинки, но и вывод: где модель сработала, где ошиблась и как промпт повлиял на результат.

Часть 1. Ответы

  1. Мультимодальность — работа с несколькими типами данных одновременно. Примеры: текст, изображения, звук, видео, 3D-модели, сенсорные данные.
  2. Текст + изображения удобны, потому что картинки наглядны, в интернете много пар «изображение-описание», а применений много: поиск, классификация, дизайн, e-commerce.
  3. CLIP имеет текстовый энкодер и визуальный энкодер. Первый превращает описание в вектор, второй — картинку в вектор.
  4. Для zero-shot классификации мы даём CLIP список текстовых меток. Модель сравнивает картинку с каждой меткой и выбирает наиболее близкую.
  5. Stable Diffusion: пользователь вводит промпт → модель постепенно убирает шум, ориентируясь на текст → выдаёт изображение.
  6. Negative prompt описывает нежелательные признаки: blurry, bad quality, distorted. Он помогает снизить артефакты, но не гарантирует идеальный результат.

Часть 2. Эталон CLIP-эксперимента

# report_clip.py
text_queries = [
    "a golden retriever dog",
    "a warm sunset over water",
    "a red sports car",
    "a blurry indoor photo",
]

# После запуска сохраните таблицу:
# query | image_1_score | image_2_score | image_3_score | comment

Пример вывода: если картинка с закатом получает высокий score для «a warm sunset over water», это ожидаемо. Если картинка с собакой получает высокий score для «a blurry indoor photo», проверьте качество изображения и список альтернатив: возможно, среди меток нет хорошего описания.

Часть 3. Таблица промптов для Stable Diffusion

УровеньПромптЧто проверяем
ПростойA cat sitting on a wooden chairПонимание объекта и сцены.
СреднийA futuristic city at night, neon lights, rainy street, cinematic photoСтиль, освещение, атмосфера.
СложныйA small robot teaching Python to students in a cozy classroom, watercolor illustration, warm light, detailed backgroundНесколько объектов, действие, стиль, детали.

Улучшение промпта можно делать по слоям: объект → сцена → стиль → композиция → свет → качество → negative prompt.

Часть 4. Пример отчёта

Промпт: A futuristic city with flying cars and neon lights, cinematic concept art

Что получилось: город и неон распознаны хорошо, но автомобили похожи на абстрактные формы.

Как улучшил: добавил wide shot, detailed cars, sharp focus, rainy street и negative prompt blurry, distorted, extra wheels.

Вывод: модель хорошо работает со стилем и атмосферой, но сложные мелкие объекты требуют уточнения.