📝 Задания

← К оглавлению урока

⚡ Что сделать

  • Ответить на вопросы про мультимодальность, CLIP и Stable Diffusion.
  • Провести CLIP-эксперимент с 2-3 изображениями и 4-6 текстовыми запросами.
  • Сгенерировать минимум 3 изображения по промптам разной сложности.

Часть 1. Проверка понимания

  1. Что такое мультимодальность? Назовите минимум 4 модальности из лекции.
  2. Почему текст и изображения — удобная пара для первого мультимодального урока?
  3. Какие две части есть у CLIP и что каждая делает?
  4. Почему CLIP можно использовать для zero-shot классификации?
  5. Опишите процесс Stable Diffusion в 3 шага: промпт → модель → результат.
  6. Что такое negative prompt и зачем он нужен?

Часть 2. Эксперимент с CLIP

  1. Возьмите готовый код из examples.html.
  2. Подберите 2-3 изображения: например, животное, пейзаж, объект/техника.
  3. Подберите 4-6 текстовых описаний: точные, близкие по смыслу и явно неправильные.
  4. Запустите код и сохраните таблицу результатов.
  5. Найдите хотя бы один случай, где CLIP ошибается или даёт неожиданный результат. Объясните, почему так могло случиться.

Часть 3. Stable Diffusion / text-to-image

  1. Создайте 3 промпта разной сложности и тематики.
  2. Для каждого промпта сгенерируйте изображение.
  3. Измените один промпт 2-3 раза, чтобы улучшить результат: добавьте стиль, композицию, освещение, negative prompt.
  4. Оцените качество: соответствие промпту, детализация, артефакты, стиль.

Часть 4. Со звёздочкой

  1. Сделайте мини-поиск: сгенерируйте изображение, затем проверьте его через CLIP с несколькими описаниями. Совпадает ли CLIP-оценка с вашим промптом?
  2. Сравните два набора меток CLIP: короткие (dog, cat) и описательные (a golden retriever dog outdoors). Как меняются вероятности?