📝 Задания

← К оглавлению урока

⚡ Что сделать

Ответить на вопросы про мультимодальность, CLIP и Stable Diffusion.
Провести CLIP-эксперимент с 2-3 изображениями и 4-6 текстовыми запросами.
Сгенерировать минимум 3 изображения по промптам разной сложности.

Часть 1. Проверка понимания

Что такое мультимодальность? Назовите минимум 4 модальности из лекции.
Почему текст и изображения — удобная пара для первого мультимодального урока?
Какие две части есть у CLIP и что каждая делает?
Почему CLIP можно использовать для zero-shot классификации?
Опишите процесс Stable Diffusion в 3 шага: промпт → модель → результат.
Что такое negative prompt и зачем он нужен?

Часть 2. Эксперимент с CLIP

Возьмите готовый код из examples.html.
Подберите 2-3 изображения: например, животное, пейзаж, объект/техника.
Подберите 4-6 текстовых описаний: точные, близкие по смыслу и явно неправильные.
Запустите код и сохраните таблицу результатов.
Найдите хотя бы один случай, где CLIP ошибается или даёт неожиданный результат. Объясните, почему так могло случиться.

Часть 3. Stable Diffusion / text-to-image

Создайте 3 промпта разной сложности и тематики.
Для каждого промпта сгенерируйте изображение.
Измените один промпт 2-3 раза, чтобы улучшить результат: добавьте стиль, композицию, освещение, negative prompt.
Оцените качество: соответствие промпту, детализация, артефакты, стиль.

Часть 4. Со звёздочкой

Сделайте мини-поиск: сгенерируйте изображение, затем проверьте его через CLIP с несколькими описаниями. Совпадает ли CLIP-оценка с вашим промптом?
Сравните два набора меток CLIP: короткие (dog, cat) и описательные (a golden retriever dog outdoors). Как меняются вероятности?