⚡ Что сделать
- Ответить на вопросы про мультимодальность, CLIP и Stable Diffusion.
- Провести CLIP-эксперимент с 2-3 изображениями и 4-6 текстовыми запросами.
- Сгенерировать минимум 3 изображения по промптам разной сложности.
Часть 1. Проверка понимания
- Что такое мультимодальность? Назовите минимум 4 модальности из лекции.
- Почему текст и изображения — удобная пара для первого мультимодального урока?
- Какие две части есть у CLIP и что каждая делает?
- Почему CLIP можно использовать для zero-shot классификации?
- Опишите процесс Stable Diffusion в 3 шага: промпт → модель → результат.
- Что такое negative prompt и зачем он нужен?
Часть 2. Эксперимент с CLIP
- Возьмите готовый код из examples.html.
- Подберите 2-3 изображения: например, животное, пейзаж, объект/техника.
- Подберите 4-6 текстовых описаний: точные, близкие по смыслу и явно неправильные.
- Запустите код и сохраните таблицу результатов.
- Найдите хотя бы один случай, где CLIP ошибается или даёт неожиданный результат. Объясните, почему так могло случиться.
Часть 3. Stable Diffusion / text-to-image
- Создайте 3 промпта разной сложности и тематики.
- Для каждого промпта сгенерируйте изображение.
- Измените один промпт 2-3 раза, чтобы улучшить результат: добавьте стиль, композицию, освещение, negative prompt.
- Оцените качество: соответствие промпту, детализация, артефакты, стиль.
Часть 4. Со звёздочкой
- Сделайте мини-поиск: сгенерируйте изображение, затем проверьте его через CLIP с несколькими описаниями. Совпадает ли CLIP-оценка с вашим промптом?
- Сравните два набора меток CLIP: короткие (
dog, cat) и описательные (a golden retriever dog outdoors). Как меняются вероятности?