Часть 1. Ответы
- Мультимодальность — работа с несколькими типами данных одновременно. Примеры: текст, изображения, звук, видео, 3D-модели, сенсорные данные.
- Текст + изображения удобны, потому что картинки наглядны, в интернете много пар «изображение-описание», а применений много: поиск, классификация, дизайн, e-commerce.
- CLIP имеет текстовый энкодер и визуальный энкодер. Первый превращает описание в вектор, второй — картинку в вектор.
- Для zero-shot классификации мы даём CLIP список текстовых меток. Модель сравнивает картинку с каждой меткой и выбирает наиболее близкую.
- Stable Diffusion: пользователь вводит промпт → модель постепенно убирает шум, ориентируясь на текст → выдаёт изображение.
- Negative prompt описывает нежелательные признаки: blurry, bad quality, distorted. Он помогает снизить артефакты, но не гарантирует идеальный результат.
Часть 2. Эталон CLIP-эксперимента
# report_clip.py
text_queries = [
"a golden retriever dog",
"a warm sunset over water",
"a red sports car",
"a blurry indoor photo",
]
# После запуска сохраните таблицу:
# query | image_1_score | image_2_score | image_3_score | comment
Пример вывода: если картинка с закатом получает высокий score для «a warm sunset over water», это ожидаемо. Если картинка с собакой получает высокий score для «a blurry indoor photo», проверьте качество изображения и список альтернатив: возможно, среди меток нет хорошего описания.
Часть 3. Таблица промптов для Stable Diffusion
| Уровень | Промпт | Что проверяем |
|---|---|---|
| Простой | A cat sitting on a wooden chair | Понимание объекта и сцены. |
| Средний | A futuristic city at night, neon lights, rainy street, cinematic photo | Стиль, освещение, атмосфера. |
| Сложный | A small robot teaching Python to students in a cozy classroom, watercolor illustration, warm light, detailed background | Несколько объектов, действие, стиль, детали. |
Улучшение промпта можно делать по слоям: объект → сцена → стиль → композиция → свет → качество → negative prompt.
Часть 4. Пример отчёта
Промпт: A futuristic city with flying cars and neon lights, cinematic concept art
Что получилось: город и неон распознаны хорошо, но автомобили похожи на абстрактные формы.
Как улучшил: добавил wide shot, detailed cars, sharp focus, rainy street и negative prompt blurry, distorted, extra wheels.
Вывод: модель хорошо работает со стилем и атмосферой, но сложные мелкие объекты требуют уточнения.