Теория — Урок 07

Что такое мультимодальность

Мультимодальность — способность AI воспринимать и обрабатывать информацию из разных модальностей одновременно. В лекции это объясняется на примере кошки: текстовое определение полезно, но картинка и звук мяуканья дают системе более полное представление.

Модальность	Примеры
Текст	Слова, предложения, абзацы, инструкции, промпты.
Изображения	Фотографии, рисунки, скриншоты, медицинские снимки, карточки товаров.
Звук	Речь, музыка, окружающий шум, звуки животных.
Видео	Последовательность кадров + движение + часто звук.
Другое	3D-модели, сенсорные данные, данные устройств.

Почему это важно

Контекст богаче: разные модальности дополняют друг друга.
Решения точнее: информация из изображения может подтвердить или уточнить текст.
AI становится естественнее: люди тоже воспринимают мир не только через текст.
Появляются новые приложения: визуальный поиск, генерация дизайна, ассистенты для документов со схемами, e-commerce, модерация контента.

Почему текст и изображения

В этом уроке мы берём пару текст + изображение, потому что она наглядная, хорошо изученная и уже имеет много практических применений. Изображение показывает объект или сцену, а текст даёт смысл, описание, стиль или условие.

Две задачи урока. CLIP решает задачу понимания связи «текст ↔ изображение». Stable Diffusion решает задачу генерации «текст → изображение».

CLIP: соединяем текст и изображение

CLIP (Contrastive Language-Image Pre-training) — модель OpenAI, обученная на парах «изображение + текст». Она понимает, насколько текст соответствует изображению, и может выбирать наиболее релевантное описание для картинки или картинку для описания.

Часть CLIP	Что делает
Text Encoder	Преобразует текстовое описание в вектор.
Image Encoder	Преобразует изображение в вектор.
Сравнение векторов	Если векторы близки, текст и изображение считаются релевантными.

Это похоже на эмбеддинги из урока 04, только теперь в одном пространстве сравниваются разные модальности: текст и картинка.

Для чего используется CLIP

Поиск изображений по текстовому запросу: «кот в шляпе», «закат у озера», «красный автомобиль».
Zero-shot классификация: дать список текстовых меток и выбрать, какая лучше подходит к картинке.
Проверка релевантности: соответствует ли изображение описанию в посте или карточке товара.

⚠️ CLIP не даёт «истину», а сравнивает варианты. Если список текстовых меток плохой или слишком узкий, модель выберет лучший вариант из плохих. В задачах качества это важно проверять вручную.

Stable Diffusion: текст → изображение

Stable Diffusion — семейство text-to-image моделей, которые генерируют изображение по текстовому описанию. В лекции подчёркнуто: модель открытая, популярная, поддерживает разные стили и имеет большое сообщество.

Промпт: пользователь описывает, что хочет увидеть.
Диффузионная модель: начинает с случайного шума и постепенно убирает шум, ориентируясь на текст.
Результат: изображение, которое должно соответствовать промпту.

Что влияет на результат

Содержание: объект, сцена, действия, окружение.
Стиль: realistic photo, watercolor, anime, 3D render, fantasy art.
Композиция: close-up, wide shot, top view, centered object.
Качество/детали: lighting, sharp focus, high detail, studio photo.
Negative prompt: что нужно исключить: blurry, distorted, bad quality.

Ограничения и ответственность

Скорость: генерация изображений медленнее текстовых ответов и зависит от GPU/API.
Артефакты: руки, текст на изображении, мелкие детали и композиция часто ошибаются.
Случайность: один и тот же промпт может давать разные картинки, если не фиксировать seed.
Этика и безопасность: не генерируйте вредный контент, не выдавайте синтетику за реальность, учитывайте права на изображения и стиль.

📖 Теория: мультимодальность, CLIP и Stable Diffusion

⚡ Суть

Что такое мультимодальность

Почему это важно

Почему текст и изображения

CLIP: соединяем текст и изображение

Для чего используется CLIP

Stable Diffusion: текст → изображение

Что влияет на результат

Ограничения и ответственность