📖 Теория: мультимодальность, CLIP и Stable Diffusion

← К оглавлению урока

⚡ Суть

  • Мультимодальная модель работает с несколькими типами данных: текст, изображения, звук, видео, 3D/сенсоры.
  • CLIP сопоставляет текст и картинку через векторы: текстовый энкодер + визуальный энкодер + сравнение близости.
  • Stable Diffusion делает обратную задачу: по тексту генерирует изображение, постепенно убирая шум.
  • Практика урока: проверить пары «текст-изображение», найти неожиданные ошибки CLIP и сгенерировать изображения по промптам.

Что такое мультимодальность

Мультимодальность — способность AI воспринимать и обрабатывать информацию из разных модальностей одновременно. В лекции это объясняется на примере кошки: текстовое определение полезно, но картинка и звук мяуканья дают системе более полное представление.

МодальностьПримеры
ТекстСлова, предложения, абзацы, инструкции, промпты.
ИзображенияФотографии, рисунки, скриншоты, медицинские снимки, карточки товаров.
ЗвукРечь, музыка, окружающий шум, звуки животных.
ВидеоПоследовательность кадров + движение + часто звук.
Другое3D-модели, сенсорные данные, данные устройств.

Почему это важно

  • Контекст богаче: разные модальности дополняют друг друга.
  • Решения точнее: информация из изображения может подтвердить или уточнить текст.
  • AI становится естественнее: люди тоже воспринимают мир не только через текст.
  • Появляются новые приложения: визуальный поиск, генерация дизайна, ассистенты для документов со схемами, e-commerce, модерация контента.

Почему текст и изображения

В этом уроке мы берём пару текст + изображение, потому что она наглядная, хорошо изученная и уже имеет много практических применений. Изображение показывает объект или сцену, а текст даёт смысл, описание, стиль или условие.

Две задачи урока. CLIP решает задачу понимания связи «текст ↔ изображение». Stable Diffusion решает задачу генерации «текст → изображение».

CLIP: соединяем текст и изображение

CLIP (Contrastive Language-Image Pre-training) — модель OpenAI, обученная на парах «изображение + текст». Она понимает, насколько текст соответствует изображению, и может выбирать наиболее релевантное описание для картинки или картинку для описания.

Часть CLIPЧто делает
Text EncoderПреобразует текстовое описание в вектор.
Image EncoderПреобразует изображение в вектор.
Сравнение векторовЕсли векторы близки, текст и изображение считаются релевантными.

Это похоже на эмбеддинги из урока 04, только теперь в одном пространстве сравниваются разные модальности: текст и картинка.

Для чего используется CLIP

  • Поиск изображений по текстовому запросу: «кот в шляпе», «закат у озера», «красный автомобиль».
  • Zero-shot классификация: дать список текстовых меток и выбрать, какая лучше подходит к картинке.
  • Проверка релевантности: соответствует ли изображение описанию в посте или карточке товара.
⚠️ CLIP не даёт «истину», а сравнивает варианты. Если список текстовых меток плохой или слишком узкий, модель выберет лучший вариант из плохих. В задачах качества это важно проверять вручную.

Stable Diffusion: текст → изображение

Stable Diffusion — семейство text-to-image моделей, которые генерируют изображение по текстовому описанию. В лекции подчёркнуто: модель открытая, популярная, поддерживает разные стили и имеет большое сообщество.

  1. Промпт: пользователь описывает, что хочет увидеть.
  2. Диффузионная модель: начинает с случайного шума и постепенно убирает шум, ориентируясь на текст.
  3. Результат: изображение, которое должно соответствовать промпту.

Что влияет на результат

  • Содержание: объект, сцена, действия, окружение.
  • Стиль: realistic photo, watercolor, anime, 3D render, fantasy art.
  • Композиция: close-up, wide shot, top view, centered object.
  • Качество/детали: lighting, sharp focus, high detail, studio photo.
  • Negative prompt: что нужно исключить: blurry, distorted, bad quality.

Ограничения и ответственность

  • Скорость: генерация изображений медленнее текстовых ответов и зависит от GPU/API.
  • Артефакты: руки, текст на изображении, мелкие детали и композиция часто ошибаются.
  • Случайность: один и тот же промпт может давать разные картинки, если не фиксировать seed.
  • Этика и безопасность: не генерируйте вредный контент, не выдавайте синтетику за реальность, учитывайте права на изображения и стиль.