Урок 07. Введение в мультимодальные модели и работа с изображениями

📁 Блок: Мультимодальность/RAG/Fine-tuning ⏱️ Время изучения: ~75 мин 🎯 Сложность: Средняя
#multimodal #vision #images #llm

⚡ Кратко: мультимодальность и изображения

Мультимодальность — способность AI работать не только с текстом, но и с изображениями, звуком, видео и другими типами данных. В этом уроке фокус на паре текст + изображение.

  • CLIP связывает текст и изображения: кодирует текст и картинку в векторы и сравнивает их близость.
  • CLIP полезен для поиска изображений по тексту, zero-shot классификации и проверки релевантности картинки описанию.
  • Stable Diffusion генерирует изображение по текстовому промпту: начинает с шума и постепенно «проявляет» картинку.
  • Промпт влияет на стиль, детали и качество результата; negative prompt помогает указать, чего избегать.
  • Результаты мультимодальных моделей нужно проверять: CLIP может ошибаться, а генерация может давать артефакты.
# clip_demo.py — CLIP сравнивает текст и изображения
import clip
import torch

device = "cuda" if torch.cuda.is_available() else "cpu"
model, preprocess = clip.load("ViT-B/32", device=device)

texts = clip.tokenize(["a dog", "a sunset", "a car"]).to(device)
# image_input = preprocess(image).unsqueeze(0).to(device)

# CLIP превращает текст и картинку в векторы, затем сравнивает их близость

📖 О чём этот урок

До этого курса мы в основном работали с текстом: промпты, токены, API LLM, эмбеддинги, LangChain и агенты. Теперь переходим к мультимодальным моделям — системам, которые умеют связывать несколько типов данных. Первый практический случай — текст и изображения.

Идея урока. Если обычная LLM отвечает текстом на текст, то мультимодальная система может сопоставить описание с картинкой или создать картинку по описанию. Это открывает задачи поиска, классификации, модерации, дизайна, e-commerce и прототипирования.

Что изучим

  • Что такое мультимодальность и какие модальности бывают: текст, изображения, звук, видео, 3D/сенсоры
  • Почему текст + изображения — важная и наглядная пара модальностей
  • Как CLIP связывает текст и изображение через два энкодера и общие векторные представления
  • Как использовать CLIP для сходства текст-изображение и zero-shot классификации
  • Как Stable Diffusion генерирует изображения из текстового промпта
  • Как писать промпты, negative prompts и оценивать качество результата
  • Ограничения: ошибки CLIP, артефакты генерации, скорость, токены/лимиты, безопасность и авторские права

📚 Что повторить перед изучением

🎯 Что изучать дальше