Что такое мультимодальность
Мультимодальность — способность AI воспринимать и обрабатывать информацию из разных модальностей одновременно. В лекции это объясняется на примере кошки: текстовое определение полезно, но картинка и звук мяуканья дают системе более полное представление.
| Модальность | Примеры |
|---|---|
| Текст | Слова, предложения, абзацы, инструкции, промпты. |
| Изображения | Фотографии, рисунки, скриншоты, медицинские снимки, карточки товаров. |
| Звук | Речь, музыка, окружающий шум, звуки животных. |
| Видео | Последовательность кадров + движение + часто звук. |
| Другое | 3D-модели, сенсорные данные, данные устройств. |
Почему это важно
- Контекст богаче: разные модальности дополняют друг друга.
- Решения точнее: информация из изображения может подтвердить или уточнить текст.
- AI становится естественнее: люди тоже воспринимают мир не только через текст.
- Появляются новые приложения: визуальный поиск, генерация дизайна, ассистенты для документов со схемами, e-commerce, модерация контента.
Почему текст и изображения
В этом уроке мы берём пару текст + изображение, потому что она наглядная, хорошо изученная и уже имеет много практических применений. Изображение показывает объект или сцену, а текст даёт смысл, описание, стиль или условие.
CLIP: соединяем текст и изображение
CLIP (Contrastive Language-Image Pre-training) — модель OpenAI, обученная на парах «изображение + текст». Она понимает, насколько текст соответствует изображению, и может выбирать наиболее релевантное описание для картинки или картинку для описания.
| Часть CLIP | Что делает |
|---|---|
| Text Encoder | Преобразует текстовое описание в вектор. |
| Image Encoder | Преобразует изображение в вектор. |
| Сравнение векторов | Если векторы близки, текст и изображение считаются релевантными. |
Это похоже на эмбеддинги из урока 04, только теперь в одном пространстве сравниваются разные модальности: текст и картинка.
Для чего используется CLIP
- Поиск изображений по текстовому запросу: «кот в шляпе», «закат у озера», «красный автомобиль».
- Zero-shot классификация: дать список текстовых меток и выбрать, какая лучше подходит к картинке.
- Проверка релевантности: соответствует ли изображение описанию в посте или карточке товара.
Stable Diffusion: текст → изображение
Stable Diffusion — семейство text-to-image моделей, которые генерируют изображение по текстовому описанию. В лекции подчёркнуто: модель открытая, популярная, поддерживает разные стили и имеет большое сообщество.
- Промпт: пользователь описывает, что хочет увидеть.
- Диффузионная модель: начинает с случайного шума и постепенно убирает шум, ориентируясь на текст.
- Результат: изображение, которое должно соответствовать промпту.
Что влияет на результат
- Содержание: объект, сцена, действия, окружение.
- Стиль: realistic photo, watercolor, anime, 3D render, fantasy art.
- Композиция: close-up, wide shot, top view, centered object.
- Качество/детали: lighting, sharp focus, high detail, studio photo.
- Negative prompt: что нужно исключить: blurry, distorted, bad quality.
Ограничения и ответственность
- Скорость: генерация изображений медленнее текстовых ответов и зависит от GPU/API.
- Артефакты: руки, текст на изображении, мелкие детали и композиция часто ошибаются.
- Случайность: один и тот же промпт может давать разные картинки, если не фиксировать seed.
- Этика и безопасность: не генерируйте вредный контент, не выдавайте синтетику за реальность, учитывайте права на изображения и стиль.