Ресурсы — Урок 08

⚠️ Аудио, видео и inference API быстро меняются: перед рабочим проектом проверяйте версии библиотек, модели, форматы, лимиты и стоимость в официальной документации.

Whisper и Speech-to-Text

OpenAI Whisper — официальный репозиторий
OpenAI: Introducing Whisper
OpenAI API: Speech to text
FFmpeg — инструмент для аудио/видео

Мультимодальные pipeline

OpenAI CLIP — связь текста и изображения
Hugging Face: Text to Image
Hugging Face Inference Providers
LangChain Runnable

Дальше по курсу

→ Урок 09: RAG — Retrieval-Augmented Generation
← Урок 07: изображения, CLIP и text-to-image
← Урок 05: LangChain и цепочки

🔗 Ресурсы

⚡ Главное

Whisper и Speech-to-Text

Мультимодальные pipeline

Дальше по курсу