⚠️ Аудио, видео и inference API быстро меняются: перед рабочим проектом проверяйте версии библиотек, модели, форматы, лимиты и стоимость в официальной документации.
Whisper и Speech-to-Text
- OpenAI Whisper — официальный репозиторий
- OpenAI: Introducing Whisper
- OpenAI API: Speech to text
- FFmpeg — инструмент для аудио/видео
Мультимодальные pipeline
- OpenAI CLIP — связь текста и изображения
- Hugging Face: Text to Image
- Hugging Face Inference Providers
- LangChain Runnable