🔗 Ресурсы

← К оглавлению урока

⚡ Главное

  • OpenAI Whisper — локальная модель Speech-to-Text.
  • OpenAI Speech-to-Text API — облачная транскрибация.
  • Hugging Face Inference Providers — text-to-image и другие мультимодальные задачи.
⚠️ Аудио, видео и inference API быстро меняются: перед рабочим проектом проверяйте версии библиотек, модели, форматы, лимиты и стоимость в официальной документации.

Whisper и Speech-to-Text

Мультимодальные pipeline

Дальше по курсу