⚡ Что сделать
- Записать или взять короткое аудио и получить транскрипт Whisper.
- Сравнить 2-3 аудиоусловия: качество, шум, язык, скорость речи.
- Спроектировать мультимодальное приложение, где есть минимум две модальности.
Часть 1. Проверка понимания
- Что означает Speech-to-Text и какую роль здесь играет Whisper?
- Зачем локальному Whisper нужен
ffmpeg?
- Почему видео сложнее изображения для AI-моделей?
- Назовите 4 задачи анализа видео из урока.
- Что такое мультимодальный pipeline?
- Почему промежуточные результаты pipeline нужно сохранять?
Часть 2. Эксперимент с Whisper
- Запишите 10-20 секунд речи или возьмите короткий аудиофайл.
- Запустите
whisper_local.py из примеров.
- Повторите эксперимент ещё 2 раза: другой язык, шумный фон или другая скорость речи.
- Составьте таблицу: файл, язык, условия записи, модель, качество результата, ошибки.
- Сделайте вывод: где модель справилась хорошо, а где ошиблась.
Часть 3. Видео-задача
- Выберите один сценарий: лекция, вебинар, инструктаж, запись экрана, производственный ролик.
- Опишите, какие модальности есть: кадры, речь, текст на экране, субтитры.
- Выберите задачу: классификация, поиск моментов, summary, детекция объектов или сегментация сцен.
- Опишите pipeline из 3-5 шагов.
Часть 4. Со звёздочкой
- Извлеките аудио из короткого видео через
ffmpeg и сделайте транскрипт.
- Сгенерируйте изображение по голосовому промпту и проверьте его CLIP-метками.
- Запишите, какая ошибка сильнее влияет на результат: ошибка транскрипции или слишком общий промпт.