📝 Задания

← К оглавлению урока

⚡ Что сделать

Записать или взять короткое аудио и получить транскрипт Whisper.
Сравнить 2-3 аудиоусловия: качество, шум, язык, скорость речи.
Спроектировать мультимодальное приложение, где есть минимум две модальности.

Часть 1. Проверка понимания

Что означает Speech-to-Text и какую роль здесь играет Whisper?
Зачем локальному Whisper нужен ffmpeg?
Почему видео сложнее изображения для AI-моделей?
Назовите 4 задачи анализа видео из урока.
Что такое мультимодальный pipeline?
Почему промежуточные результаты pipeline нужно сохранять?

Часть 2. Эксперимент с Whisper

Запишите 10-20 секунд речи или возьмите короткий аудиофайл.
Запустите whisper_local.py из примеров.
Повторите эксперимент ещё 2 раза: другой язык, шумный фон или другая скорость речи.
Составьте таблицу: файл, язык, условия записи, модель, качество результата, ошибки.
Сделайте вывод: где модель справилась хорошо, а где ошиблась.

Часть 3. Видео-задача

Выберите один сценарий: лекция, вебинар, инструктаж, запись экрана, производственный ролик.
Опишите, какие модальности есть: кадры, речь, текст на экране, субтитры.
Выберите задачу: классификация, поиск моментов, summary, детекция объектов или сегментация сцен.
Опишите pipeline из 3-5 шагов.

Часть 4. Со звёздочкой

Извлеките аудио из короткого видео через ffmpeg и сделайте транскрипт.
Сгенерируйте изображение по голосовому промпту и проверьте его CLIP-метками.
Запишите, какая ошибка сильнее влияет на результат: ошибка транскрипции или слишком общий промпт.