📝 Задания

← К оглавлению урока

⚡ Что сделать

  • Записать или взять короткое аудио и получить транскрипт Whisper.
  • Сравнить 2-3 аудиоусловия: качество, шум, язык, скорость речи.
  • Спроектировать мультимодальное приложение, где есть минимум две модальности.

Часть 1. Проверка понимания

  1. Что означает Speech-to-Text и какую роль здесь играет Whisper?
  2. Зачем локальному Whisper нужен ffmpeg?
  3. Почему видео сложнее изображения для AI-моделей?
  4. Назовите 4 задачи анализа видео из урока.
  5. Что такое мультимодальный pipeline?
  6. Почему промежуточные результаты pipeline нужно сохранять?

Часть 2. Эксперимент с Whisper

  1. Запишите 10-20 секунд речи или возьмите короткий аудиофайл.
  2. Запустите whisper_local.py из примеров.
  3. Повторите эксперимент ещё 2 раза: другой язык, шумный фон или другая скорость речи.
  4. Составьте таблицу: файл, язык, условия записи, модель, качество результата, ошибки.
  5. Сделайте вывод: где модель справилась хорошо, а где ошиблась.

Часть 3. Видео-задача

  1. Выберите один сценарий: лекция, вебинар, инструктаж, запись экрана, производственный ролик.
  2. Опишите, какие модальности есть: кадры, речь, текст на экране, субтитры.
  3. Выберите задачу: классификация, поиск моментов, summary, детекция объектов или сегментация сцен.
  4. Опишите pipeline из 3-5 шагов.

Часть 4. Со звёздочкой

  1. Извлеките аудио из короткого видео через ffmpeg и сделайте транскрипт.
  2. Сгенерируйте изображение по голосовому промпту и проверьте его CLIP-метками.
  3. Запишите, какая ошибка сильнее влияет на результат: ошибка транскрипции или слишком общий промпт.