🏠 Домашнее задание

← К оглавлению урока

⚡ Что сдать

  • 2-3 эксперимента с Whisper на разных аудиоисточниках.
  • Короткий отчёт о качестве транскрипции и ошибках.
  • Идею мультимодального AI-приложения: задача, модальности, pipeline.

Оригинальное ДЗ из LMS

Поэкспериментируйте самостоятельно с Whisper — попробуйте распознавать речь из разных аудиоисточников.

Подумайте о своих идеях для мультимодальных AI-приложений — какие задачи можно решить, комбинируя разные модальности? Поделитесь своими идеями.

Подготовка проекта

# Терминал (Windows PowerShell)
python -m venv venv
venv\Scripts\Activate.ps1
pip install torch openai-whisper sounddevice soundfile python-dotenv
pip freeze > requirements.txt
ffmpeg -version

Рекомендуемая структура сдачи

ai-lesson-08/
├── .gitignore
├── requirements.txt
├── whisper_local.py
├── audio/
│   ├── clean_ru.wav
│   ├── noise_ru.wav
│   └── fast_en.wav
├── transcripts/
│   ├── clean_ru.txt
│   ├── noise_ru.txt
│   └── fast_en.txt
└── report.md

Что написать в report.md

  1. Аудиоисточники: как записаны, длительность, язык, условия.
  2. Модель: размер Whisper, локально или API.
  3. Результаты: где транскрипт точный, где ошибки.
  4. Выводы: как влияет шум, язык, скорость речи и качество микрофона.
  5. Идея приложения: какие модальности, какие модели, какой pipeline.

Пример идеи приложения

Ассистент для вебинаров.

  • Модальности: видео, аудио, текстовые слайды.
  • Pipeline: извлечь аудио → транскрибировать → выделить темы → связать с таймкодами → сделать поиск по записи.
  • Польза: студент быстро находит момент, где объясняли нужную тему.

Критерии самопроверки

  • Есть минимум 2 аудиоисточника или 2 разных условия записи.
  • Есть транскрипты и короткий анализ ошибок.
  • В идее приложения есть минимум две модальности.
  • Pipeline описан как последовательность конкретных шагов, а не как «AI всё обработает».