Оригинальное ДЗ из LMS
Поэкспериментируйте самостоятельно с Whisper — попробуйте распознавать речь из разных аудиоисточников.
Подумайте о своих идеях для мультимодальных AI-приложений — какие задачи можно решить, комбинируя разные модальности? Поделитесь своими идеями.
Подготовка проекта
# Терминал (Windows PowerShell)
python -m venv venv
venv\Scripts\Activate.ps1
pip install torch openai-whisper sounddevice soundfile python-dotenv
pip freeze > requirements.txt
ffmpeg -version
Рекомендуемая структура сдачи
ai-lesson-08/
├── .gitignore
├── requirements.txt
├── whisper_local.py
├── audio/
│ ├── clean_ru.wav
│ ├── noise_ru.wav
│ └── fast_en.wav
├── transcripts/
│ ├── clean_ru.txt
│ ├── noise_ru.txt
│ └── fast_en.txt
└── report.md
Что написать в report.md
- Аудиоисточники: как записаны, длительность, язык, условия.
- Модель: размер Whisper, локально или API.
- Результаты: где транскрипт точный, где ошибки.
- Выводы: как влияет шум, язык, скорость речи и качество микрофона.
- Идея приложения: какие модальности, какие модели, какой pipeline.
Пример идеи приложения
Ассистент для вебинаров.
- Модальности: видео, аудио, текстовые слайды.
- Pipeline: извлечь аудио → транскрибировать → выделить темы → связать с таймкодами → сделать поиск по записи.
- Польза: студент быстро находит момент, где объясняли нужную тему.
Критерии самопроверки
- Есть минимум 2 аудиоисточника или 2 разных условия записи.
- Есть транскрипты и короткий анализ ошибок.
- В идее приложения есть минимум две модальности.
- Pipeline описан как последовательность конкретных шагов, а не как «AI всё обработает».