Домашнее задание — Урок 08

Оригинальное ДЗ из LMS

Поэкспериментируйте самостоятельно с Whisper — попробуйте распознавать речь из разных аудиоисточников.

Подумайте о своих идеях для мультимодальных AI-приложений — какие задачи можно решить, комбинируя разные модальности? Поделитесь своими идеями.

Подготовка проекта

# Терминал (Windows PowerShell)
python -m venv venv
venv\Scripts\Activate.ps1
pip install torch openai-whisper sounddevice soundfile python-dotenv
pip freeze > requirements.txt
ffmpeg -version

Что написать в `report.md`

Аудиоисточники: как записаны, длительность, язык, условия.
Модель: размер Whisper, локально или API.
Результаты: где транскрипт точный, где ошибки.
Выводы: как влияет шум, язык, скорость речи и качество микрофона.
Идея приложения: какие модальности, какие модели, какой pipeline.

Пример идеи приложения

Ассистент для вебинаров.

Модальности: видео, аудио, текстовые слайды.
Pipeline: извлечь аудио → транскрибировать → выделить темы → связать с таймкодами → сделать поиск по записи.
Польза: студент быстро находит момент, где объясняли нужную тему.

Критерии самопроверки

Есть минимум 2 аудиоисточника или 2 разных условия записи.
Есть транскрипты и короткий анализ ошибок.
В идее приложения есть минимум две модальности.
Pipeline описан как последовательность конкретных шагов, а не как «AI всё обработает».

🏠 Домашнее задание

⚡ Что сдать

Оригинальное ДЗ из LMS

Подготовка проекта

Рекомендуемая структура сдачи

Что написать в `report.md`

Пример идеи приложения

Критерии самопроверки

⚡ Что сдать

Оригинальное ДЗ из LMS

Подготовка проекта

Рекомендуемая структура сдачи

Что написать в report.md

Пример идеи приложения

Критерии самопроверки

Что написать в `report.md`