1. Whisper не находит ffmpeg
Симптомы: ошибка при чтении файла, пустой результат или сообщение про ffmpeg. Проверьте установку:
ffmpeg -version
После установки перезапустите терминал или IDE, чтобы обновился PATH.
2. Слишком тяжёлая модель
large может работать очень медленно на CPU. Для учебного старта берите base, а затем сравнивайте с small на коротких файлах.
3. Не указан язык
Whisper умеет определять язык, но на коротких или шумных записях полезно передать language="ru" или language="en". Это снижает часть ошибок.
4. Путаются временные файлы
Если скрипт записывает микрофон во временный WAV и сразу удаляет его, отладка становится сложнее. На этапе разработки сохраняйте аудио и транскрипт явно.
5. Секреты в коде
Не пишите HF_TOKEN или OPENAI_API_KEY прямо в Python-файле. Используйте .env, а сам файл добавьте в .gitignore.
6. Слишком общий голосовой промпт
Если пользователь сказал «сделай красивую картинку», text-to-image модель получит слабый промпт. После транскрипции можно добавить LLM-шаг, который превращает короткий запрос в подробный промпт.
7. Плохой набор CLIP-меток
CLIP выбирает лучший вариант из предложенных. Если все метки плохие, лучшая метка всё равно может выглядеть уверенно. Добавляйте точные, близкие и явно неправильные варианты.
8. Ожидание «готового AI для любого видео»
Видео-задачу нужно сужать: искать сцены, делать summary, распознавать действие или отслеживать объект. Чем точнее задача, тем проще выбрать модель и метрику качества.