🐛 Частые ошибки

← К оглавлению урока

⚡ Топ-3 ошибки

  • Не установлен или не виден в PATH ffmpeg.
  • Плохой аудиофайл: слишком тихо, шумно, обрезано, несколько голосов одновременно.
  • CLIP-оценку считают абсолютной истиной, хотя она зависит от выбранных меток.

1. Whisper не находит ffmpeg

Симптомы: ошибка при чтении файла, пустой результат или сообщение про ffmpeg. Проверьте установку:

ffmpeg -version

После установки перезапустите терминал или IDE, чтобы обновился PATH.

2. Слишком тяжёлая модель

large может работать очень медленно на CPU. Для учебного старта берите base, а затем сравнивайте с small на коротких файлах.

3. Не указан язык

Whisper умеет определять язык, но на коротких или шумных записях полезно передать language="ru" или language="en". Это снижает часть ошибок.

4. Путаются временные файлы

Если скрипт записывает микрофон во временный WAV и сразу удаляет его, отладка становится сложнее. На этапе разработки сохраняйте аудио и транскрипт явно.

5. Секреты в коде

Не пишите HF_TOKEN или OPENAI_API_KEY прямо в Python-файле. Используйте .env, а сам файл добавьте в .gitignore.

6. Слишком общий голосовой промпт

Если пользователь сказал «сделай красивую картинку», text-to-image модель получит слабый промпт. После транскрипции можно добавить LLM-шаг, который превращает короткий запрос в подробный промпт.

7. Плохой набор CLIP-меток

CLIP выбирает лучший вариант из предложенных. Если все метки плохие, лучшая метка всё равно может выглядеть уверенно. Добавляйте точные, близкие и явно неправильные варианты.

8. Ожидание «готового AI для любого видео»

Видео-задачу нужно сужать: искать сцены, делать summary, распознавать действие или отслеживать объект. Чем точнее задача, тем проще выбрать модель и метрику качества.