1. Путать архитектуру и модель
Трансформер — это архитектура. GPT, BERT, Gemini — конкретные модели, построенные на ней. Не все нейросети для текста — трансформеры (RNN/CNN — другие архитектуры).
2. Считать, что attention — это «про перевод»
Внимание — общий механизм взвешивания важности; применяется в тексте, изображениях (ViT), звуке, рекомендациях.
3. Игнорировать позиции
Раз трансформер обрабатывает слова параллельно, без позиционных эмбеддингов «кот ест рыбу» и «рыба ест кота» были бы для него одинаковы. Порядок задают именно позиционные метки.
4. Думать, что RNN «устарели и бесполезны»
RNN/LSTM всё ещё используются (короткие последовательности, ограниченные ресурсы, временные ряды). Трансформеры доминируют, но не «отменяют» всё остальное.
5. Ожидать «понимания» от n-грамм
Статистические модели не понимают смысл — лишь считают частоты. Не путайте предсказание следующего слова с пониманием.