Transformers - ארכיטקטורה שמניעה את כל ה-AI המודרני
יוני 2017. שמונה מהנדסים ב-Google Brain ו-Google Translate פרסמו מאמר בשם "Attention Is All You Need". הכותרת לא הייתה ספרותית - היה בה בדיוק מה שהיה בפנים: מודל שמבוסס אך ורק על Attention, ללא RNN, ללא CNN. תרגום מכונה עלה על LSTM בביצועים. אימון היה מהיר פי כמה.
ב-2020, כל מודל state-of-the-art ב-NLP, Computer Vision, ביולוגיה חישובית, וקוד - כולם Transformer. AlphaFold 2 שפתרה קיפול חלבונים: Transformer. GitHub Copilot שכותב קוד: Transformer. DALL-E שמייצר תמונות: Transformer בלב. ב-2026, אין ארכיטקטורה מרכזית אחרת. Transformer הוא הבסיס.
פרמטרים ב-GPT-3 (2020) - Transformer Decoder עם 96 שכבות