ב-2016, AlphaGo של DeepMind ניצח את Lee Sedol - הגרנד-מאסטר הטוב בעולם ב-Go - ב-4 מתוך 5 משחקים. המהלך 37 במשחק השני הפך לאיקון: מהלך שאף שחקן אנושי לא היה שוקל, אבל היום הוא מודגם בספרי לימוד. AlphaGo למד לשחק על ידי gradient descent על מיליוני מצבי משחק. אותו אלגוריתם ש-Hinton פרסם ב-1986. ההבדל: 30 שנה של compute וסקייל. הבנת backpropagation היא הבנה איך כל רשת נוירונים שקיימת לומדת.
פרמטרים ב-GPT-4 - 1.76 טריליון weights שלומדים יחד
GPT-4 לא נבנה במקרה. כל אחד מ-1.76 טריליון הפרמטרים שלו עודכן מיליוני פעמים על ידי אותו loop של ארבעה שלבים. בלי backprop, אין Deep Learning, אין ChatGPT, אין AlphaGo. השיעור הזה מסביר איך זה עובד - מהאינטואיציה עד הקוד.