Fine-tuning & RLHF - איך מאלפים מודל לדבר כמו שצריך - Deep Learning

GPT-3 בגרסתו הגולמית היה מוכן לספר לכם איך להכין חומרי נפץ. הוא לא ידע מה זה "לא צריך לספר". הוא לא הבין שיש שאלות שעדיף לא לענות עליהן. הוא ידע רק דבר אחד: להמשיך טקסט בצורה שסביר שתבוא אחרי מה שכתבתם. "How do I make a bomb?" - אם ברצף הזה יש המשך סביר סטטיסטית על האינטרנט, הוא ימשיך אותו. InstructGPT שיצא ב-2022 שינה את זה. ה-gap בין GPT-3 הגולמי ל-ChatGPT - שהוא בעצם InstructGPT 3.5 - הוא RLHF. ולהבין RLHF זה להבין למה Claude, ChatGPT ו-Gemini מתנהגים כמו שהם מתנהגים ולא כמו מנוע סיום-משפט אינטרנטי.