Overfitting & Regularization - Dropout, Batch Norm, Early Stopping
ב-2016 פרסמה קבוצת חוקרים מ-MIT ו-Google Brain מאמר עם כותרת מת挑גרת: ״Understanding Deep Learning Requires Rethinking Generalization״. הם לקחו ResNet ואימנו אותה על CIFAR-10 - אבל עם labels שערבבו אקראית. הקובץ הראשון: חתול קיבל label ״ספינה״. הקובץ השני: מטוס קיבל label ״כלב״. אפס מתאם בין תמונה לlabel. 50,000 patterns של רעש טהור. הרשת השיגה 0% training error. היא שיננה 50,000 זוגות אקראיים מושלמת. זה overfitting הכי טהור שיש - מודל שלומד training data במקום לגלות pattern.
דוגמאות עם labels אקראיים ש-ResNet שיננה ל-0% training error - מבחן Zhang 2016