Deep Learning בפרודקשן - Inference, Quantization, Serving
עלייה ב-throughput של vLLM PagedAttention לעומת HuggingFace vanilla serving
Meta מגישה PyTorch models ל-3.5 מיליארד משתמשים. בscale הזה, שיפור של 10ms ב-inference latency שווה מיליון דולר ביום בחיסכון בעלות GPU. זה לא גוזמה - זה אריתמטיקה פשוטה: מיליארדי requests ביום, כל request על GPU שעולה כסף. להוציא model לפרודקשן שעובד ב-notebook זה research problem. להגיש אותו ב-1000 requests/second עם P99 latency של פחות מ-100ms ו-99.9% availability - זה engineering problem. ורוב ה-ML engineers מבלים את רוב הזמן שלהם בשני.