Error Budgets - תקציב שגיאות
בסוף 2022, צוות הbackend של חברת fintech שמכיר ישראלית נתקל בקונפליקט קלאסי. Product רצה לדחוף 3 features חדשים לפני עונת החגים. SRE אמרו "המערכת עדיין לא יציבה מספיק אחרי ה-migration של ספטמבר". Dev אמרו "העיכוב הזה יעלה לנו revenue." הישיבות נמשכו שבועות, כל צד עם הגיון, ואיש לא עם מספרים.
Error Budget שם קץ לויכוח הזה. לא בגלל שהוא מכריע מי צודק - אלא בגלל שהוא הופך את השאלה לאובייקטיבית: כמה budget נשאר? זה המספר שמנחה את ההחלטה.
הסיפור הזה חוזר בעשרות חברות שעברתי עליהן. ה-pattern תמיד זהה: ויכוח ערכי שלא מסתיים, עד שמישהו מביא מספרים לחדר. "יש לנו 8 דקות error budget לחודש הזה. ה-migration של ספטמבר שרף 31 דקות - כלומר אנחנו כבר חרגנו. כל deployment עכשיו מגדיל את החריגה." פתאום אין ויכוח. יש עובדה.
ב-Google, הסיפור ידוע: ב-2015, צוות ה-Search Infrastructure רצה לעשות migration גדול ל-storage system. ה-SRE team חישבה שה-migration ישרוף בין 60% ל-80% מה-error budget של הרבעון. PM אמר שזה שווה את זה. SRE team אמרה: "אם זה עולה 80% מהbudget הרבעוני, אין לנו capacity לincidents אחרים בתקופה הזו. אנחנו צריכים להחליט האם אנחנו מוכנים לסיכון הזה." זה לא ויכוח על "אתה לא מאמין ב-progress" - זה conversation על risk allocation מדויק.