מבוא ל-SRE - מה Google המציאו - SRE & Observability

ב-2 באוקטובר 2012, בשעה 22:47 UTC, Heroku נפלה. זמן עד שגילו: 14 דקות. זמן עד שתיקנו: 71 דקות. סה"כ MTTR: 85 דקות. בזמן הזה, 100,000 applications היו מושבתים. ה-postmortem הציבורי שלהם חשף שה-on-call engineers ראו alerts על CPU גבוה ועל connection timeouts - והאמינו שאלה ה-בעיה. הם רדפו אחרי symptom במקום אחרי root cause: שינוי קטן ב-PostgreSQL connection pooling שגרם ל-thundering herd.

Downtime לשנה ב-99.999% reliability - ה-bar שהמציא את ה-SRE

ב-2003, Ben Treynor Sloss ב-Google הוטל לנהל 10,000 servers בלי לגייס 'אנשי Ops'. הוא גייס Software Engineers - וה-SRE נולד.

זה לא היה incident של engineers גרועים. זה היה incident של organization בלי SRE. ב-Google, באותה שנה, services קריטיים החזיקו availability של 99.999% - חמש תשיעיות. שווה ל-5 דקות downtime לשנה. לא לחודש. לשנה. איך עושים את זה? לא עם יותר אנשי Ops. עם גישה אחרת לחלוטין.

Downtime לשנה ב-99.999% reliability - ה-bar שהמציא את ה-SRE

ב-2003, Ben Treynor Sloss ב-Google הוטל לנהל 10,000 servers בלי לגייס 'אנשי Ops'. הוא גייס Software Engineers - וה-SRE נולד.