SRE Best Practices - Building Reliable Systems
Google's SRE Book פורסם ב-2016 וזמין בחינם. הוא הורד יותר מ-5 מיליון פעמים. רוב החברות שקראו אותו יישמו את ה-20% הקל: התקינו Prometheus, בנו Grafana dashboards, ואמרו לעצמם שהם SRE. ה-80% הקשה - error budgets, blameless postmortems, Production Readiness Reviews, toil policy, מבנה ה-team עצמו - דורש שינוי באופן שבו ארגון הנדסה חושב, לא רק בכלים שהוא משתמש בהם.
זה השיעור האחרון בקורס. הוא לא מלמד כלי חדש. הוא מרכז את כל מה שלמדנו לtoolkit - קבוצת עקרונות ותהליכים שאפשר לקחת לכל חברה ולכל team.
כדי להמחיש מה "SRE בפועל" אומר, בואו נסתכל על שתי חברות אמיתיות שתיעדו את ה-journey שלהן.
Shopify - כ-2017, הם החליטו להטמיע SRE practices לפני Peak Season. בראיון שפרסמו, ה-SRE lead דיווח: לפני ה-implementation, Black Friday 2016 גרם לMTTR ממוצע של 47 דקות. אחרי implementation של SLOs, error budgets, ו-runbooks - Black Friday 2017 MTTR ממוצע: 8 דקות. אותם engineers, אותה infrastructure, אבל עם tools ו-processes שונים. ההבדל: 39 דקות MTTR לכל incident - עם peak season שיש בו עשרות incidents, זה שעות של revenue protection.
LinkedIn - ב-2019 פרסמו case study על migration מ-monolith ל-microservices בצוות SRE. הנתון המפתיע: אחרי 18 חודשים של SRE practices, deployment frequency עלתה פי 6, אבל change failure rate ירדה מ-28% ל-7%. יותר deployments, פחות כשלים. זה הCounter-intuitive result שSRE מביאה: כשיש SLOs, error budgets, ו-automated testing, teams מרגישות more confident לdeploy - ועם confidence מגיע consistency ואיכות.