SLIs, SLOs, SLAs - מדדי אמינות - SRE & Observability

ב-16 ביוני 2020, Cloudflare עברה outage שנגרמה מ-BGP route leak. למשך 27 דקות, חלק משמעותי מה-internet נפל. ה-uptime monitoring הפנימי של Cloudflare הראה 100% - ה-servers עצמם ענו ל-health checks ב-perfect מצב. הבעיה: traffic לא הגיע אליהם. ה-SLI שלהם - "server responds to health check" - היה blind לסוג הזה של כשל. SLI נכון היה "percentage of external HTTP requests that return 200 within 500ms". זה היה תופס את הבעיה תוך דקות.

הזמן ש-Fastly לקח לזהות outage עם p99 latency monitoring

Cloudflare ב-2020 איבדה 27 דקות בגלל BGP route leak - uptime monitoring שלהם הראה 100%. ה-SLI קובע מה אתם יכולים לראות.

ה-lesson חוזר על עצמו בכל outage גדול: SLIs לא רק קובעים מה אתם מודדים. הם קובעים מה אתם יכולים לראות. SLI גרוע הוא blind spot מובנה במערכת. בנובמבר 2021, Slack חוו outage של כמה שעות - ה-servers ענו, אבל latency היה 8 שניות. monitoring שמדד uptime binary לא תפס את זה. monitoring שמדד p99 latency על user requests תפס את זה ב-49 שניות. בדיוק כמו ש-Fastly גילו את ה-outage שלהם ב-2021 - 49 שניות מ-degradation עד detection, כי הם מדדו p99 בזמן אמת על כל edge point.

הזמן ש-Fastly לקח לזהות outage עם p99 latency monitoring

Cloudflare ב-2020 איבדה 27 דקות בגלל BGP route leak - uptime monitoring שלהם הראה 100%. ה-SLI קובע מה אתם יכולים לראות.