Monitoring & Observability - Prometheus ו-Grafana ב-Kubernetes - DevOps

שעה 3 לפנות בוקר. ה-on-call engineer מקבל התראה: latency של ה-checkout service קפץ מ-120ms ל-4.5 שניות. המשתמשים לא יכולים לשלם. ה-CEO מתעורר. הכסף נשרף.

ה-engineer נכנס למערכת - ומה יש לו? Pods ירוקים ב-Kubernetes. אין errors בלוגים. CPU ו-RAM - הכל נראה תקין. הוא לא יודע מה קורה. הוא מתחיל לנחש.

זה ההבדל בין מערכת מנוטרת לבין מערכת observable. מנוטרת - ידעת שיש בעיה. Observable - ידעת איפה ולמה.

בשיעור הזה נבנה את מלוא ה-observability stack על גבי Kubernetes: Prometheus לאיסוף מטריקות, Grafana לוויזואליזציה, Alertmanager לניהול התראות, Loki לאגרגציה של לוגים, ו-OpenTelemetry כשכבת tracing. נסיים עם walkthrough של תרחיש אמיתי - איך עוקבים אחרי spike בלתנסי מה-dashboard ועד לשורת הקוד הספציפית.

זה ההבדל בין מערכת מנוטרת לבין מערכת observable. מנוטרת - ידעת שיש בעיה. Observable - ידעת איפה ולמה.