Toil Reduction - אוטומציה וצמצום עבודה ידנית
בסטארטאפ שעובד בו מפתח מכיר, כל פעם שcustomer חדש נרשם ל-enterprise plan, ה-DevOps Engineer היה עושה את הדברים הבאים ביד:
- יצירת tenant namespace ב-Kubernetes
- הרצת Terraform ליצירת DB instance נפרד
- הגדרת environment variables לtenant
- הוספת domain לNginx config
- הגדרת monitoring dashboards לתenant החדש
- שליחת credentials ל-customer
- תיעוד ה-tenant ב-Confluence
כל הprocess לקח כ-45 דקות. הם עשו onboarding לכ-8 customers בחודש - 6 שעות בחודש על task חוזר. עם צמיחה ל-20 customers - 15 שעות בחודש. עם 50 - 37.5 שעות.
זה Toil - ועד שלא מאטמים אותו, הוא גוזל את הזמן שצריך לבנות דברים חשובים.
ב-Google, הסיפור שחוזר הוא ה-SRE team שהיתה אחראית על ה-global DNS infrastructure. בשנת 2007, הצוות בילה כ-70% מהזמן שלו ב-toil: עדכונים ידניים ל-DNS records, בדיקות ידניות שזוני ה-DNS עדכניים, validation ידני של configuration changes. ה-30% שנשארו - engineering ממשי.
אחרי שנה של automation, ה-ratio התהפך: 30% toil, 70% engineering. ה-impact: הצוות שחרר 4 major features של DNS infrastructure ב-שנה אחת - בזמן שבשנה הקודמת לא שוחרר כלום בגלל time constraints.
זה ה-business case שלא מדובר עליו מספיק: Toil reduction לא רק "מייעל" - הוא משחרר capacity לעבודה שמצמיחה את הbusiness. Engineer שמבלה 70% מזמנו ב-toil ו-30% בfeatures בדיוק הפוך מ-engineer שמבלה 30% ב-toil ו-70% בfeatures - ובשנה אחת, ה-engineering output שלהם שונה לחלוטין.