בשנת 2022 צוות data engineering בחברת fintech ישראלית כתב קוד שטעין 50 מיליון שורות מ-CSV לזיכרון כדי לבצע עליהן aggregations. זמן הריצה: 4 דקות. שימוש בזיכרון: 12GB. השרת קרס לפעמים. הפתרון שהם מצאו? להחליף את ה-list בגנרטור - שינוי של שורה אחת. זמן ריצה: 40 שניות. זיכרון: 200MB. אותה logic, אותה תוצאה, אבל הם הפסיקו לטעון הכל לזיכרון בבת אחת.
זה מה שגנרטורים עושים: הם נותנים לך לעבד datasets גדולים בלי לשלם את מחיר הזיכרון.