July 3, 2025

איך מודדים הצלחה של מודל AI

בהרבה מוצרים תשתיתיים יש דיון מורכב על איך מודדים את ההצלחה של המוצר.
המדידה הבסיסית היא שימוש – כמה משתמשים בתשתית שפיתחנו.

זו מדידה ראשונית, בסיסית, שנותנת רמה אחת של מידע.

מעבר לשימוש, היום כולם רוצים למדוד ״אימפקט״, ולמדוד אימפקט זה הרבה יותר מסובך במוצרים תשתיתיים.

והנה דוגמא, מאחד המוצרים הכי מורכבים, שיוצרים הכי הרבה אימפקט בעולם בימינו.

בשיחת המשקיעים הרבעונית, סאטיה נדלה מנכ״ל מיקרוסופט דיבר על מדד הצלחה של המודלים שלהם, לפי כמות הטוקנים שמעובדים ע״י המודלים של מיקרוסופט.

We processed over 100 trillion tokens this quarter, up 5x year-over-year, including a record 50 trillion tokens last month alone. And four months in over 10,000 organizations have used our new agent service to build, deploy and scale their agents.

מה זה מודד?

את כמות השימוש (ברמה כללית מאוד) ואת הגדילה של השימוש עם הזמן
נותן הצצה למחיר הכללי שמיקרוסופט משלמת/משקיעה על מנת להריץ את המודל
קצת vanity metric של גודל השוק/הנתח שיש למיקרוסופט

איזה מטריקות תומכות הייתם רוצים לדעת?

כמה זה מעבודה פנימית וכמה מלקוחות חיצוניים
כמה מה -API וכמה מלקוחות ישירים
כמה לקוחות יש – חלוקה לגדולים/בינונים/קטנים
כמה שאילתות ענק וכמה קטנות

שתי נקודות מעניינות:
קודם כל, מספר הטוקנים הם עדין מדדי שימוש ולא מדדי אימפקט.
שנית, הוא מדבר במקביל גם על המאמצים שהם עושים להקטין את מספר הטוקנים שנדרשים בשביל מטלות מסוימותֿ, לחסוך, לבנות מודלים שיודעים מתי להריץ איזה סוג של ניתוח וכו׳. כך שלא יקח הרבה זמן להערכתי שהמדד יהיה כמה ״צמצמנו״ את מספר הטוקנים שצריך כדי להריץ מטלות מורכבות.