איך מודדים הצלחה של מודל AI 

בהרבה מוצרים תשתיתיים יש דיון מורכב על איך מודדים את ההצלחה של המוצר.
המדידה הבסיסית היא שימוש – כמה משתמשים בתשתית שפיתחנו. 

זו מדידה ראשונית, בסיסית, שנותנת רמה אחת של מידע.

מעבר לשימוש, היום כולם רוצים למדוד ״אימפקט״, ולמדוד אימפקט זה הרבה יותר מסובך במוצרים תשתיתיים.

והנה דוגמא, מאחד המוצרים הכי מורכבים, שיוצרים הכי הרבה אימפקט בעולם בימינו. 

בשיחת המשקיעים הרבעונית, סאטיה נדלה מנכ״ל מיקרוסופט דיבר על מדד הצלחה של המודלים שלהם, לפי כמות הטוקנים שמעובדים ע״י המודלים של מיקרוסופט.

We processed over 100 trillion tokens this quarter, up 5x year-over-year, including a record 50 trillion tokens last month alone. And four months in over 10,000 organizations have used our new agent service to build, deploy and scale their agents.

מה זה מודד?

  • את כמות השימוש (ברמה כללית מאוד) ואת הגדילה של השימוש עם הזמן 
  • נותן הצצה למחיר הכללי שמיקרוסופט משלמת/משקיעה על מנת להריץ את המודל
  • קצת vanity metric של גודל השוק/הנתח שיש למיקרוסופט

איזה מטריקות תומכות הייתם רוצים לדעת?

  1. כמה זה מעבודה פנימית וכמה מלקוחות חיצוניים
  2. כמה מה -API  וכמה מלקוחות ישירים
  3. כמה לקוחות יש – חלוקה לגדולים/בינונים/קטנים
  4. כמה שאילתות ענק וכמה קטנות

שתי נקודות מעניינות:
קודם כל, מספר הטוקנים הם עדין מדדי שימוש ולא מדדי אימפקט.
שנית, הוא מדבר במקביל גם על המאמצים שהם עושים להקטין את מספר הטוקנים שנדרשים בשביל מטלות מסוימותֿ, לחסוך, לבנות מודלים שיודעים מתי להריץ איזה סוג של ניתוח וכו׳. כך שלא יקח הרבה זמן להערכתי שהמדד יהיה כמה ״צמצמנו״ את מספר הטוקנים שצריך כדי להריץ מטלות מורכבות.

Leave a Reply

Your email address will not be published. Required fields are marked *

עוד תוכן מעולה מהבלוג

למה הפסקתי לראות מאסטרשף?האוכל אף פעם לא ממש ענין אותי, עניינו אותי המועמדים. ואז, הבנתי שבעצם יש ארבעה טיפוסים, והכל חוזר...
מתי הוצאנו מהלקסיקון את המילה קשה, והפכנו את הכל למאתגר? לדעתי זה דיבור של HR , או משהו ניו אייגי כזה,...
בעוד שלושה ימים מתחיל מחזור חדש של הגילדה וכמו שהחיים של כולנו נראים בזמן האחרון גם כאן יש הפתעות  בלת״מים ושאר ירקות וכך יצא שהיו...
נושאים נוספים