January 1, 2024

איך יראה המידע בעולמות ה- GAI?

בהמשך למצגת הסיכום של 2023 שלבן אוונס לגבי AI and everything else, יש שאלה אחת שאני לא רואה שעוסקים בה, ואני חושבת שהיא מהותית בהקשר הזה של LLMs ומודלים בכלל.

השאלה היא איך מידע יוחזק בעתיד.

שימו לב, לא איך נצרוך מידע - זו השאלה שכולם עוסקים בה כל הזמן. אני רואה בכל מקום דיונים בהקשר הזה. החל מהרמה הטכנית – איזה סוג של מודלים יהיו (גדולים/קטנים/ספציפיים/כלליים), איך הם ירוצו (לוקאלי/מבוזר, איזה צ׳יפים, סוגיות פרטיות ואבטחה), איך יתמחרו את השימוש בהם, מה יהיה ממשק המשתמש – אלה השאלות שכולם עוסקים בהם.

השאלה שאני שואלת היא ברמה יותר בסיסית – איך מידע יוחזק ויופץ. המודלים הגדולים הראשוניים, ובעצם כל המודלים שיש לנו היום, אומנו על כל פריט מידע שאפשר היה למצוא בצורה דיגיטלית. זה התחיל מ״כל האינטרנט״, כל מה שאפשר להגיע אליו (זכויות יוצרים עוד לא הטרידו אף אחד בשלב זה), זה התפתח למאגרי מידע ייעודיים וספציפיים, שחברות שומרות בדומיינים שלהם.

האתרים והדפים באינטרנט נבנו עבור שני לקוחות – בני האדם (הקוראים/המשתמשים), ומנוע החיפוש של גוגל. ואולי הסדר הוא בכלל הפוך – המידע הרבה פעמים נכתב קודם כל עבור מנוע החיפוש של גוגל, כדי שימצא ויאנדקס וכך יגיעו אליו בני האדם.

והנה הגענו לשאלה – אם בני האדם לא ימשיכו לצרוך את המידע בצורה הזו של גלישה באתרים באינטרנט, איך יסודר המידע בעתיד? האם יהיו בלוגים? אתרי תוכן? עיתונים? מי יצרוך אותם? בני האדם ימשיכו ״לגלוש באינטרנט״? או שהם ישתמשו רק בממשקים מסוג חדש שאנחנו עוד לא יכולים אפילו לדמיין? ואם נשתמש רק ב״אפליקציות מבוססות מודלים״ – איך יועבר אליהם התוכן החדש?

האם עדין יכתבו מאמרים מדעיים בפורמט המוכר? אבסטרקט/דיון/בביליוגרפיה – האם המבנה הזה ישמר? האם עדין יהיו אתרי תוכן כמו עיתונים עם כותרות, משנה, וכו׳? איך ואיפה יכתבו בלוגים?

אני חושבת שאחת המהפכות שאנחנו עדין לא חושבים עליהם היא זו. איפה ואיך ישמר המידע עצמו, ה״אוכל״ של המודל.