מאיפה הבינה המלאכותית מקבלת את המידע שלה?

ישבתם פעם שם ומגרדתם בראש, ואומרים... מאיפה בעצם מגיע הדבר הזה? כלומר, בינה מלאכותית לא מחטטת בערימות ספריות מאובקות או צופה בסרטי יוטיוב קצרים בעורמה. ובכל זאת, איכשהו היא מוצאת תשובות להכל - החל מטיפים ללזניה ועד פיזיקה של חורים שחורים - כאילו יש לה ארון תיוק אינסופי בפנים. המציאות מוזרה יותר, ואולי מסקרנת יותר ממה שאתם מנחשים. בואו נפרק את זה קצת (וכן, אולי ננפץ כמה מיתוסים בדרך).

האם זה כישוף? 🌐

זה לא כישוף, למרות שלפעמים זה מרגיש ככה. מה שקורה מתחת למכסה המנוע הוא בעצם ניבוי תבניות. מודלים של שפה גדולה (LLMs) לא מאחסנים עובדות כמו שהמוח שלך מחזיק במתכון העוגיות של סבתא שלך; במקום זאת, הם מאומנים לנחש את המילה הבאה (אסימון) על סמך מה שקדם לה [2]. בפועל, זה אומר שהם נצמדים לקשרים: אילו מילים מסתובבות יחד, איך משפטים בדרך כלל מתעצבים, איך רעיונות שלמים בנויים כמו פיגומים. זו הסיבה שהפלט נשמע נכון, למרות - בכנות גמורה - שזה חיקוי סטטיסטי, לא הבנה [4].

אז מה בעצם הופך מידע שנוצר על ידי בינה מלאכותית לשימושי? כמה דברים:

גיוון נתונים - משיכת נתונים ממקורות רבים, לא מזרם צר אחד.
עדכונים - ללא מחזורי רענון, זה מתיישן מהר.
סינון - באופן אידיאלי לתפוס זבל לפני שהוא מחלחל פנימה (אם כי, בואו נהיה כנים, ברשת הזאת יש חורים).
בדיקה צולבת - הסתמכות על מקורות סמכותיים (כמו נאס"א, ארגון הבריאות העולמי, אוניברסיטאות גדולות), שהיא חובה ברוב ספרי הניהול של בינה מלאכותית [3].

ובכל זאת, לפעמים זה מפוברק - בביטחון. אותן הזיות? בעצם שטויות מלוטשות שמועברות בפנים רציניות [2][3].

מאמרים שאולי תרצו לקרוא אחרי זה:

🔗 האם בינה מלאכותית יכולה לחזות מספרי לוטו
חקר מיתוסים ועובדות על תחזיות לוטו באמצעות בינה מלאכותית.

🔗 מה המשמעות של גישה הוליסטית לבינה מלאכותית
הבנת בינה מלאכותית מתוך נקודות מבט מאוזנות על אתיקה והשפעה.

🔗 מה אומר התנ"ך על בינה מלאכותית
בחינת נקודות מבט מקראיות על טכנולוגיה ובריאה אנושית.

השוואה מהירה: מאיפה שואבת הבינה המלאכותית 📊

לא כל מקור שווה, אבל לכל אחד יש את תפקידו. הנה תמונת מצב.

סוג המקור	מי משתמש בזה (בינה מלאכותית)	עלות/ערך	למה זה עובד (או לא...)
ספרים ומאמרים	מודלים גדולים של שפה	לא יסולא בפז (בערך)	ידע צפוף ומובנה - פשוט מתיישן במהירות.
אתרי אינטרנט ובלוגים	כמעט כל מערכות הבינה המלאכותית	חינם (עם רעש)	מגוון פראי; שילוב של גאונות וזבל מוחלט.
מאמרים אקדמיים	בינה מלאכותית עתירת מחקר	לפעמים חומת תשלום	קפדנות + אמינות, אבל מנוסח בז'רגון כבד.
נתוני משתמש	בינה מלאכותית מותאמת אישית	רגיש מאוד ⚠️	חייטות חדה, אבל כאבי ראש של פרטיות בשפע.
אינטרנט בזמן אמת	בינה מלאכותית מקושרת לחיפוש	חינם (אם באינטרנט)	שומר על מידע עדכני; החיסרון הוא סיכון להגברת שמועות.

יקום נתוני האימון 🌌

זהו שלב "הלמידה בילדות". דמיינו שאתם מגישים לילד מיליוני ספרי סיפורים, גזירי עיתונים ומחילות ויקיפדיה בבת אחת. כך נראית אימון מקדים. בעולם האמיתי, ספקי שירותי למידה משלבים נתונים זמינים לציבור, מקורות מורשים וטקסט שנוצר על ידי מדריכים [2].

שכבות מעל: דוגמאות אנושיות שנבחרו - תשובות טובות, תשובות גרועות, דחיפות בכיוון הנכון - עוד לפני שהחיזוק מתחיל [1].

אזהרת שקיפות: חברות אינן חושפות כל פרט. חלק מהמעקות הן סודיות (קניין רוחני, חששות בטיחות), כך שמקבלים הצצה חלקית בלבד לתהליך בפועל [2].

חיפוש בזמן אמת: התוספת הנוספת 🍒

חלק מהמודלים יכולים כעת להציץ אל מחוץ לבועת האימון שלהם. זהו יצירת אחזור רבודה (RAG) -בעצם משיכת קטעים מאינדקס חי או מאגר מסמכים, ואז שילובם בתשובה [5]. מושלם לדברים המשתנים במהירות כמו כותרות חדשות או מחירי מניות.

הבעיה? האינטרנט הוא חלק בלתי נפרד מגאונות וחלק בלתי נפרד משריפות. אם המסננים או בדיקות המקור חלשים, אתם מסתכנים בנתוני זבל שיתגנבו פנימה - בדיוק מה שמסגרות סיכון מזהירות מפניו [3].

פתרון נפוץ: חברות מחברות מודלים למאגרי שלהן , כך שתשובות מציינות מדיניות משאבי אנוש עדכנית או מסמך מוצר מעודכן במקום להתעלם ממנו. חשבו: פחות רגעים של "אה-אה", תשובות אמינות יותר.

כוונון עדין: שלב הליטוש של הבינה המלאכותית 🧪

מודלים גולמיים שאומנו מראש הם מגושמים. לכן הם עוברים כוונון עדין:

ללמד אותם להיות מועילים, לא מזיקים, כנים (באמצעות למידה מחוזקת ממשוב אנושי, RLHF) [1].
שיוף קצוות לא בטוחים או רעילים (יישור) [1].
התאמת הטון - בין אם זה ידידותי, רשמי או סרקסטי בצורה שובבה.

זה לא יותר ליטוש יהלום, אלא יותר כליאת מפולת סטטיסטית להתנהג יותר כמו שותף לשיחה.

המכשולים והכישלונות 🚧

בואו לא נעמיד פנים שזה ללא רבב:

הזיות - תשובות חדות וברורות שהן שגויות לחלוטין [2][3].
הטיה - היא משקפת דפוסים הטבועים בנתונים; יכולה אפילו להגביר אותם אם לא נבדקת [3][4].
אין לי ניסיון ממקור ראשון - הוא יכול לדבר על מתכוני מרקים אבל מעולם לא טעמתי אחד כזה [4].
ביטחון עצמי מופרז - הפרוזה זורמת כאילו היא יודעת, גם כשהיא לא. מסגרות סיכון מדגישות הנחות יסוד מתערערות [3].

למה זה מרגיש כמו לדעת 🧠

אין לו אמונות, אין לו זיכרון במובן האנושי, ובוודאי שאין לו עצמי. אך מכיוון שהוא מחבר משפטים בצורה חלקה, המוח שלך קורא אותו כאילו הוא מבין. מה שקורה הוא בסך הכל ניבוי עצוםשל אלמנטים: פירוק טריליוני הסתברויות בשבריר שניות [2].

אפקט ה"אינטליגנציה" הוא אפקט התנהגותי מתפתח - חוקרים מכנים זאת, קצת בלשון המעטה, "התוכי הסטוכסטי" [4].

אנלוגיה ידידותית לילדים 🎨

דמיינו תוכי שקרא כל ספר בספרייה. הוא לא מבין את הסיפורים אבל יכול לערבב את המילים למשהו שנראה חכם. לפעמים זה מדויק; לפעמים זה שטויות - אבל עם מספיק חוש, אי אפשר תמיד להבחין בהבדל.

לסיכום: מאיפה מגיע המידע של בינה מלאכותית 📌

במילים פשוטות:

נתוני הדרכה מסיביים (ציבוריים + ברישיון + שנוצרו על ידי מדריכים) [2].
כוונון עדין בעזרת משוב אנושי לעיצוב טון/התנהגות [1].
מערכות אחזור כאשר הן מחוברות לזרמי נתונים חיים [5].

בינה מלאכותית לא "יודעת" דברים - היא מנבאת טקסט. זהו גם הכוח העל שלה וגם עקב אכילס שלה. בשורה התחתונה? תמיד יש לבדוק את הדברים החשובים מול מקור מהימן [3].

הפניות

Ouyang, L. et al. (2022). אימון מודלים של שפה לביצוע הוראות עם משוב אנושי (InstructGPT). arXiv.
OpenAI (2023). דוח טכני של GPT-4 - שילוב של נתונים מורשים, ציבוריים ונתונים שנוצרו על ידי בני אדם; מטרת חיזוי של אסימונים נלווים ומגבלות. arXiv.
NIST (2023). מסגרת ניהול סיכונים של בינה מלאכותית (AI RMF 1.0) - מקור, אמינות ובקרות סיכונים. PDF.
בנדר, א.מ., גברו, ט., מקמילן-מייג'ור, א., מיטשל, ס. (2021). על הסכנות של תוכים סטוכסטיים: האם מודלים של שפה יכולים להיות גדולים מדי? PDF.
לואיס, פ. ואחרים (2020). יצירה מורחבת באמצעות אחזור מידע עבור NLP עתיר ידע. arXiv.

מצאו את הבינה המלאכותית העדכנית ביותר בחנות הרשמית של עוזרי בינה מלאכותית

אודותינו

חזרה לבלוג