תשובה קצרה: הגדירו מהי רמת ה"טוב" עבור מקרה השימוש שלכם, ולאחר מכן בדקו באמצעות הנחיות מייצגות ומקרי קצה. שלבו מדדים אוטומטיים עם ניקוד רובריקות אנושי, לצד בדיקות בטיחות עוינות והזרקת הנחיות. אם אילוצי עלות או השהייה הופכים למחייבים, השוו מודלים לפי הצלחת משימה לפאונד שהוצא וזמני תגובה של p95/p99.
נקודות מפתח:
אחריות : הקצאת בעלים ברורים, שמירה על יומני גרסאות והרצה חוזרת של הערכות לאחר כל בקשה או שינוי מודל.
שקיפות : רשמו קריטריונים להצלחה, אילוצים ועלויות כישלון לפני שאתם מתחילים לאסוף ציונים.
יכולת ביקורת : שמירה על חבילות בדיקות חוזרות, מערכי נתונים מתויגים ומעקב אחר מדדי השהייה של p95/p99.
ערעור : השתמשו ברובריקות של בדיקה אנושית ובנתיב ערעורים מוגדר עבור תוצרים שנויים במחלוקת.
עמידות לשימוש לרעה : הזרקה מיידית של צוות אדום, נושאים רגישים וסירוב יתר להגנה על משתמשים.
אם אתם בוחרים מודל למוצר, פרויקט מחקר או אפילו כלי פנימי, אתם לא יכולים פשוט לומר "זה נשמע חכם" ולשלוח אותו (ראו את מדריך ההערכה של OpenAI ואת NIST AI RMF 1.0 ). כך תקבלו צ'אטבוט שמסביר בביטחון איך לחמם מזלג במיקרוגל. 😬

מאמרים שאולי תרצו לקרוא אחרי זה:
🔗 עתיד הבינה המלאכותית: מגמות המעצבים את העשור הבא
חידושים מרכזיים, השפעה על מקומות עבודה ואתיקה שיש לשים לב אליה בעתיד.
🔗 מוסברות מודלים בסיסיים בבינה מלאכותית גנרטיבית למתחילים.
למדו מה הם, כיצד הם מאומנים ומדוע הם חשובים.
🔗 כיצד בינה מלאכותית משפיעה על הסביבה ועל צריכת האנרגיה.
גלו פליטות, ביקוש לחשמל ודרכים להפחית את טביעת הרגל.
🔗 כיצד שדרוג קנה מידה באמצעות בינה מלאכותית עובד כיום לתמונות חדות יותר.
ראו כיצד מודלים מוסיפים פרטים, מסירים רעש ומגדילים בצורה נקייה.
1) הגדרת "טוב" (זה תלוי, וזה בסדר) 🎯
לפני שאתם מבצעים כל הערכה, החליטו איך נראית הצלחה. אחרת תמדדו הכל ולא תלמדו כלום. זה כמו להביא סרט מדידה לשפוט בתחרות עוגות. בטח, תקבלו מספרים, אבל הם לא יגידו לכם הרבה 😅
לְהַבהִיר:
-
מטרת משתמש : סיכום, חיפוש, כתיבה, נימוק, חילוץ עובדות
-
מחיר כישלון : המלצה שגויה לסרט היא מצחיקה; הוראה רפואית שגויה היא... לא מצחיקה (מסגור סיכונים: NIST AI RMF 1.0 ).
-
סביבת זמן ריצה : במכשיר, בענן, מאחורי חומת אש, בסביבה מוסדרת
-
אילוצים עיקריים : השהייה, עלות לבקשה, פרטיות, הסבר, תמיכה רב-לשונית, בקרת צליל
דוגמן שהוא "הכי טוב" בעבודה אחת יכול להיות אסון באחרת. זו לא סתירה, זו המציאות. 🙂
2) איך נראית מסגרת הערכה חזקה של מודל בינה מלאכותית 🧰
כן, זה החלק שאנשים מדלגים עליו. הם לוקחים מדד ביצועים, מפעילים אותו פעם אחת, ומסיימים את היום. למסגרת הערכה חזקה יש כמה מאפיינים עקביים (דוגמאות לכלי עבודה מעשיים: OpenAI Evals / מדריך OpenAI evals ):
-
ניתן לחזור על זה - ניתן להריץ את זה שוב בשבוע הבא ולסמוך על השוואות
-
מייצג - זה משקף את המשתמשים והמשימות בפועל שלך (לא רק טריוויה)
-
רב שכבתי - משלב מדדים אוטומטיים + סקירה אנושית + בדיקות עוינות
-
ניתן לפעולה - התוצאות אומרות לך מה לתקן, לא רק "הציון ירד"
-
עמיד בפני פגיעה - מונע "הדרכה למבחן" או דליפה מקרית
-
מודעות לעלות - הערכה עצמה לא אמורה לפשוט אתכם רגל (אלא אם כן אתם אוהבים כאב)
אם ההערכה שלכם לא יכולה לשרוד אצל חבר צוות סקפטי שאומר "אוקיי, אבל תכננו את זה לשלב ההפקה", אז היא עדיין לא הסתיימה. זוהי בדיקת התחושה.
3) כיצד להעריך מודלים של בינה מלאכותית על ידי התחלה עם פרוסות של מקרה שימוש 🍰
הנה טריק שחוסך המון זמן: חלקו את מקרה השימוש לפרוסות .
במקום "להעריך את המודל", בצע:
-
הבנת כוונה (האם זה משיג את מה שהמשתמש רוצה)
-
אחזור או שימוש בהקשר (האם נעשה שימוש נכון במידע שסופק)
-
חשיבה / משימות מרובות שלבים (האם זה נשאר קוהרנטי בין השלבים)
-
עיצוב ומבנה (האם זה פועל לפי ההוראות)
-
יישור בטיחות ומדיניות (האם זה נמנע מתוכן לא בטוח; ראה NIST AI RMF 1.0 )
-
טון וקול מותג (האם זה נשמע כמו שאתם רוצים שזה יישמע)
זה גורם ל"כיצד להעריך מודלים של בינה מלאכותית" להרגיש פחות כמו מבחן אחד ענק ויותר כמו סט של חידונים ממוקדים. חידונים הם מעצבנים, אבל ניתנים לניהול. 😄
4) יסודות הערכה לא מקוונת - ערכות בדיקה, תוויות והפרטים הלא זוהרים שחשובים 📦
הערכה לא מקוונת היא המקום שבו מבצעים בדיקות מבוקרות לפני שמשתמשים נוגעים במשהו (דפוסי זרימת עבודה: הערכה של OpenAI ).
בנה או אסוף סט ניסויים שהוא באמת שלך
סט בדיקות טוב בדרך כלל כולל:
-
דוגמאות מושלמות : תפוקות אידיאליות שהייתם שולחים בגאווה
-
מקרי קצה : הנחיות דו-משמעיות, קלט לא מסודר, עיצוב לא צפוי
-
בדיקות מצב כשל : הנחיות המפתות הזיות או תשובות לא בטוחות (מסגור בדיקות סיכונים: NIST AI RMF 1.0 )
-
כיסוי גיוון : רמות מיומנות שונות של משתמשים, דיאלקטים, שפות, תחומים
אם תבדקו רק על הנחיות "נקיות", המודל ייראה מדהים. לאחר מכן, המשתמשים שלכם יופיעו עם שגיאות כתיב, חצאי משפטים ואנרגיית קליקים של זעם. ברוכים הבאים למציאות.
אפשרויות תיוג (aka: רמות קפדנות)
ניתן לתייג פלטים כ:
-
בינארי : עובר/נכשל (מהיר, קשה)
-
סידור : ציון איכות 1-5 (דק, סובייקטיבי)
-
ריבוי מאפיינים : דיוק, שלמות, טון, שימוש בציטוטים וכו' (הטוב ביותר, איטי יותר)
ריבוי תכונות הוא הנקודה המושלמת עבור צוותים רבים. זה כמו לטעום אוכל ולשפוט מליחות בנפרד ממרקם. אחרת פשוט אומרים "טוב" ומושכים בכתפיהם.
5) מדדים שלא משקרים - ומדדים שכן משקרים 📊😅
מדדים הם בעלי ערך... אבל הם יכולים גם להיות פצצת נצנצים. מבריקים, בכל מקום, וקשים לניקוי.
משפחות מטריות נפוצות
-
דיוק / התאמה מדויקת : מעולה לחילוץ, סיווג, משימות מובנות
-
F1 / דיוק / זיכרון : שימושי כאשר החמצה של משהו גרוע מרעש נוסף (הגדרות: scikit-learn דיוק/זיכרון/ציון-F )
-
חפיפה בסגנון BLEU / ROUGE : בסדר למשימות דמויי סיכום, לעתים קרובות מטעה (מדדים מקוריים: BLEU ו- ROUGE )
-
הטמעת דמיון : מועיל להתאמה סמנטית, יכול לתגמל תשובות שגויות אך דומות
-
שיעור הצלחה במשימה : "האם המשתמש קיבל את מה שהוא היה צריך" תקן הזהב כאשר מוגדר היטב
-
תאימות לאילוצים : עוקב אחר פורמט, אורך, תוקף JSON, תאימות לסכימה
נקודת המפתח
אם המשימה שלכם פתוחה (כתיבה, חשיבה, צ'אט תמיכה), מדדים של מספר בודד יכולים להיות... רעועים. לא חסרי טעם, סתם רעועים. מדידת יצירתיות בעזרת סרגל אפשרית, אבל תרגישו טיפשיים כשאתם עושים את זה. (וגם כנראה תוציאו את העין)
אז: השתמשו במדדים, אך עגנו אותם לסקירה אנושית ולתוצאות אמיתיות של משימה (דוגמה אחת לדיון בהערכה מבוססת תואר ראשון במשפטים + אזהרות: G-Eval ).
6) טבלת ההשוואה - אפשרויות הערכה מובילות (עם מוזרויות, כי לחיים יש מוזרויות) 🧾✨
הנה תפריט מעשי של גישות הערכה. שלבו והתאימו. רוב הצוותים עושים זאת.
| כלי / שיטה | קהל | מְחִיר | למה זה עובד |
|---|---|---|---|
| חבילת בדיקות הנחיות שנבנתה ידנית | מוצר + אנגלית | $ | מאוד ממוקד, תופס רגרסיות מהר - אבל חייבים לתחזק את זה לנצח 🙃 (כלי התחלה: OpenAI Evals ) |
| פאנל ניקוד רובריק אנושי | צוותים שיכולים לחסוך בסוקרים | $$ | הכי טוב מבחינת טון, ניואנסים, "האם בן אדם היה מקבל את זה", כאוס קל תלוי במבקרים |
| תואר שני במשפטים כשופט (עם רובריקות) | לולאות איטרציה מהירות | $-$$ | מהיר וניתן להרחבה, אך יכול לרשת הטיה ולפעמים לתת ציון לוויכוחים ולא לעובדות (מחקר + בעיות הטיה ידועות: הערכה ג' ) |
| ספרינט קבוצתי אדום-אדברסרי | בטיחות + תאימות | $$ | מוצא מצבי כשל חריפים, במיוחד הזרקה מיידית - מרגיש כמו מבחן מאמץ בחדר כושר (סקירת איומים: OWASP LLM01 הזרקה מיידית / OWASP 10 המובילים עבור אפליקציות LLM ) |
| יצירת בדיקות סינתטיות | צוותי דאטה-לייט | $ | כיסוי מעולה, אבל הנחיות סינתטיות יכולות להיות מסודרות מדי, מנומסות מדי... משתמשים אינם מנומסים |
| בדיקות A/B עם משתמשים אמיתיים | מוצרים למבוגרים | $$$ | הסימן הברור ביותר - גם המלחיץ ביותר רגשית כאשר המדדים משתנים (מדריך מעשי קלאסי: Kohavi et al., "ניסויים מבוקרים באינטרנט" ) |
| הערכה מבוססת אחזור (בדיקות RAG) | אפליקציות חיפוש + בקרת איכות | $$ | מודד "משתמש בהקשר בצורה נכונה", מפחית את אינפלציית ציון ההזיות (סקירת הערכה של RAG: הערכה של RAG: סקר ) |
| ניטור + גילוי סחיפה | מערכות ייצור | $$-$$$ | לוכד את ההידרדרות לאורך זמן - לא נוצץ עד היום שהוא מציל אותך 😬 (סקירת סחיפה: סקר סחיפה קונספטואלית (PMC) ) |
שימו לב שהמחירים נמוכים בכוונה. הם תלויים בקנה מידה, בכלים ובמספר הפגישות שאתם יוצרים בטעות.
7) הערכה אנושית - הנשק הסודי שאנשים לא מממנים מספיק 👀🧑⚖️
אם תבצעו רק הערכה אוטומטית, תפספסו:
-
חוסר התאמה בטון ("למה זה כל כך ציני")
-
שגיאות עובדתיות עדינות שנראות שוטפות
-
השלכות מזיקות, סטריאוטיפים או ניסוח לא נוח (מסגור סיכון + הטיה: NIST AI RMF 1.0 )
-
כשלים במעקב אחר הוראות שעדיין נשמעים "חכמים"
הפכו את הרובריקות לקונקרטיות (או שהבודקים יעבדו בסגנון חופשי)
רובריקה גרועה: "מועילה"
רובריקה טובה יותר:
-
נכונות : מדויקת עובדתית בהתחשב בהנחיה + בהקשר
-
שלמות : מכסה נקודות נדרשות ללא היגיון
-
בהירות : קריא, מובנה, בלבול מינימלי
-
מדיניות / בטיחות : נמנע מתוכן מוגבל, מטפל היטב בסירוב (מסגור בטיחות: NIST AI RMF 1.0 )
-
סגנון : מתאים לקול, לטון ולרמת הקריאה
-
נאמנות : לא ממציא מקורות או טענות שאינן מבוססות
כמו כן, בצעו מדי פעם בדיקות בין-בודקות. אם שני סוקרים חולקים על דעתם כל הזמן, זו לא "בעיה של אנשים", אלא בעיה של רובריקה. בדרך כלל (עקרונות מהימנות בין-בודקות: מקיו על קאפה של כהן ).
8) כיצד להעריך מודלים של בינה מלאכותית מבחינת בטיחות, חוסן ו"אוי, משתמשים" 🧯🧪
זה החלק שאתם עושים לפני ההשקה - ואז ממשיכים לעשות, כי האינטרנט אף פעם לא ישן.
בדיקות חוסן הכוללות
-
שגיאות כתיב, סלנג, דקדוק לקוי
-
הנחיות ארוכות מאוד והנחיות קצרות מאוד
-
הוראות סותרות ("היו קצרות אך כללו כל פרט")
-
שיחות מרובות תורות שבהן משתמשים משנים מטרות
-
ניסיונות הזרקה מהירה ("התעלם מכללים קודמים...") (פרטי איום: OWASP LLM01 הזרקה מהירה )
-
נושאים רגישים הדורשים סירוב זהיר (מסגור סיכונים/בטיחות: NIST AI RMF 1.0 )
הערכת בטיחות אינה רק "האם היא מסרבת"
מודל טוב צריך:
-
לסרב לבקשות לא בטוחות בצורה ברורה ורגועה (מסגור הנחיות: NIST AI RMF 1.0 )
-
לספק חלופות בטוחות יותר במידת הצורך
-
הימנעו מדחיית יתר של שאילתות לא מזיקות (תוצאות חיוביות שגויות)
-
טיפול בבקשות מעורפלות באמצעות שאלות הבהרה (כאשר מותר)
סירוב יתר הוא בעיה אמיתית במוצר. משתמשים לא אוהבים שמתייחסים אליהם כמו אל גובלינים חשודים. 🧌 (גם אם הם גובלינים חשודים.)
9) עלות, השהייה ומציאות תפעולית - ההערכה שכולם שוכחים 💸⏱️
מודל יכול להיות "מדהים" ועדיין להיות שגוי עבורך אם הוא איטי, יקר או שביר מבחינה תפעולית.
לְהַעֲרִיך:
-
התפלגות השהייה (לא רק ממוצע - p95 ו-p99 חשובים) (מדוע אחוזונים חשובים: חוברת עבודה של גוגל SRE בנושא ניטור )
-
עלות למשימה מוצלחת (לא עלות לכל טוקן בנפרד)
-
יציבות תחת עומס (פסק זמן, מגבלות קצב, קפיצות חריגות)
-
אמינות קריאה לכלי (אם הוא משתמש בפונקציות, האם הוא מתנהג בצורה נכונה)
-
נטיות אורך הפלט (חלק מהדגמים מגזימים, ומגזים עולים כסף)
דגם קצת יותר גרוע שמהיר פי שניים יכול לנצח באימון. זה נשמע מובן מאליו, אבל אנשים מתעלמים מזה. כמו לקנות מכונית ספורט לקניות במכולת ואז להתלונן על מקום בתא המטען.
10) תהליך עבודה פשוט מקצה לקצה שניתן להעתיק (ולכוונן) 🔁✅
הנה זרימה מעשית כיצד להעריך מודלים של בינה מלאכותית מבלי להיתקע בניסויים אינסופיים:
-
הגדרת הצלחה : משימה, אילוצים, עלויות כישלון
-
צור מערך בדיקות "ליבה" קטן : 50-200 דוגמאות המשקפות שימוש אמיתי
-
הוסף קבוצות קצה ויריבות : ניסיונות הזרקה, הנחיות דו-משמעיות, בדיקות בטיחות (מחלקת הזרקת הנחיות: OWASP LLM01 )
-
הפעלת בדיקות אוטומטיות : עיצוב, תוקף JSON, תקינות בסיסית במידת האפשר
-
הפעל סקירה אנושית : דגימות פלטים בין קטגוריות, ציון באמצעות רובריקה
-
השווה פשרות : איכות לעומת עלות לעומת השהייה לעומת בטיחות
-
פיילוט במהדורה מוגבלת : מבחני A/B או פריסה מדורגת (מדריך בדיקות A/B: Kohavi et al. )
-
ניטור בייצור : סחיפה, רגרסיות, לולאות משוב משתמשים (סקירת סחיפה: סקר סחיפה קונספטואלית (PMC) )
-
איטרציה : עדכון הנחיות, אחזור, כוונון עדין, מעקות בטיחות, ולאחר מכן הפעלה חוזרת של הערכה (דפוסי איטרציה של הערכה: מדריך הערכה של OpenAI )
שמרו יומני גרסאות. לא בגלל שזה כיף, אלא בגלל שבעתיד - אתם תודו לכם בזמן שאתם מחזיקים כוס קפה וממלמלים "מה השתנה..." ☕🙂
11) מלכודות נפוצות (הידוע גם כדרכים בהן אנשים מרמים את עצמם בטעות) 🪤
-
אימון למבחן : אתם מבצעים אופטימיזציה של הנחיות עד שהמדד נראה נהדר, אבל המשתמשים סובלים.
-
נתוני הערכה דולפים : הנחיות בדיקה מופיעות בנתוני אימון או כוונון עדין (אופס)
-
סגידה למדד יחיד : מרדף אחר ציון אחד שאינו משקף את ערך המשתמש
-
התעלמות משינוי התפלגות : התנהגות המשתמש משתנה והמודל שלך מתדרדר בשקט (מסגור סיכוני ייצור: סקר סחף מושגים (PMC) )
-
אינדוקס יתר על המידה של "חוכמה" : נימוק חכם לא משנה אם הוא שובר עיצוב או ממציא עובדות
-
לא בודק את איכות הסירוב : "לא" יכול להיות נכון אבל עדיין חוויית משתמש נוראית
כמו כן, היזהרו מהדגמות. הדגמות הן כמו טריילרים של סרטים. הן מראות רגעים חשובים, מסתירות את החלקים האיטיים, ולפעמים משקפות עם מוזיקה דרמטית. 🎬
12) סיכום מסכם על איך להעריך מודלים של בינה מלאכותית 🧠✨
הערכת מודלים של בינה מלאכותית אינה ציון בודד, אלא ארוחה מאוזנת. אתם צריכים חלבון (נכונות), ירקות (בטיחות), פחמימות (מהירות ועלות), וכן, לפעמים קינוח (טעם וטעם) 🍲🍰 (מסגור סיכונים: NIST AI RMF 1.0 )
אם אינך זוכר שום דבר אחר:
-
הגדירו מהי משמעות המילה "טוב" עבור מקרה השימוש שלכם
-
השתמשו בקבוצות בדיקה מייצגות, לא רק במדדים מפורסמים
-
שלב מדדים אוטומטיים עם סקירת רובריקים אנושית
-
בדיקת חוסן ובטיחות כאילו משתמשים הם עוינים (כי לפעמים... הם כאלה) (מחלקת הזרקה מיידית: OWASP LLM01 )
-
כללו עלות וזמן השהייה בהערכה, לא כמחשבה שנייה (מדוע אחוזונים חשובים: חוברת עבודה של גוגל SRE )
-
ניטור לאחר ההשקה - מודלים נסחפים, אפליקציות מתפתחות, בני אדם נהיים יצירתיים (סקירת סחף: סקר סחף קונספט (PMC) )
כך מעריכים מודלים של בינה מלאכותית בצורה שתעמוד במבחן הזמן כאשר המוצר שלכם פעיל ואנשים מתחילים לעשות דברים בלתי צפויים. וזה תמיד נכון. 🙂
שאלות נפוצות
מהו הצעד הראשון בהערכת מודלים של בינה מלאכותית עבור מוצר אמיתי?
התחילו בהגדרת מהי "טוב" עבור מקרה השימוש הספציפי שלכם. פרט את מטרת המשתמש, מה עולים לכם כשלים (סיכון נמוך לעומת סיכון גבוה), והיכן המודל יפעל (ענן, במכשיר, סביבה מוסדרת). לאחר מכן, רשמו אילוצים קשים כמו השהייה, עלות, פרטיות ובקרת צליל. ללא בסיס זה, תמדדו הרבה ועדיין תקבלו החלטה גרועה.
איך אני בונה מערך בדיקות שמשקף באמת את המשתמשים שלי?
בנו מערך בדיקות שהוא באמת שלכם, לא רק נקודת ייחוס ציבורית. כללו דוגמאות מושלמות שהייתם שולחים בגאווה, בנוסף להנחיות רועשות ומופרכות עם שגיאות כתיב, חצאי משפטים ובקשות דו-משמעיות. הוסיפו מקרי קצה ובדיקות מצב כשל שמפתות הזיות או תשובות לא בטוחות. כסו גיוון ברמת מיומנות, ניבים, שפות ותחומים כדי שהתוצאות לא יקרסו בתהליך הייצור.
אילו מדדים עליי להשתמש, ואילו מהם עלולים להטעות?
התאמת מדדים לסוג המשימה. התאמה מדויקת ודיוק עובדים היטב עבור חילוץ ופלט מובנה, בעוד שדיוק/זכירה ו-F1 עוזרים כאשר החמצה של משהו גרוע יותר מרעש נוסף. מדדי חפיפה כמו BLEU/ROUGE יכולים להטעות עבור משימות פתוחות, והטמעת דמיון יכולה לתגמל תשובות "שגויות אך דומות". עבור כתיבה, תמיכה או הנמקה, שלבו מדדים עם סקירה אנושית ושיעורי הצלחה במשימות.
כיצד עליי לבנות הערכות כך שיהיו ניתנות לחזרה ומותאמות לרמת ייצור?
מסגרת הערכה יציבה היא ניתנת לחזרה, מייצגת, רב-שכבתית וניתנת לפעולה. שלבו בדיקות אוטומטיות (פורמט, תוקף JSON, נכונות בסיסית) עם ניקוד רובריקות אנושי ובדיקות עוינות. הימנעו מדליפות ו"לימוד למבחן" כדי להבטיח עמידות בפני פגיעה. שמרו על מודעות לעלות ההערכה כך שתוכלו להריץ אותה שוב ושוב, לא רק פעם אחת לפני ההשקה.
מהי הדרך הטובה ביותר לבצע הערכה אנושית מבלי שזה יהפוך לכאוס?
השתמשו ברובריקה קונקרטית כדי שהבודקים לא יעשו שינויים חופשיים. דרג תכונות כמו נכונות, שלמות, בהירות, בטיחות/טיפול במדיניות, התאמה בין סגנון לקול ונאמנות (ללא המצאת טענות או מקורות). בדקו מעת לעת את ההסכמה בין הבוחנים; אם הבודקים חלוקים בדעותיהם באופן מתמיד, סביר להניח שהרובריקה זקוקה לחידוד. סקירה אנושית חשובה במיוחד לאיתור אי-התאמה בטון, שגיאות עובדתיות עדינות וכשלים במעקב אחר הוראות.
כיצד אוכל להעריך בטיחות, חוסן וסיכוני הזרקה מהירה?
בדיקה עם קלט של "אוי, משתמשים": שגיאות כתיב, סלנג, הוראות סותרות, הנחיות ארוכות או קצרות מאוד, ושינויי מטרה מרובי תורות. כלול ניסיונות הזרקה מהירים כמו "התעלם מכללים קודמים" ונושאים רגישים הדורשים סירובים זהירים. ביצועי בטיחות טובים אינם רק סירוב - הם סירוב ברור, הצעת חלופות בטוחות יותר כאשר מתאים, והימנעות מסירוב יתר של שאילתות לא מזיקות שפוגעות ב-UX.
כיצד אוכל להעריך עלות וזמן השהייה באופן שתואם את המציאות?
אל תמדדו רק ממוצעים - עקבו אחר התפלגות ההשהיה, במיוחד אחר p95 ו-p99. העריכו את העלות למשימה מוצלחת, לא את העלות לטוקן בנפרד, מכיוון שניסיונות חוזרים ופלט לא יציב יכולים למחוק את החיסכון. בדקו יציבות תחת עומס (פסק זמן, מגבלות קצב, קפיצות) ואת אמינות קריאות הכלים/פונקציות. מודל מעט גרוע יותר, מהיר פי שניים או יציב יותר, יכול להיות בחירה טובה יותר במוצר.
מהי זרימת עבודה פשוטה מקצה לקצה להערכת מודלים של בינה מלאכותית?
הגדירו קריטריונים ואילוצים להצלחה, ולאחר מכן צרו מערך בדיקות ליבה קטן (בערך 50-200 דוגמאות) המשקף את השימוש האמיתי. הוסיפו מערכי קצה ויריבים עבור ניסיונות בטיחות והזרקה. הפעילו בדיקות אוטומטיות, ולאחר מכן דגוגו פלטים עבור ניקוד רובריקות אנושיות. השוו איכות לעומת עלות לעומת השהייה לעומת בטיחות, בצעו פיילוט עם פריסה מוגבלת או בדיקת A/B, ונטרו במצב הייצור אחר סחיפה ורגרסיות.
מהן הדרכים הנפוצות ביותר שבהן צוותים מרמים את עצמם בטעות בהערכת מודלים?
מלכודות נפוצות כוללות אופטימיזציה של הנחיות כדי לעמוד במבחן בזמן שמשתמשים סובלים, דליפת הנחיות הערכה לנתוני הדרכה או כוונון עדין, וסגידה למדד יחיד שאינו משקף את ערך המשתמש. צוותים גם מתעלמים משינוי בהתפלגות, מודדים יתר על המידה את "חוכמה" במקום את תאימות הפורמט ואת נאמנותו, ומדלגים על בדיקות איכות של סירוב. הדגמות יכולות להסתיר בעיות אלה, לכן הסתמכו על הערכות מובנות, לא על סלילים.
הפניות
-
OpenAI - מדריך הערכה של OpenAI - platform.openai.com
-
המכון הלאומי לתקנים וטכנולוגיה (NIST) - מסגרת ניהול סיכוני בינה מלאכותית (AI RMF 1.0) - nist.gov
-
OpenAI - openai/evals (מאגר GitHub) - github.com
-
scikit-learn - תמיכה_בדיוק_זכירות_fscore_ - scikit-learn.org
-
האגודה לבלשנות חישובית (אנתולוגיה של ACL) - BLEU - aclanthology.org
-
האגודה לבלשנות חישובית (אנתולוגיה של ACL) - ROUGE - aclanthology.org
-
arXiv - הערכה ג'י - arxiv.org
-
OWASP - LLM01: הזרקה מיידית - owasp.org
-
OWASP - 10 אפליקציות OWASP המובילות ליישומי מודל שפה גדול - owasp.org
-
אוניברסיטת סטנפורד - כוכבי ואחרים, "ניסויים מבוקרים באינטרנט" - stanford.edu
-
arXiv - הערכה של RAG: סקר - arxiv.org
-
PubMed Central (PMC) - סקר סחף מושגים (PMC) - nih.gov
-
PubMed Central (PMC) - מקיו על קאפה של כהן - nih.gov
-
גוגל - חוברת עבודה של SRE בנושא ניטור - google.workbook