כלי / שיטה	קהל	מְחִיר	למה זה עובד
חבילת בדיקות הנחיות שנבנתה ידנית	מוצר + אנגלית	$	מאוד ממוקד, תופס רגרסיות מהר - אבל חייבים לתחזק את זה לנצח 🙃 (כלי התחלה: OpenAI Evals )
פאנל ניקוד רובריק אנושי	צוותים שיכולים לחסוך בסוקרים	$$	הכי טוב מבחינת טון, ניואנסים, "האם בן אדם היה מקבל את זה", כאוס קל תלוי במבקרים
תואר שני במשפטים כשופט (עם רובריקות)	לולאות איטרציה מהירות	$-$$	מהיר וניתן להרחבה, אך יכול לרשת הטיה ולפעמים לתת ציון לוויכוחים ולא לעובדות (מחקר + בעיות הטיה ידועות: הערכה ג' )
ספרינט קבוצתי אדום-אדברסרי	בטיחות + תאימות	$$	מוצא מצבי כשל חריפים, במיוחד הזרקה מיידית - מרגיש כמו מבחן מאמץ בחדר כושר (סקירת איומים: OWASP LLM01 הזרקה מיידית / OWASP 10 המובילים עבור אפליקציות LLM )
יצירת בדיקות סינתטיות	צוותי דאטה-לייט	$	כיסוי מעולה, אבל הנחיות סינתטיות יכולות להיות מסודרות מדי, מנומסות מדי... משתמשים אינם מנומסים
בדיקות A/B עם משתמשים אמיתיים	מוצרים למבוגרים	$$$	הסימן הברור ביותר - גם המלחיץ ביותר רגשית כאשר המדדים משתנים (מדריך מעשי קלאסי: Kohavi et al., "ניסויים מבוקרים באינטרנט" )
הערכה מבוססת אחזור (בדיקות RAG)	אפליקציות חיפוש + בקרת איכות	$$	מודד "משתמש בהקשר בצורה נכונה", מפחית את אינפלציית ציון ההזיות (סקירת הערכה של RAG: הערכה של RAG: סקר )
ניטור + גילוי סחיפה	מערכות ייצור	$$-$$$	לוכד את ההידרדרות לאורך זמן - לא נוצץ עד היום שהוא מציל אותך 😬 (סקירת סחיפה: סקר סחיפה קונספטואלית (PMC) )

מדינה/אזור

1) הגדרת "טוב" (זה תלוי, וזה בסדר) 🎯

2) איך נראית מסגרת הערכה חזקה של מודל בינה מלאכותית 🧰

3) כיצד להעריך מודלים של בינה מלאכותית על ידי התחלה עם פרוסות של מקרה שימוש 🍰

4) יסודות הערכה לא מקוונת - ערכות בדיקה, תוויות והפרטים הלא זוהרים שחשובים 📦

בנה או אסוף סט ניסויים שהוא באמת שלך

אפשרויות תיוג (aka: רמות קפדנות)

5) מדדים שלא משקרים - ומדדים שכן משקרים 📊😅

משפחות מטריות נפוצות

נקודת המפתח

6) טבלת ההשוואה - אפשרויות הערכה מובילות (עם מוזרויות, כי לחיים יש מוזרויות) 🧾✨

7) הערכה אנושית - הנשק הסודי שאנשים לא מממנים מספיק 👀🧑⚖️

הפכו את הרובריקות לקונקרטיות (או שהבודקים יעבדו בסגנון חופשי)

8) כיצד להעריך מודלים של בינה מלאכותית מבחינת בטיחות, חוסן ו"אוי, משתמשים" 🧯🧪

בדיקות חוסן הכוללות

הערכת בטיחות אינה רק "האם היא מסרבת"

9) עלות, השהייה ומציאות תפעולית - ההערכה שכולם שוכחים 💸⏱️

10) תהליך עבודה פשוט מקצה לקצה שניתן להעתיק (ולכוונן) 🔁✅

11) מלכודות נפוצות (הידוע גם כדרכים בהן אנשים מרמים את עצמם בטעות) 🪤

12) סיכום מסכם על איך להעריך מודלים של בינה מלאכותית 🧠✨

שאלות נפוצות

מהו הצעד הראשון בהערכת מודלים של בינה מלאכותית עבור מוצר אמיתי?

איך אני בונה מערך בדיקות שמשקף באמת את המשתמשים שלי?

אילו מדדים עליי להשתמש, ואילו מהם עלולים להטעות?

כיצד עליי לבנות הערכות כך שיהיו ניתנות לחזרה ומותאמות לרמת ייצור?

מהי הדרך הטובה ביותר לבצע הערכה אנושית מבלי שזה יהפוך לכאוס?

כיצד אוכל להעריך בטיחות, חוסן וסיכוני הזרקה מהירה?

כיצד אוכל להעריך עלות וזמן השהייה באופן שתואם את המציאות?

מהי זרימת עבודה פשוטה מקצה לקצה להערכת מודלים של בינה מלאכותית?

מהן הדרכים הנפוצות ביותר שבהן צוותים מרמים את עצמם בטעות בהערכת מודלים?

הפניות

מצאו את הבינה המלאכותית העדכנית ביותר בחנות הרשמית של עוזרי בינה מלאכותית

אודותינו