תשובה קצרה: כדי להעריך מודלים של בינה מלאכותית בצורה טובה, התחילו בהגדרת מה נראה "טוב" עבור המשתמש האמיתי וההחלטה העומדת בפניכם. לאחר מכן בנו הערכות חוזרות עם נתונים מייצגים, בקרות דליפה הדוקות ומדדים מרובים. הוסיפו בדיקות לחץ, הטיה ובטיחות, ובכל פעם שמשהו משתנה (נתונים, הנחיות, מדיניות), הפעילו מחדש את הרתמה והמשיכו לנטר לאחר ההשקה.
נקודות מפתח:
קריטריונים להצלחה : הגדירו משתמשים, החלטות, אילוצים וכשלים קשים ביותר לפני בחירת מדדים.
חזרתיות : בנה רתמת הערכה שמבצעת מחדש בדיקות דומות עם כל שינוי.
היגיינת נתונים : שמור על פיצולים יציבים, מניעת כפילויות וחסימת דליפת תכונות מוקדם.
בדיקות אמון : מבחני מאמץ - חוסן, פרוסות הוגנות והתנהגויות בטיחות של תואר שני במשפטים (LLM) עם רובריקות ברורות.
תחום מחזור חיים : פריסה בשלבים, ניטור סחיפות ואירועים ותיעוד פערים ידועים.
מאמרים שאולי תרצו לקרוא אחרי זה:
🔗 מהי אתיקה של בינה מלאכותית
חקור עקרונות המנחים תכנון, שימוש וממשל אחראיים של בינה מלאכותית.
🔗 מהי הטיה של בינה מלאכותית
למד כיצד נתונים מוטים משפיעים על החלטות ותוצאות של בינה מלאכותית.
🔗 מהי מדרגיות של בינה מלאכותית?
להבין את הרחבת הביצועים, העלות והאמינות של מערכות בינה מלאכותית.
🔗 מהי בינה מלאכותית
סקירה ברורה של בינה מלאכותית, סוגים ושימושים בעולם האמיתי.
1) התחל עם ההגדרה הלא זוהרת של "טוב"
לפני מדדים, לפני לוחות מחוונים, לפני כל שינוי בנצ'מדדים - החליטו איך נראית הצלחה.
לְהַבהִיר:
-
המשתמש: אנליסט פנימי, לקוח, קלינאי, נהג, נציג תמיכה עייף בשעה 16:00...
-
ההחלטה: לאשר הלוואה, לסמן הונאה, להציע תוכן, לסכם הערות
-
הכשלונות החשובים ביותר:
-
תוצאות חיוביות שגויות (מעצבנות) לעומת תוצאות שליליות שגויות (מסוכנות)
-
-
האילוצים: השהייה, עלות לבקשה, כללי פרטיות, דרישות הסבר, נגישות
זה החלק שבו צוותים נוטים לייעל את עצמם עבור "מדדים יפים" במקום עבור "תוצאה משמעותית". זה קורה הרבה. כאילו... הרבה.
דרך מוצקה לשמור על מודעות לסיכונים (ולא מבוססת על רמזים) היא למסגר בדיקות סביב אמינות וניהול סיכוני מחזור חיים, כפי שעושה NIST במסגרת ניהול הסיכונים של בינה מלאכותית (AI RMF 1.0) [1].

2) מה הופך גרסה טובה של "איך לבדוק מודלים של בינה מלאכותית" ✅
לגישת בדיקה מוצקה יש כמה דברים שלא ניתן להתווכח עליהם:
-
נתונים מייצגים (לא רק נתוני מעבדה נקיים)
-
פיצולים נקיים עם מניעת דליפות (עוד על כך עוד שנייה)
-
מודלים בסיסיים (מודלים פשוטים שכדאי לנצח - קיימים אומדני דמה מסיבה מסוימת [4])
-
מדדים מרובים (כי מספר אחד משקר לך, בנימוס, בפנים שלך)
-
מבחני מאמץ (מקרי קצה, קלט חריג, תרחישים בסגנון עוינות)
-
לולאות סקירה אנושיות (במיוחד עבור מודלים גנרטיביים)
-
ניטור לאחר ההשקה (כי העולם משתנה, צינורות הפעלה נשברים, והמשתמשים... יצירתיים [1])
בנוסף: גישה טובה כוללת תיעוד של מה שבדקתם, מה לא בדקתם, וממה אתם עצבניים. החלק הזה של "ממה אני עצבני" מרגיש לא נעים - וזה גם המקום שבו מתחיל להצטבר אמון.
שני דפוסי תיעוד שעוזרים לצוותים להישאר כנים באופן עקבי:
-
כרטיסי מודל (לשם מה המודל, כיצד הוא הוערך, היכן הוא נכשל) [2]
-
גיליונות נתונים עבור מערכי נתונים (מהם הנתונים, כיצד הם נאספו, למה יש להשתמש בהם/לא) [3]
3) מציאות הכלים: מה אנשים משתמשים בו בפועל 🧰
כלים הם אופציונליים. הרגלי הערכה טובים אינם אופציונליים.
אם אתם רוצים מערך פרגמטי, רוב הצוותים מקבלים שלושה קטגוריות:
-
מעקב אחר ניסויים (הרצה, הגדרות, ארטיפקטים)
-
רתמת הערכה (בדיקות חוזרות במצב לא מקוון + חבילות רגרסיה)
-
ניטור (אותות סחיפה, מדדי ביצועים, התראות על אירועי תקרית)
דוגמאות שתראו הרבה בשטח (לא המלצות, וכן - שינוי תכונות/תמחור): MLflow, Weights & Biases, Great Expectations, Evidently, Deepchecks, OpenAI Evals, TruLens, LangSmith.
אם תבחרו רק רעיון מהסעיף הזה: בנו רתמת הערכה חוזרת . אתם רוצים "ללחוץ על כפתור → לקבל תוצאות דומות", לא "להריץ שוב את המחברת ולהתפלל".
4) בנה את מערך הבדיקות הנכון (ותפסיק לדלוף נתונים) 🚧
מספר מזעזע של דוגמניות "מדהימות" בוגדות בטעות.
עבור ML סטנדרטי
כמה כללים לא סקסיים שמצילים קריירות:
-
שמור על פיצולי אימון/אימות/בדיקה יציבים (ורשום את לוגיקת הפיצול)
-
מניעת כפילויות בין פיצולים (אותו משתמש, אותו מסמך, אותו מוצר, כמעט כפילויות)
-
שימו לב לדליפות של תכונות (מידע עתידי שמתחמק לתכונות "נוכחיות")
-
השתמשו בקווי בסיס (אומדני דמה) כדי שלא תחגגו ניצחון... כלום [4]
הגדרת דליפה (הגרסה המהירה): כל דבר באימון/הערכה שנותן למודל גישה למידע שלא היה לו בזמן קבלת ההחלטה. זה יכול להיות ברור ("תווית עתידית") או עדין ("דליפת חותמת זמן לאחר אירוע").
עבור תואר שני במשפטים ומודלים גנרטיביים
אתם בונים מערכת של הנחיות ומדיניות , לא רק "מודל".
-
צור סט הנחיות זהוב (קטן, איכותי, יציב)
-
הוסף דוגמאות אמיתיות אחרונות (אנונימי + מוגן לפרטיות)
-
שמור על חבילת קצה-מקרה : שגיאות הקלדה, סלנג, עיצוב לא סטנדרטי, קלט ריק, הפתעות רב-לשוניות 🌍
דבר מעשי שראיתי קורה יותר מפעם אחת: צוות מגיע עם ציון "חזק" במצב לא מקוון, ואז תמיכת הלקוחות אומרת, "מגניב. הוא מפספס בביטחון את המשפט האחד שחשוב". התיקון לא היה "מודל גדול יותר". אלא היו הנחיות מבחן טובות יותר , רובריקות ברורות יותר, וחבילת רגרסיה שהענישה בדיוק את מצב הכישלון הזה. פשוט. יעיל.
5) הערכה לא מקוונת: מדדים בעלי משמעות 📏
מדדים זה בסדר. מונוקולטורה מטרי לא.
סיווג (ספאם, הונאה, כוונה, מיון)
השתמש ביותר מדיוק.
-
דיוק, זיכרון, F1
-
כוונון סף (סף ברירת המחדל שלך לעיתים רחוקות "נכון" לעלויות שלך) [4]
-
מטריצות בלבול לפי פלח (אזור, סוג מכשיר, קבוצת משתמשים)
רגרסיה (חיזוי, תמחור, ניקוד)
-
MAE / RMSE (בחר בהתאם לאופן שבו ברצונך להעניש טעויות)
-
בדיקות בסגנון כיול כאשר משתמשים בפלט כ"ציונים" (האם הציונים תואמים את המציאות?)
מערכות דירוג / המלצה
-
NDCG, MAP, MRR
-
פרוסה לפי סוג שאילתה (ראש לעומת זנב)
ראייה ממוחשבת
-
מאפ, חוזה אישום
-
ביצועים לכל שיעור (שיעורים נדירים הם שבהם דוגמנים מביכים אותך)
מודלים גנרטיביים (LLMs)
כאן אנשים מתחילים לחשוב... פילוסופית 😵💫
אפשרויות מעשיות שעובדות בצוותים אמיתיים:
-
הערכה אנושית (האות הטוב ביותר, הלולאה האיטית ביותר)
-
העדפה זוגית / שיעור ניצחון (A נגד B קל יותר מאשר ניקוד מוחלט)
-
מדדי טקסט אוטומטיים (שימושיים עבור משימות מסוימות, מטעים עבור אחרות)
-
בדיקות מבוססות משימות: "האם הבדיקה חילצה את השדות הנכונים?" "האם הבדיקה פעלה לפי המדיניות?" "האם הבדיקה ציטטה מקורות כאשר נדרשה?"
אם אתם רוצים נקודת ייחוס מובנית "רב-מטרי, מרובי תרחישים", HELM הוא עוגן טוב: הוא דוחף במפורש את ההערכה מעבר לדיוק לדברים כמו כיול, חוסן, הטיה/רעילות ופשרות יעילות [5].
סטייה קטנה מהנושא: מדדים אוטומטיים לאיכות כתיבה לפעמים מרגישים כמו לשפוט כריך לפי שקילתו. זה לא כלום, אבל... נו באמת 🥪
6) בדיקת חוסן: תגרמו לזה להזיע קצת 🥵🧪
אם המודל שלך עובד רק על קלט מסודר, זה בעצם אגרטל זכוכית. יפה, שביר, יקר.
מִבְחָן:
-
רעש: שגיאות כתיב, ערכים חסרים, יוניקוד לא סטנדרטי, תקלות עיצוב
-
שינוי הפצה: קטגוריות מוצרים חדשות, סלנג חדש, חיישנים חדשים
-
ערכים קיצוניים: מספרים מחוץ לטווח, מטענים ענקיים, מחרוזות ריקות
-
קלטים "בסגנון עוין" שלא נראים כמו מערך האימונים שלך אבל כן נראים כמו משתמשים
עבור תואר שני במשפטים (LLM), יש לכלול:
-
ניסיונות הזרקה מהירים (הוראות מוסתרות בתוך תוכן המשתמש)
-
דפוסי "התעלם מהוראות קודמות"
-
מקרי קצה של שימוש בכלים (כתובות URL שגויות, פסקי זמן, פלטים חלקיים)
חוסן הוא אחד מאותם מאפייני אמינות שנשמעים מופשטים עד שיש תקריות. אז זה הופך להיות... מוחשי מאוד [1].
7) הטיה, הוגנות, ולמי זה עובד ⚖️
מודל יכול להיות "מדויק" באופן כללי, ובמקביל להיות גרוע יותר באופן עקבי עבור קבוצות ספציפיות. זו לא בעיה קטנה. זוהי בעיה של מוצר ואמון.
צעדים מעשיים:
-
הערכת ביצועים לפי פלחים משמעותיים (ראויים למדידה מבחינה משפטית/אתית)
-
השוואת שיעורי שגיאה וכיול בין קבוצות
-
בדיקת תכונות פרוקסי (מיקוד, סוג מכשיר, שפה) שיכולות לקודד תכונות רגישות
אם אתם לא מתעדים את זה איפשהו, אתם בעצם מבקשים מהעתיד שלכם לאתר באגים של משבר אמון בלי מפה. כרטיסי מודל הם מקום טוב לשים את זה [2], ומסגור האמינות של NIST נותן לכם רשימת בדיקה חזקה של מה ש"טוב" צריך לכלול [1].
8) בדיקות בטיחות ואבטחה (במיוחד עבור תואר שני במשפטים) 🛡️
אם המודל שלך יכול לייצר תוכן, אתה בודק יותר מדיוק. אתה בודק התנהגות.
כלול בדיקות עבור:
-
יצירת תוכן אסורה (הפרות מדיניות)
-
דליפת פרטיות (האם זה מהדהד סודות?)
-
הזיות בתחומים בעלי סיכון גבוה
-
סירוב יתר (המודל מסרב לבקשות רגילות)
-
תוצאות רעילות והטרדה
-
ניסיונות סינון נתונים באמצעות הזרקה מיידית
גישה מבוססת היא: הגדרת כללי מדיניות → בניית הנחיות בדיקה → ניקוד פלטים באמצעות בדיקות אנושיות ואוטומטיות → הפעלת הפעולה בכל פעם שמשהו משתנה. החלק "בכל פעם" הוא שכר הדירה.
זה משתלב בצורה מושלמת בתפיסת סיכון מחזור חיים: ניהול, מיפוי הקשר, מדידה, ניהול, חזרה [1].
9) בדיקות מקוונות: פריסות בשלבים (שם האמת חיה) 🚀
מבחנים לא מקוונים הם הכרחיים. חשיפה מקוונת היא המקום שבו המציאות מתגלה כשהיא נועלת נעליים בוציות.
אתה לא צריך להיות מפואר. אתה רק צריך להיות ממושמע:
-
הפעלה במצב צל (המודל פועל, לא משפיע על המשתמשים)
-
פריסה הדרגתית (תחילה תנועה קטנה, הרחבה אם תקינה)
-
מעקב אחר תוצאות ואירועים (תלונות, הסלמות, כשלים במדיניות)
אפילו אם אינך יכול לקבל תוויות מיידיות, תוכל לנטר אותות פרוקסי ובריאות תפעולית (השהיה, שיעורי כשל, עלות). הנקודה העיקרית: אתה רוצה דרך מבוקרת לגלות כשלים לפני שכל בסיס המשתמשים שלך יעשה זאת [1].
10) ניטור לאחר פריסה: סחיפה, דעיכה וכשל שקט 📉👀
המודל שבדקת הוא לא המודל שאתה חי איתו בסופו של דבר. הנתונים משתנים. המשתמשים משתנים. העולם משתנה. הצינור נשבר בשתיים לפנות בוקר. אתה יודע איך זה..
צג:
-
סחף נתוני קלט (שינויי סכימה, חסר, הזזות התפלגות)
-
סחף פלט (שינויים באיזון הכיתה, שינויים בציון)
-
מדדי ביצועים (מכיוון שעיכובי תוויות אמיתיים)
-
אותות משוב (אגודל למטה, עריכות מחדש, הסלמות)
-
רגרסיות ברמת מקטע (הרוצחים השקטים)
ולהגדיר ספי התראה שאינם רועדים מדי. צג שצועק ללא הרף מתעלם - כמו אזעקת רכב בעיר.
לולאת ה"ניטור + שיפור לאורך זמן" אינה אופציונלית אם חשובה לכם אמינות [1].
11) תהליך עבודה מעשי שתוכלו להעתיק 🧩
הנה לולאה פשוטה שעוברת סקאלה:
-
הגדר מצבי הצלחה + כישלון (כולל עלות/השהיה/בטיחות) [1]
-
צור מערכי נתונים:
-
סט זהב
-
חבילת כיסוי קצה
-
דוגמיות אמיתיות אחרונות (בטוחות בפרטיות)
-
-
בחירת מדדים:
-
מדדי משימות (F1, MAE, שיעור ניצחון) [4][5]
-
מדדי בטיחות (שיעור מעבר המדיניות) [1][5]
-
מדדים תפעוליים (השהייה, עלות)
-
-
בניית רתמת הערכה (פועלת על כל שינוי מודל/שינוי מבוקש) [4][5]
-
הוסף מבחני מאמץ + מבחני עוינות [1][5]
-
סקירה אנושית של מדגם (במיוחד עבור תוצאות של תואר שני במשפטים) [5]
-
משלוח דרך צל + פריסה מדורגת [1]
-
ניטור + התראה + הכשרה מחדש עם משמעת [1]
-
תוצאות המסמך הן כתיבת מודל-כרטיס [2][3]
הכשרה היא זוהרת. מבחנים משלמים שכר דירה.
12) הערות סיכום + סיכום קצר 🧠✨
אם אתם זוכרים רק כמה דברים על איך לבדוק מודלים של בינה מלאכותית :
-
השתמש בנתוני בדיקה מייצגים והימנע מדליפות [4]
-
בחר מספר מדדים הקשורים לתוצאות אמיתיות [4][5]
-
עבור תואר שני במשפטים (LLM), הסתמכו על סקירה אנושית + השוואות סגנון לפי שיעורי ניצחון [5]
-
חוסן הבדיקה - קלטים חריגים הם קלטים רגילים בתחפושת [1]
-
גלגלו בבטחה ועקבו אחר הפרויקט, כי המודלים נסחפים וצינורות נשברים [1]
-
תעדו את מה שעשיתם ואת מה שלא בדקתם (לא נוח אך יעיל) [2][3]
בדיקות הן לא רק "להוכיח שזה עובד". זה "לגלות איך זה נכשל לפני שהמשתמשים שלך נכשלים". וכן, זה פחות סקסי - אבל זה החלק ששומר על המערכת שלך עומדת כשדברים מתנדנדים... 🧱🙂
שאלות נפוצות
הדרך הטובה ביותר לבחון מודלים של בינה מלאכותית כך שיתאימו לצרכים האמיתיים של המשתמש
התחילו בהגדרת "טוב" במונחים של המשתמש האמיתי וההחלטה שהמודל תומך בה, ולא רק מדד של טבלת מובילים. זהו את מצבי הכשל בעלי העלות הגבוהה ביותר (חיובי שגוי לעומת שליליות שגויות) ופרטו אילוצים קשים כמו השהייה, עלות, פרטיות ויכולת הסבר. לאחר מכן בחרו מדדים ומקרי בדיקה המשקפים תוצאות אלו. זה מונע מכם לבצע אופטימיזציה של "מדד יפה" שלעולם לא מתורגם למוצר טוב יותר.
הגדרת קריטריוני הצלחה לפני בחירת מדדי הערכה
רשמו מי המשתמש, באיזו החלטה המודל אמור לתמוך, ואיך נראה "הכשל הגרוע ביותר" בתהליך הייצור. הוסיפו אילוצים תפעוליים כמו השהייה מקובלת ועלות לבקשה, בנוסף לצורכי ממשל כמו כללי פרטיות ומדיניות בטיחות. ברגע שאלה ברורים, מדדים הופכים לדרך למדוד את הדבר הנכון. ללא מסגור זה, צוותים נוטים לסטות לעבר אופטימיזציה של כל מה שהכי קל למדוד.
מניעת דליפת נתונים ורמאות מקרית בהערכת מודלים
שמרו על יציבות של פיצולי אימון/אימות/בדיקה ותעדו את לוגיקת הפיצול כך שהתוצאות יישארו ניתנות לשחזור. חסמו באופן פעיל כפילויות וכמעט כפילויות בין פיצולים (אותו משתמש, מסמך, מוצר או דפוסים חוזרים). שימו לב לדליפות של תכונות שבהן מידע "עתידי" מחליק לקלטים דרך חותמות זמן או שדות לאחר אירוע. קו בסיס חזק (אפילו אומדני דמה) עוזר לכם לשים לב מתי אתם חוגגים רעש.
מה צריכה לכלול רתמת הערכה כדי שבדיקות יישארו ניתנות לחזרה על עצמן לאורך שינויים
רתמה מעשית מרימה מחדש בדיקות דומות על כל מודל, הנחיה או שינוי מדיניות תוך שימוש באותם מערכי נתונים וכללי ניקוד. היא כוללת בדרך כלל חבילת רגרסיה, לוחות מחוונים ברורים של מדדים, ותצורות וממצאים מאוחסנים לצורך מעקב. עבור מערכות LLM, היא זקוקה גם ל"סט זהב" יציב של הנחיות בתוספת חבילת מקרה קצה. המטרה היא "לחץ על כפתור → תוצאות דומות", לא "הפעל מחדש את המחברת והתפלל"
מדדים לבדיקת מודלים של בינה מלאכותית מעבר לדיוק
השתמשו במדדים מרובים, מכיוון שמספר יחיד יכול להסתיר פשרות חשובות. לסיווג, שלבו דיוק/זיכרון/F1 עם מטריצות כוונון סף ובלבול לפי מקטע. לרגרסיה, בחרו MAE או RMSE בהתבסס על האופן שבו תרצו להעניש שגיאות, והוסיפו בדיקות בסגנון כיול כאשר פלטים מתפקדים כמו ציונים. לדירוג, השתמשו בשאילתות NDCG/MAP/MRR ו-slice by head vs tail כדי לזהות ביצועים לא אחידים.
הערכת תפוקות LLM כאשר מדדים אוטומטיים אינם מספקים
התייחסו לזה כאל מערכת של הנחיות ומדיניות ונתנו ניקוד להתנהגות, ולא רק לדמיון טקסט. צוותים רבים משלבים הערכה אנושית עם העדפה זוגית (שיעור ניצחון A/B), בתוספת בדיקות מבוססות משימות כמו "האם זה חילץ את השדות הנכונים" או "האם זה עמד במדיניות". מדדי טקסט אוטומטיים יכולים לעזור במקרים צרים, אך לעתים קרובות הם מפספסים את מה שחשוב למשתמשים. רובריקות ברורות וחבילת רגרסיה בדרך כלל חשובות יותר מציון בודד.
בדיקות חוסן להפעלת המודל כך שלא יישבר בקלטים רועשים
בצעו בדיקת מאמץ של המודל עם שגיאות הקלדה, ערכים חסרים, עיצוב מוזר ו-Unicode לא סטנדרטי, מכיוון שמשתמשים אמיתיים לעיתים רחוקות הם מסודרים. הוסיפו מקרי הזזת התפלגות כמו קטגוריות חדשות, סלנג, חיישנים או דפוסי שפה. כללו ערכים קיצוניים (מחרוזות ריקות, מטענים ענקיים, מספרים מחוץ לטווח) כדי לחשוף התנהגות שבירה. עבור תוכניות LLM, בדקו גם דפוסי הזרקה מהירה וכשלים בשימוש בכלים כמו פסקי זמן או פלטים חלקיים.
בדיקת הטיה והגינות מבלי ללכת לאיבוד בתיאוריה
הערך ביצועים בפרוסות משמעותיות והשווה שיעורי שגיאה וכיול בין קבוצות שבהן זה ראוי מבחינה חוקית ואתית למדוד. חפש תכונות פרוקסי (כגון מיקוד, סוג מכשיר או שפה) שיכולות לקודד תכונות רגישות בעקיפין. מודל יכול להיראות "מדויק באופן כללי" תוך כישלון עקבי עבור קבוצות ספציפיות. תעד את מה שמדדת ומה לא, כך ששינויים עתידיים לא יכניסו מחדש רגרסיות בשקט.
בדיקות בטיחות ואבטחה שיכללו עבור מערכות בינה מלאכותית ו-LLM גנרטיביות
בדיקה לאיתור יצירת תוכן שאינה מותרת, דליפת פרטיות, הזיות בתחומים בעלי סיכון גבוה וסירוב יתר כאשר המודל חוסם בקשות רגילות. כלול ניסיונות הזרקה וחילוץ נתונים מיידית, במיוחד כאשר המערכת משתמשת בכלים או מאחזרת תוכן. זרימת עבודה מבוססת היא: הגדרת כללי מדיניות, בניית מערך הנחיות בדיקה, ציון באמצעות בדיקות אנושיות ואוטומטיות, והרצה חוזרת בכל פעם שהנחיות, נתונים או מדיניות משתנים. עקביות היא שכר הדירה שאתה משלם.
פריסה וניטור של מודלים של בינה מלאכותית לאחר ההשקה כדי לזהות סחיפות ואירועים
השתמשו בדפוסי פריסה מדורגים כמו מצב צל (shadow mode) ועלייה הדרגתית בתעבורה כדי למצוא כשלים לפני שכל בסיס המשתמשים שלכם. עקבו אחר סחיפת קלט (שינויי סכימה, חסרות, שינויי התפלגות) וסחיפת פלט (שינויי ניקוד, שינויי מאזן מחלקה), בנוסף לבריאות תפעולית כמו השהייה ועלות. עקבו אחר אותות משוב כמו עריכות, הסלמות ותלונות, וצפו ברגרסיות ברמת המגזר. כאשר משהו משתנה, הפעילו שוב את אותה רתמה והמשיכו לנטר באופן רציף.
הפניות
[1] NIST - מסגרת ניהול סיכונים של בינה מלאכותית (AI RMF 1.0) (PDF)
[2] מיטשל ואחרים - "כרטיסי מודל לדיווח מודלים" (arXiv:1810.03993)
[3] גברו ואחרים - "גיליונות נתונים עבור מערכי נתונים" (arXiv:1803.09010)
[4] scikit-learn - תיעוד "בחירת מודלים והערכה"
[5] ליאנג ואחרים - "הערכה הוליסטית של מודלים של שפה" (arXiv:2211.09110)