מהו עיבוד מקדים של בינה מלאכותית?

מהו עיבוד מקדים של בינה מלאכותית?

תשובה קצרה: עיבוד מקדים של בינה מלאכותית הוא קבוצה של שלבים חוזרים שהופכים נתונים גולמיים בעלי שונות גבוהה לקלטים עקביים של מודל, כולל ניקוי, קידוד, קנה מידה, טוקניזציה וטרנספורמציות תמונה. זה חשוב מכיוון שאם קלטי האימון וקליטות הייצור שונים, מודלים עלולים להיכשל בשקט. אם שלב "לומד" פרמטרים, יש להתאים אותו רק לנתוני האימון כדי למנוע דליפה.

עיבוד מקדים של בינה מלאכותית הוא כל מה שאתם עושים לנתונים גולמיים לפני (ולפעמים במהלך) אימון או הסקה כדי שמודל יוכל ללמוד מהם בפועל. לא רק "ניקוי". מדובר בניקוי, עיצוב, קנה מידה, קידוד, הרחבה ואריזת נתונים לייצוג עקבי שלא יכשיל את המודל שלכם בשקט מאוחר יותר. [1]

נקודות מפתח:

הגדרה : עיבוד מקדים ממיר טבלאות גולמיות, טקסט, תמונות ויומני רישום לתכונות מוכנות למודל.

עקביות : יש להחיל את אותן טרנספורמציות במהלך האימון וההסקה כדי למנוע כשלים של אי התאמה.

דליפה : התאמת סקיילרים, מקודדים וטוקנייזרים על נתוני אימון בלבד.

שחזור : בניית צינורות עם סטטיסטיקות הניתנות לבדיקה, לא רצפי תאי מחברת אד-הוק.

ניטור ייצור : מעקב אחר הטיה וסחיפה כדי שהקלטים לא יפגעו בהדרגה בביצועים.

מאמרים שאולי תרצו לקרוא אחרי זה:

🔗 כיצד לבחון מודלים של בינה מלאכותית לביצועים בעולם האמיתי
שיטות מעשיות להערכת דיוק, חוסן והטיה במהירות.

🔗 האם טקסט לדיבור הוא בינה מלאכותית וכיצד הוא פועל
מסביר את יסודות TTS, שימושים עיקריים ומגבלות נפוצות כיום.

🔗 האם בינה מלאכותית יכולה לקרוא כתב יד מדויק כיום
מכסה אתגרי זיהוי, הכלים הטובים ביותר וטיפים לדיוק.

🔗 עד כמה מדויקת הבינה המלאכותית במשימות נפוצות
מפרק גורמי דיוק, מדדי ביצועים ואמינות בעולם האמיתי.


עיבוד מקדים של בינה מלאכותית בשפה פשוטה (וגם מה שהוא לא) 🤝

עיבוד מקדים של בינה מלאכותית הוא הפיכת נתונים גולמיים (טבלאות, טקסט, תמונות, יומנים) לתכונות מוכנות למודל. אם נתונים גולמיים הם מוסך מבולגן, עיבוד מקדים הוא תיוג הקופסאות, השלכת גרוטאות שבורות וערימה של דברים כך שתוכלו לעבור דרכם מבלי להיפגע.

זה לא המודל עצמו. אלה הדברים שהופכים את המודל לאפשרי:

  • הפיכת קטגוריות למספרים (מספר אחד, מספר סידורי וכו') [1]

  • קנה מידה של טווחים מספריים גדולים לטווחים רציונליים (סטנדרטיזציה, מינימום-מקסימום וכו') [1]

  • יצירת טוקניזציה של טקסט למזהי קלט (ובדרך כלל מסיכת תשומת לב) [3]

  • שינוי גודל/חיתוך תמונות ויישום טרנספורמציות דטרמיניסטיות לעומת טרנספורמציות אקראיות בהתאם [4]

  • בניית צינורות חוזרים כך שההדרכה והקלטים "מהחיים האמיתיים" לא יתפצלו בדרכים עדינות [2]

הערה קטנה ומעשית: "עיבוד מקדים" כולל כל מה שקורה באופן עקבי לפני שהמודל רואה את הקלט . חלק מהצוותים מחלקים זאת ל"הנדסת תכונות" לעומת "ניקוי נתונים", אך בחיים האמיתיים קווים אלה מטשטשים.

 

עיבוד מקדים של בינה מלאכותית

למה עיבוד מקדים של בינה מלאכותית חשוב יותר ממה שאנשים מודים 😬

מודל הוא מכשיר להתאמה של תבניות, לא קורא מחשבות. אם הקלט שלך אינו עקבי, המודל לומד כללים לא עקביים. זה לא פילוסופי, זה פשוטו כמשמעו.

עיבוד מקדים עוזר לך:

  • שיפור יציבות הלמידה על ידי הוספת תכונות לייצוגים שאומדנים יכולים להשתמש בהן באופן אמין (במיוחד כאשר מדובר בשינוי קנה מידה/קידוד). [1]

  • הפחתת רעש על ידי כך שגורמת למציאות מבולגנת להיראות כמו משהו שמודל יכול להכליל ממנו (במקום לשנן ארטיפקטים מוזרים).

  • מניעת מצבי כשל שקטים כמו דליפה ואי-התאמות בין train/serv (אלה שנראים "מדהימים" באימות ואז מתחברים בייצור). [2]

  • האצת האיטרציה משום שטרנספורמציות חוזרות מנצחות ספגטי במחברת בכל יום בשבוע.

וגם, משם מגיעים הרבה מ"ביצועי דוגמנות". כאילו... באופן מפתיע הרבה. לפעמים זה מרגיש לא הוגן, אבל זו המציאות 🙃


מה הופך צינור עיבוד מקדים של בינה מלאכותית לטוב ✅

"גרסה טובה" של עיבוד מקדים בדרך כלל כוללת את התכונות הבאות:

  • ניתן לשחזור : אותו קלט → אותו פלט (אין אקראיות מסתורית אלא אם כן מדובר בהגדלה מכוונת).

  • עקביות בהגשת האימון : כל מה שאתה עושה בזמן האימון מיושם באותו אופן בזמן ההסקה (אותם פרמטרים מותאמים, אותם מפות קטגוריות, אותה תצורת טוקנייזר וכו'). [2]

  • הגנה מפני דליפות : שום דבר בהערכה/בדיקה לא משפיע על ההתאמה . (עוד על מלכודת זו בקרוב.) [2]

  • ניתן לצפייה : ניתן לבדוק מה השתנה (סטטיסטיקות תכונות, חסרות, ספירת קטגוריות) כך שדיאגרוף אינו הנדסה מבוססת ויברציות.

אם העיבוד המקדים שלך הוא ערימה של תאי מחברת שנקראים final_v7_really_final_ok ... אתה יודע איך זה עובד. זה עובד עד שזה לא עובד 😬


אבני הבניין המרכזיות של עיבוד מקדים של בינה מלאכותית 🧱

חשבו על עיבוד מקדים כעל קבוצת אבני בניין שאתם משלבים לכדי צינור.

1) ניקוי ואימות 🧼

משימות אופייניות:

  • הסר כפילויות

  • לטפל בערכים חסרים (להשמיט, להזדקק או לייצג חסר במפורש)

  • אכיפת סוגים, יחידות וטווחים

  • לזהות קלט שגוי

  • סטנדרטיזציה של פורמטי טקסט (רווחים לבנים, כללי רישיות, מוזרויות יוניקוד)

החלק הזה לא זוהר, אבל הוא מונע טעויות טיפשיות ביותר. אני אומר את זה באהבה.

2) קידוד נתונים קטגוריים 🔤

רוב המודלים לא יכולים להשתמש ישירות במחרוזות גולמיות כמו "red" או "premium_user" .

גישות נפוצות:

  • קידוד חד-פעמי (קטגוריה → עמודות בינאריות) [1]

  • קידוד סידורי (קטגוריה → מזהה מספר שלם) [1]

הדבר המרכזי אינו איזה מקודד תבחרו - אלא שהמיפוי יישאר עקבי ולא "ישנה צורה" בין אימון להסקה. כך תקבלו מודל שנראה בסדר במצב לא מקוון ומתנהג כמו רדוף רוחות באינטרנט. [2]

3) קנה מידה ונורמליזציה של תכונות 📏

קנה המידה חשוב כאשר תכונות חיות בטווחים שונים בתכלית.

שתי קלאסיקות:

  • סטנדרטיזציה : הסרת ממוצע ושינוי קנה מידה לשונות יחידה [1]

  • קנה מידה מינימלי-מקסימלי : קנה מידה של כל תכונה לטווח מוגדר [1]

אפילו כשמשתמשים במודלים ש"ברובם מתמודדים", קנה מידה לעיתים קרובות מקל על ההיגיון לגבי צינורות - וקשה יותר לשבור אותם בטעות.

4) הנדסת תכונות (aka רמאות שימושית) 🧪

כאן אתם מקלים על עבודת המודל על ידי יצירת אותות טובים יותר:

  • יחסים (קליקים / חשיפות)

  • חלונות מתגלגלים (ב-N הימים האחרונים)

  • ספירות (אירועים לכל משתמש)

  • טרנספורמציות לוגריתמיות עבור התפלגויות בעלות זנב כבד

יש כאן אמנות. לפעמים תיצרו כתבה, תרגישו גאים... והיא לא עושה כלום. או גרוע מכך, היא פוגעת. זה נורמלי. אל תיקשרו רגשית לכתבות - הן לא אוהבות אתכם בחזרה 😅

5) פיצול נתונים בצורה הנכונה ✂️

זה נשמע מובן מאליו עד שזה לא:

  • פיצולים אקראיים עבור נתוני iid

  • פיצולים מבוססי זמן עבור סדרות זמן

  • פיצולים מקובצים כאשר ישויות חוזרות על עצמן (משתמשים, מכשירים, מטופלים)

וחשוב מכל: פיצול לפני התאמה של עיבוד מקדים שלומד מנתונים . אם שלב העיבוד המקדים שלך "לומד" פרמטרים (כמו ממוצעים, אוצר מילים, מפות קטגוריות), עליו ללמוד אותם מאימון בלבד. [2]


עיבוד מקדים של בינה מלאכותית לפי סוג נתונים: טבלאי, טקסט, תמונות 🎛️

עיבוד מקדים משנה צורה בהתאם למה שאתה מזין את המודל.

נתונים טבלאיים (גליונות אלקטרוניים, יומנים, מסדי נתונים) 📊

צעדים נפוצים:

  • אסטרטגיית ערך חסר

  • קידוד קטגורי [1]

  • שינוי קנה מידה של עמודות מספריות [1]

  • טיפול בחריגים (כללי תחום גוברים על "גזירה אקראית" ברוב הזמן)

  • תכונות נגזרות (צבירה, השהיות, סטטיסטיקות מתגלגלות)

עצה מעשית: הגדירו קבוצות עמודות במפורש (מספריות לעומת קטגוריות לעומת מזהים). העצמי העתידי שלכם יודה לכם.

נתוני טקסט (NLP) 📝

עיבוד מקדים של טקסט כולל לעתים קרובות:

  • טוקניזציה לאסימונים/מילות משנה

  • המרה למזהי קלט

  • ריפוד/קיצור

  • בניית מסכות קשב עבור עיבוד קבוצות [3]

כלל קטן שחוסך כאב ראש: עבור הגדרות מבוססות טרנספורמטור, עקבו אחר הגדרות הטוקנייזר הצפויות של המודל ואל תעשו פריסטייל אלא אם כן יש לכם סיבה. פריסטייל הוא איך אתם בסופו של דבר מקבלים "זה מתאמן אבל זה מוזר"

תמונות (ראייה ממוחשבת) 🖼️

עיבוד מקדים טיפוסי:

  • שינוי גודל / חיתוך לצורות עקביות

  • טרנספורמציות דטרמיניסטיות לצורך הערכה

  • טרנספורמציות אקראיות להגדלת אימון (למשל, חיתוך אקראי) [4]

פרט אחד שאנשים מפספסים: "טרנספורמציות אקראיות" הן לא רק ויברציה - הן פשוט דוגמות פרמטרים בכל פעם שהן נקראות. נהדר לאימון גיוון, נורא להערכה אם שוכחים לכבות את האקראיות. [4]


המלכודת שכולם נופלים לתוכה: דליפת נתונים 🕳️🐍

דליפה היא כאשר מידע מנתוני הערכה מתגנב לאימון - לעתים קרובות באמצעות עיבוד מקדים. זה יכול לגרום למודל שלך להיראות קסום במהלך האימות, ואז לאכזב אותך בעולם האמיתי.

דפוסי דליפה נפוצים:

  • קנה מידה באמצעות סטטיסטיקות של מערך נתונים מלא (במקום אימון בלבד) [2]

  • בניית מפות קטגוריות באמצעות train+test יחד [2]

  • כל ב-fit() או ב-fit_transform() ש"רואה" את קבוצת הבדיקה [2]

כלל אצבע (פשוט, אכזרי, יעיל):

  • כל דבר עם בכושר צריך להיות בכושר באימון בלבד.

  • לאחר מכן, עליך לבצע טרנספורמציה של אימות/בדיקה באמצעות השנאי המותאם. [2]

ואם אתם רוצים בדיקת בטן של "כמה גרוע זה כבר יכול להיות?": המסמכים של scikit-learn מציגים דוגמה לדליפה שבה סדר עיבוד מקדים שגוי מניב דיוק של כ -0.76 על מטרות אקראיות - ואז יורד חזרה ל-~ 0.5 לאחר תיקון הדליפה. כך דליפה יכולה להיראות שגויה באופן משכנע. [2]


הכנסת עיבוד מקדים לייצור ללא כאוס 🏗️

הרבה מודלים נכשלים בייצור לא בגלל שהמודל "רע", אלא בגלל שמציאות הקלט משתנה - או שה-pipeline שלך ​​משתנה.

עיבוד מקדים ממוקד ייצור כולל בדרך כלל:

  • ארטיפקטים שנשמרו (מיפויי מקודד, פרמטרי קנה מידה, תצורת טוקנייזר) כך שההסקה משתמשת בדיוק באותן טרנספורמציות שנלמדו [2]

  • חוזי קלט קפדניים (עמודות/סוגים/טווחים צפויים)

  • ניטור הטיה וסחיפה , מכיוון שנתוני הייצור ינועו [5]

אם אתם רוצים הגדרות קונקרטיות: ניטור מודל הבינה המלאכותית של גוגל, Vertex AI Model Monitoring, מבחין בין הטיה של הגשת הדרכה (התפלגות הייצור סוטה מההתפלגות) לבין סחיפה של הסקה (התפלגות הייצור משתנה לאורך זמן), ותומך בניטור הן עבור מאפיינים קטגוריים והן עבור מאפיינים מספריים. [5]

כי הפתעות הן יקרות. ולא מהסוג הכיפי.


טבלת השוואה: כלי עיבוד מקדים + ניטור נפוצים (ולמי הם מיועדים) 🧰

כלי / ספרייה הכי טוב עבור מְחִיר למה זה עובד (וקצת כנות)
עיבוד מקדים של scikit-learn צינורות ML טבלאיים לְשַׁחְרֵר מקודדים מוצקים + סקאלרים (OneHotEncoder, StandardScaler וכו') והתנהגות צפויה [1]
אסימוני חיבוק פנים הכנת קלט NLP לְשַׁחְרֵר מייצר מזהי קלט + מסכות תשומת לב באופן עקבי בין ריצות/מודלים [3]
טרנספורמציות לפיד שינויים בראייה + הגדלה לְשַׁחְרֵר דרך נקייה לערבב טרנספורמציות דטרמיניסטיות ואקראיות בצינור אחד [4]
ניטור מודל בינה מלאכותית של ורטקס זיהוי סחיפה/הטיה במוצר בתשלום (ענן) צגים כוללים הטיה/סחיפה ומתריעים כאשר חורגים מערכי ספים [5]

(כן, עדיין יש דעות בטבלה. אבל לפחות אלו דעות כנות 😅)


רשימת בדיקה מעשית לעיבוד מקדים שתוכלו להשתמש בה בפועל 📌

לפני האימון

  • הגדרת סכימת קלט (סוגים, יחידות, טווחים מותרים)

  • ביקורת ערכים חסרים וכפילויות

  • פיצול נתונים בצורה הנכונה (אקראי / מבוסס זמן / מקובץ)

  • עיבוד מקדים של התאמה באימון בלבד ( fit / fit_transform נשאר באימון) [2]

  • שמירת ארטיפקטים של עיבוד מקדים כדי שניתן יהיה להשתמש בהם שוב באמצעות הסקה [2]

במהלך האימון

  • יש ליישם הגדלה אקראית רק במידת הצורך (בדרך כלל רק פיצול אימון) [4]

  • שמור על דטרמיניזם של עיבוד מקדים של הערכה [4]

  • מעקב אחר שינויים מוקדמים בעיבוד כמו שינויים במודל (כי הם כאלה)

לפני הפריסה

  • ודא שההסקה משתמשת באותו נתיב עיבוד מקדים ובזהות של ארטיפקטים [2]

  • הגדר ניטור סחיפה/הטיה (אפילו בדיקות בסיסיות של התפלגות תכונות עוזרות רבות) [5]


צלילה מעמיקה: טעויות נפוצות בעיבוד מקדים (ואיך להתחמק מהן) 🧯

טעות 1: "אני פשוט אהפוך הכל לנרמל במהירות" 😵

אם מחשבים פרמטרי קנה מידה על מערך הנתונים המלא, מדליפים מידע הערכה. התאם לרכבת, טרנספורמציה של השאר. [2]

טעות 2: קטגוריות נסחפות לכאוס 🧩

אם מיפוי הקטגוריות שלך עובר בין אימון להסקה, המודל שלך יכול לקרוא את העולם בצורה שגויה בשקט. שמור על מיפויים קבועים באמצעות ארטיפקטים שנשמרו. [2]

טעות 3: הגדלה אקראית מתגנבת לתוך הערכה 🎲

טרנספורמציות אקראיות הן נהדרות באימון, אבל הן לא צריכות להיות "פעילות בסתר" כשמנסים למדוד ביצועים. (אקראי פירושו אקראי.) [4]


הערות אחרונות 🧠✨

עיבוד מקדים של בינה מלאכותית הוא האמנות המסודרת של הפיכת מציאות מבולגנת לקלטי מודל עקביים. הוא מכסה ניקוי, קידוד, קנה מידה, טוקניזציה, טרנספורמציות תמונה, וחשוב מכל - צינורות וחפצים חוזרים.

  • בצעו עיבוד מקדים במכוון, לא באקראי. [2]

  • פיצול תחילה, התאמת טרנספורמציות באימון בלבד, הימנעות מדליפה. [2]

  • השתמשו בעיבוד מקדים המתאים למודאליות (טוקנייזרים לטקסט, טרנספורמציות לתמונות). [3][4]

  • ניטור הטיה/סחיפה בייצור כדי שהמודל שלך לא יסחף לאט לאט לשטויות [5]

ואם אי פעם נתקעתם, שאלו את עצמכם:
"האם שלב העיבוד המקדים הזה עדיין יהיה הגיוני אם אריץ אותו מחר על נתונים חדשים לגמרי?"
אם התשובה היא "אה... אולי?", זה הרמז שלכם 😬


שאלות נפוצות

מהו עיבוד מקדים של בינה מלאכותית, במילים פשוטות?

עיבוד מקדים של בינה מלאכותית הוא אוסף שלבים חוזרים שהופכים נתונים גולמיים רועשים ובעלי שונות גבוהה לקלטים עקביים שממנו ניתן ללמוד מודל. זה יכול לכלול ניקוי, אימות, קידוד קטגוריות, שינוי קנה מידה של ערכים מספריים, יצירת טוקניזציה של טקסט ויישום טרנספורמציות תמונה. המטרה היא להבטיח שהאימון וההסקה של הייצור יראו את אותו סוג קלט, כך שהמודל לא יסחף להתנהגות בלתי צפויה בהמשך.

מדוע עיבוד מקדים של בינה מלאכותית כל כך חשוב בייצור?

עיבוד מקדים חשוב משום שמודלים רגישים לייצוג קלט. אם נתוני אימון עוברים קנה מידה, קידוד, טוקניזציה או טרנספורמציה באופן שונה מנתוני ייצור, ניתן לקבל כשלים של אי-התאמה בין אימון/הגשה שנראים בסדר במצב לא מקוון אך נכשלים בשקט במצב מקוון. צינורות חזקים של עיבוד מקדים גם מפחיתים רעש, משפרים את יציבות הלמידה ומזרזים איטרציה מכיוון שאינכם מתירים ספגטי במחברת.

כיצד ניתן להימנע מדליפת נתונים בעת עיבוד מקדים?

כלל פשוט עובד: כל דבר עם התאמה חייב להתאים רק לנתוני אימון. זה כולל סקלר, מקודדים וטוקנייזרים שלומדים פרמטרים כמו ממוצעים, מפות קטגוריות או אוצר מילים. ראשית מפצלים, מתאימים לפיצול האימון, ואז מבצעים טרנספורמציה של אימות/בדיקה באמצעות השנאי המותאם. דליפה יכולה לגרום לאימות להיראות טוב "באופן קסום" ואז לקרוס בשימוש בייצור.

מהם שלבי העיבוד המקדים הנפוצים ביותר עבור נתונים טבלאיים?

עבור נתונים טבלאיים, הצינור הרגיל כולל ניקוי ואימות (סוגים, טווחים, ערכים חסרים), קידוד קטגורי (קוד אחד-חם או סידורלי), וקנה מידה מספרי (סטנדרטיזציה או מינימום-מקסימום). צינורות רבים מוסיפים הנדסת תכונות מונחית-תחום כמו יחסים, חלונות מתגלגלים או ספירות. הרגל מעשי הוא להגדיר קבוצות עמודות במפורש (מספריות לעומת קטגוריות לעומת מזהים) כך שהטרנספורמציות שלך יישארו עקביות.

כיצד פועל עיבוד מקדים עבור מודלים של טקסט?

עיבוד מקדים של טקסט בדרך כלל פירושו יצירת טוקניזציה לטוקנים/מילות משנה, המרתם למזהי קלט וטיפול בריפוד/קיצוץ לצורך עיבוד קבוצות (batching). זרימות עבודה רבות של טרנספורמר יוצרות גם מסיכת תשומת לב לצד המזהים. גישה נפוצה היא להשתמש בתצורת המייצר הצפויה של המודל במקום לאלתר, מכיוון שהבדלים קטנים בהגדרות המייצר יכולים להוביל לתוצאות של "הוא מתאמן אבל מתנהג בצורה בלתי צפויה".

מה שונה בעיבוד מקדים של תמונות עבור למידת מכונה?

עיבוד מקדים של תמונה בדרך כלל מבטיח צורות עקביות וטיפול בפיקסלים: שינוי גודל/חיתוך, נרמול וחלוקה ברורה בין טרנספורמציות דטרמיניסטיות לאקראיות. לצורך הערכה, טרנספורמציות צריכות להיות דטרמיניסטיות כך שניתן יהיה להשוות את המדדים. לצורך אימון, הגדלה אקראית (כמו חיתוכים אקראיים) יכולה לשפר את החוסן, אך יש להתאים את האקראיות באופן מכוון לחלוקת האימון, ולא להשאיר אותה פעילה בטעות במהלך ההערכה.

מה הופך צינור קדם-עיבוד ל"טוב" במקום שביר?

צינור טוב של עיבוד מקדים של בינה מלאכותית הוא ניתן לשחזור, בטוח מפני דליפות וניתן לצפייה. ניתן לשחזור פירושו שאותו קלט מייצר את אותו פלט אלא אם כן האקראיות היא הגדלה מכוונת. בטוח מפני דליפות פירושו ששלבי התאמה לעולם אינם נוגעים באימות/בדיקה. ניתן לצפייה פירושו שניתן לבדוק נתונים סטטיסטיים כמו חסרות, ספירת קטגוריות והתפלגות תכונות, כך שדיפוי באגים מבוסס על ראיות, לא על תחושת בטן. צינורות עולים על רצפי מחברת אד-הוק בכל פעם.

כיצד אוכל לשמור על עקביות באימון ובעיבוד מקדים של הסקות?

המפתח הוא לעשות שימוש חוזר באותם ארטיפקטים שנלמדו בדיוק בזמן ההסקה: פרמטרי קנה מידה, מיפויי מקודד ותצורות טוקנייזר. אתם רוצים גם חוזה קלט (עמודות, סוגים וטווחים צפויים) כדי שנתוני הייצור לא יוכלו להיסחף בשקט לצורות לא חוקיות. עקביות היא לא רק "לעשות את אותם שלבים" - היא "לעשות את אותם שלבים עם אותם פרמטרים ומיפויים מותאמים"

כיצד ניתן לנטר בעיות קדם-עיבוד כמו סחיפה והטיה לאורך זמן?

אפילו עם צבר יציב, נתוני הייצור משתנים. גישה נפוצה היא לנטר שינויים בהתפלגות התכונות ולהתריע על הטיה בהגשת הדרכה (הייצור סוטה מהאימון) וסטיית הסקה (שינויים בייצור לאורך זמן). ניטור יכול להיות קל משקל (בדיקות התפלגות בסיסיות) או מנוהל (כמו ניטור מודלים של Vertex AI). המטרה היא לתפוס שינויים בקלט מוקדם - לפני שהם פוגעים באיטיות בביצועי המודל.

הפניות

[1] ממשק API של scikit-learn:
sklearn.preprocessing (מקודדים, סקאלרים, נורמליזציה) [2] scikit-learn: מלכודות נפוצות - דליפת נתונים וכיצד להימנע ממנה
[3] מסמכי Hugging Face Transformers: טוקנייזרים (מזהי קלט, מסכות תשומת לב)
[4] מסמכי PyTorch Torchvision: טרנספורמציות (שינוי גודל/נרמול + טרנספורמציות אקראיות)
[5] מסמכי Google Cloud Vertex AI: סקירת ניטור מודלים (הטיה וסחיפה של תכונות)

מצאו את הבינה המלאכותית העדכנית ביותר בחנות הרשמית של עוזרי בינה מלאכותית

אודותינו

חזרה לבלוג