כיצד לפרוס מודלים של בינה מלאכותית

כיצד לפרוס מודלים של בינה מלאכותית

תשובה קצרה: פריסת מודל בינה מלאכותית פירושה בחירת דפוס הגשה (בזמן אמת, אצווה, סטרימינג או קצה), ולאחר מכן הפיכת הנתיב כולו לניתן לשחזור, לצפייה, מאובטח והפיך. כאשר מבצעים גרסאות של הכל ובודקים את השהיית p95/p99 על מטענים דמויי ייצור, עוקפים את רוב הכשלים של "עובד על המחשב הנייד שלי".

נקודות מפתח:

דפוסי פריסה: בחרו בזמן אמת, אצווה, סטרימינג או קצה לפני שאתם מתחייבים לכלים.

שחזור: גרסת המודל, התכונות, הקוד והסביבה כדי למנוע סחיפה.

נצפית: ניטור רציף של זנבות השהייה, שגיאות, רוויה והתפלגויות נתונים או פלט.

פריסות בטוחות: השתמשו בבדיקות קנריות, כחול-ירוק או צל עם ספי החזרה אוטומטיים.

אבטחה ופרטיות: החלת ניהול אימות, מגבלות קצב וסודות, וצמצום מידע אישי מזהה ביומנים.

כיצד לפרוס מודלים של בינה מלאכותית? אינפוגרפיקה

מאמרים שאולי תרצו לקרוא אחרי זה: 

🔗 כיצד למדוד ביצועי בינה מלאכותית
למד מדדים, מדדים ובדיקות מהעולם האמיתי לקבלת תוצאות אמינות של בינה מלאכותית.

🔗 כיצד להפוך משימות לאוטומטיות בעזרת בינה מלאכותית
הפכו עבודה חוזרת ונשנית לזרימות עבודה באמצעות הנחיות, כלים ואינטגרציות.

🔗 כיצד לבדוק מודלים של בינה מלאכותית
תכננו הערכות, מערכי נתונים וניקוד כדי להשוות מודלים באופן אובייקטיבי.

🔗 איך לדבר עם בינה מלאכותית
שאל שאלות טובות יותר, קבע הקשר וקבל תשובות ברורות יותר במהירות.


1) מה באמת משמעות המילה "פריסה" (ולמה זה לא רק API) 🧩

כאשר אנשים אומרים "לפרוס את המודל", הם עשויים להתכוון לכל אחד מהבאים:

אז פריסה היא פחות "להפוך את המודל לנגיש" ויותר כמו:

זה קצת כמו לפתוח מסעדה. לבשל מנה נהדרת זה חשוב, ברור. אבל אתם עדיין צריכים את הבניין, הצוות, הקירור, התפריטים, שרשרת האספקה, ודרך להתמודד עם הבהלה של ארוחת הערב בלי לבכות במקפיא. לא מטאפורה מושלמת... אבל הבנתם. 🍝


2) מה הופך גרסה טובה של "כיצד לפרוס מודלים של בינה מלאכותית" ✅

"פריסה טובה" היא משעממת במובן הטוב ביותר. היא מתנהגת בצורה צפויה תחת לחץ, וכאשר היא לא מתפקדת, ניתן לאבחן אותה במהירות.

כך נראה בדרך כלל "טוב":

  • בניות ניתנות לשחזור
    אותו קוד + אותן תלויות = אותה התנהגות. אין תחושה מפחידה של "עובד על המחשב הנייד שלי" 👻 ( Docker: מה זה קונטיינר? )

  • חוזה ממשק ברור.
    קלט, פלט, סכמות ומקרי קצה מוגדרים. אין סוגי הפתעה בשעה 2 לפנות בוקר. ( OpenAPI: מה זה OpenAPI?, סכימת JSON )

  • ביצועים התואמים את המציאות.
    השהייה ותפוקה נמדדים על חומרה דמוית ייצור ומטענים מציאותיים.

  • ניטור באמצעות מדדים
    , יומני רישום, עקבות ובדיקות סחיפה שמפעילות פעולה (לא רק לוחות מחוונים שאף אחד לא פותח). ( ספר SRE: ניטור מערכות מבוזרות )

  • אסטרטגיית פריסה בטוחה:
    קנרי או כחול-ירוק, החזרה לאחור קלה, ניהול גרסאות שאינו דורש תפילה. ( שחרור קנרי , פריסה כחול-ירוק )

  • מודעות לעלויות
    "מהיר" זה נהדר עד שהחשבון נראה כמו מספר טלפון 📞💸

  • אבטחה ופרטיות משולבות
    בניהול סודות, בקרת גישה, טיפול במידע אישי מזהה (PII), יכולת ביקורת. ( סודות Kubernetes , NIST SP 800-122 )

אם אתם יכולים לעשות את זה באופן עקבי, אתם כבר לפני רוב הקבוצות. בואו נהיה כנים.


3) בחרו את דפוס הפריסה הנכון (לפני שאתם בוחרים כלים) 🧠

הסקת מסקנות API בזמן אמת ⚡

הכי טוב כאשר:

  • משתמשים זקוקים לתוצאות מיידיות (המלצות, בדיקות הונאה, צ'אט, התאמה אישית)

  • החלטות חייבות להתקבל במהלך בקשה

זהירות:

ניקוד קבוצתי 📦

הכי טוב כאשר:

  • ניתן לעכב תחזיות (ניקוד סיכונים בן לילה, חיזוי נטישה, העשרת ETL) ( Amazon SageMaker Batch Transform )

  • אתם רוצים יעילות עלויות ותפעול פשוט יותר

זהירות:

  • רעננות נתונים ומילוי חוזר

  • שמירה על עקביות של לוגיקת התכונות עם האימון

הסקת מסקנות סטרימינג 🌊

הכי טוב כאשר:

  • אתם מעבדים אירועים באופן רציף (IoT, קליקסטרים, מערכות ניטור)

  • אתם רוצים החלטות כמעט בזמן אמת ללא תגובה מדוקדקת לבקשה

זהירות:

פריסת קצה 📱

הכי טוב כאשר:

זהירות:

בחר קודם את התבנית, אחר כך את הערימה. אחרת תכריח מודל מרובע להסתובב בזמן ריצה עגול. או משהו כזה. 😬


4) אריזת המודל כך שישרוד מגע עם הייצור 📦🧯

כאן רוב "הפריסות הקלות" מתות בשקט.

גרסה של הכל (כן, הכל)

  • ארטיפקט מודל (משקלים, גרף, טוקנייזר, מפות תוויות)

  • לוגיקת תכונות (טרנספורמציות, נורמליזציה, מקודדים)

  • קוד הסקה (לפני/אחרי עיבוד)

  • סביבה (Python, CUDA, ספריות מערכת)

גישה פשוטה שעובדת:

  • התייחסו למודל כאל חפץ שחרור

  • אחסן אותו עם תגית גרסה

  • דורשים קובץ מטא-דאטה בסגנון כרטיס מודל: סכימה, מדדים, הערות על תמונת מצב של נתוני אימון, מגבלות ידועות ( כרטיסי מודל לדיווח מודלים )

מיכלים עוזרים, אבל אל תעריצו אותם 🐳

מיכלים נהדרים כי הם:

  • הקפאת תלויות ( Docker: מהו מכולה? )

  • סטנדרטיזציה של בניות

  • לפשט את יעדי הפריסה

אבל אתה עדיין צריך לנהל:

סטנדרטיזציה של הממשק

החליטו על פורמט הקלט/פלט שלכם מוקדם:

אנא אמתו את הקלטים. קלטים לא חוקיים הם הסיבה העיקרית לכרטיסי "למה זה מחזיר שטויות". ( OpenAPI: מה זה OpenAPI?, סכימת JSON )


5) אפשרויות הגשה - מ-"API פשוט" ועד לשרתי מודל מלאים 🧰

ישנם שני מסלולים נפוצים:

אפשרות א': שרת אפליקציה + קוד הסקה (גישה בסגנון FastAPI) 🧪

אתה כותב API שטוען את המודל ומחזיר תחזיות. ( FastAPI )

יתרונות:

  • קל להתאמה אישית

  • מעולה לדגמים פשוטים יותר או למוצרים בשלבים מוקדמים

  • אימות, ניתוב ואינטגרציה פשוטים

חסרונות:

  • כוונון ביצועים משלך (אצווה, עיבוד שבבים, ניצול GPU)

  • אתה תמציא מחדש כמה גלגלים, אולי בהתחלה רע

אפשרות ב': שרת מודל (גישה בסגנון TorchServe / Triton) 🏎️

שרתים ייעודיים המטפלים ב:

יתרונות:

  • דפוסי ביצועים טובים יותר ישר מהקופסה

  • הפרדה נקייה יותר בין הגשה ללוגיקה עסקית

חסרונות:

  • מורכבות תפעולית נוספת

  • התצורה יכולה להרגיש... מסורבלת, כמו כוונון טמפרטורת מקלחת

דפוס היברידי הוא נפוץ מאוד:


6) טבלת השוואה - דרכים פופולריות לפריסה (עם וייבים כנים) 📊😌

להלן תמונה מעשית של אפשרויות שאנשים משתמשים בהן בפועל כשהם מבינים כיצד לפרוס מודלים של בינה מלאכותית .

כלי / גישה קהל מְחִיר למה זה עובד
Docker + FastAPI (או דומה) צוותים קטנים, סטארטאפים חינמי-יש פשוט, גמיש, מהיר למשלוח - תרגישו כל בעיית קנה מידה ( Docker , FastAPI )
קוברנטס (עשה זאת בעצמך) צוותי פלטפורמה תלוי-אינפרא שליטה + גמישות... וגם, הרבה כפתורים, חלקם מקוללים ( Kubernetes HPA )
פלטפורמת ML מנוהלת (שירות ML בענן) קבוצות שרוצות פחות אופציות שלם לפי הצורך זרימות עבודה מובנות בפריסה, ווים לניטור - לפעמים יקרים עבור נקודות קצה שתמיד פועלות ( פריסת Vertex AI , הסקה בזמן אמת של SageMaker )
פונקציות ללא שרת (להסקה קלה) אפליקציות מונחות אירועים תשלום לפי שימוש מעולה לתנועה קוצנית - אבל התנעות קרות וגודל הדגם יכולים להרוס לכם את היום 😬 ( התנעות קרות של AWS Lambda )
שרת הסקה של NVIDIA Triton צוותים ממוקדי ביצועים תוכנה חינמית, עלות תשתית ניצול GPU מעולה, עיבוד אצווה, ריבוי מודלים - תצורה דורשת סבלנות ( Triton: עיבוד אצווה דינמי )
לפידסרב צוותים כבדי PyTorch תוכנה חופשית דפוסי הגשה ברירת מחדל סבירים - ייתכן שיהיה צורך לכוונן עבור קנה מידה גבוה ( מסמכי TorchServe )
BentoML (אריזה + הגשה) מהנדסי ML ליבה חינם, תוספות משתנות אריזה חלקה, חוויית מפתח נעימה - עדיין צריך אפשרויות תשתית ( אריזת BentoML לפריסה )
ריי סרוו אנשים של מערכות מבוזרות תלוי-אינפרא ניתן להרחבה אופקית, טוב לצינורות - מרגיש "גדול" לפרויקטים קטנים ( מסמכי Ray Serve )

הערה לטבלה: "חינם-במידה" זו מונחים אמיתיים. כי זה אף פעם לא בחינם. תמיד יש חשבון איפשהו, גם אם זה השינה שלך. 😴


7) ביצועים וקנה מידה - השהייה, תפוקה והאמת 🏁

כוונון ביצועים הוא המקום שבו פריסה הופכת למלאכה. המטרה אינה "מהירה". המטרה היא להיות מהירה מספיק באופן עקבי .

מדדים מרכזיים שחשובים

מנופים נפוצים למשיכה

  • שילוב
    בקשות כדי למקסם את ניצול ה-GPU. מצוין לתפוקה, עלול לפגוע ב-Latency אם מגזימים. ( טריטון: עיבוד דינמי של batches )

  • קוונטיזציה
    דיוק נמוך יותר (כמו INT8) יכול להאיץ את ההסקה ולהפחית את הזיכרון. עלול לפגוע מעט בדיוק. לפעמים לא, באופן מפתיע. ( קוונטיזציה לאחר אימון )

  • קומפילציה/אופטימיזציה
    של ייצוא ONNX, אופטימיזצי גרפים, זרימות דמויות TensorRT. עוצמתי, אך ניפוי שגיאות יכול להיות קשה 🌶️ ( ONNX , אופטימיזציות מודל זמן ריצה של ONNX )

  • אחסון במטמון
    אם קלט חוזר על עצמו (או שניתן לשמור הטמעות במטמון), ניתן לחסוך הרבה.

  • אוטומטי -
    קנה מידה בהתאם לניצול המעבד/כרטיס הגרפי, עומק התור או קצב הבקשות. עומק התור אינו מוערך מספיק. ( Kubernetes HPA )

טיפ מוזר אך נכון: מדדו עם גדלי מטענים דמויי ייצור. מטענים זעירים לבדיקה משקרים לכם. הם מחייכים בנימוס ואז בוגדים בכם אחר כך.


8) ניטור וצפייה - אל תטוסו בעיוורון 👀📈

ניטור מודלים אינו רק ניטור זמן פעולה. אתם רוצים לדעת אם:

מה לנטר (קבוצה מינימלית אפשרית)

תקינות השירות

התנהגות מודל

  • התפלגויות תכונות קלט (סטטיסטיקות בסיסיות)

  • נורמות הטמעה (להטמעת מודלים)

  • התפלגויות תפוקה (ביטחון, תמהיל כיתות, טווחי ציונים)

  • זיהוי אנומליות בקלטים (כניסת אשפה, יציאת אשפה)

סחף נתונים וסחף מושגים

רישום, אבל לא גישת "רישום הכל לנצח" 🪵

עֵץ:

  • מזהי בקשה

  • גרסת דגם

  • תוצאות אימות סכימה ( OpenAPI: מה זה OpenAPI? )

  • מטא-נתונים מינימליים של מטען מובנה (לא מידע אישי גולמי) ( NIST SP 800-122 )

היזהרו מפרטיות. אינכם רוצים שהיומנים שלכם יהפכו לדליפת נתונים. ( NIST SP 800-122 )


9) אסטרטגיות CI/CD והפעלה - התייחסו למודלים כמו לגרסאות אמיתיות 🧱🚦

אם אתם רוצים פריסות אמינות, בנו צינור (pipeline). אפילו כזה פשוט.

זרימה מוצקה

דפוסי פריסה שישמרו על שפיותכם

וגרס את נקודות הקצה או המסלול שלך לפי גרסת מודל. בעתיד תודה לך. גם בהווה תודה לך, אבל בשקט.


10) אבטחה, פרטיות, ו"בבקשה אל תדליפו דברים" 🔐🙃

אנשי אבטחה נוטים להגיע מאוחר, כמו אורח לא מוזמן. עדיף להזמין אותו מוקדם.

רשימת בדיקה מעשית

  • אימות והרשאה (מי יכול להתקשר למודל?)

  • הגבלת קצב (הגנה מפני שימוש לרעה וסערות מקריות) ( וויסות API Gateway )

  • ניהול סודות (אין מפתחות בקוד, וגם אין מפתחות בקבצי הגדרות...) ( מנהל סודות AWS , סודות Kubernetes )

  • בקרות רשת (רשתות משנה פרטיות, מדיניות שירות-לשירות)

  • יומני ביקורת (במיוחד עבור תחזיות רגישות)

  • מזעור נתונים (אחסון רק מה שחייב להיות) ( NIST SP 800-122 )

אם המודל נוגע במידע אישי:

  • מזהי עריכה או גיבוב

  • הימנעו מרישום מטענים גולמיים ( NIST SP 800-122 )

  • להגדיר כללי שמירה

  • זרימת נתוני מסמכים (משעממת, אך מגנה)

כמו כן, הזרקה מהירה וניצול לרעה של פלט יכולים להשפיע על מודלים גנרטיביים. הוסף: ( 10 המובילים של OWASP עבור יישומי LLM , OWASP: הזרקה מהירה )

  • כללי ניקוי קלט

  • סינון פלט במידת הצורך

  • מעקות בטיחות לקריאה לכלי או פעולות מסד נתונים

אף מערכת אינה מושלמת, אך ניתן להפוך אותה לפחות שברירית.


11) מלכודות נפוצות (aka המלכודות הרגילות) 🪤

הנה הקלאסיקות:

אם אתם קוראים את זה וחושבים "כן, אנחנו עושים שניים כאלה", ברוכים הבאים למועדון. במועדון יש חטיפים ולחץ קל. 🍪


12) סיכום - איך לפרוס מודלים של בינה מלאכותית בלי לאבד את שפיותכם 😄✅

פריסה היא המקום שבו בינה מלאכותית הופכת למוצר אמיתי. זה לא דבר זוהר, אבל זה המקום שבו נרכשת אמון.

סיכום קצר

וכן, איך לפרוס מודלים של בינה מלאכותית יכול להרגיש בהתחלה כמו להטוט בכדורי באולינג בוערים. אבל ברגע שה-pipeline שלך ​​יציב, זה נהיה מספק בצורה מוזרה. כמו סוף סוף לארגן מגירה עמוסה... רק שהמגירה היא תעבורת ייצור. 🔥🎳

שאלות נפוצות

מה המשמעות של פריסת מודל בינה מלאכותית בייצור

פריסת מודל בינה מלאכותית כרוכה בדרך כלל בהרבה יותר מחשיפת ממשק API לחיזוי. בפועל, זה כולל אריזת המודל והתלויות שלו, בחירת דפוס הגשה (זמן אמת, אצווה, סטרימינג או קצה), קנה מידה עם אמינות, ניטור תקינות וסחיפה, והגדרת נתיבי פריסה והחזרה לאחור בטוחים. פריסה יציבה נשארת יציבה כצפוי תחת עומס ונשארת ניתנת לאבחון כאשר משהו משתבש.

כיצד לבחור בין פריסה בזמן אמת, פריסה בקבוצות עבודה, פריסה בסטרימינג או פריסה בקצה

בחרו את דפוס הפריסה בהתבסס על מתי נדרשות תחזיות והאילוצים תחתם אתם פועלים. ממשקי API בזמן אמת מתאימים לחוויות אינטראקטיביות שבהן השהייה חשובה. ניקוד אצווה עובד בצורה הטובה ביותר כאשר עיכובים מקובלים ויעילות עלויות מובילה. סטרימינג מתאים לעיבוד אירועים רציף, במיוחד כאשר סמנטיקה של המסירה הופכת לקוצנית. פריסת קצה אידיאלית לפעולה לא מקוונת, פרטיות או דרישות השהייה נמוכה במיוחד, אם כי עדכונים ושינויי חומרה הופכים קשים יותר לניהול.

איזו גרסה יש להימנע מכשלים בפריסה של "עובד במחשב הנייד שלי"

גרסאות - יותר ממשקלי המודל. בדרך כלל, תרצו ארטיפקט מודל עם גרסאות (כולל טוקנייזרים או מפות תוויות), לוגיקת קדם-עיבוד ולוגיקת תכונות, קוד הסקה וסביבת זמן ריצה מלאה (ספריות Python/CUDA/system). התייחסו למודל כאל ארטיפקט שחרור עם גרסאות מתויגות ומטא-דאטה קל משקל המתארים ציפיות סכימה, הערות הערכה ומגבלות ידועות.

האם לפרוס באמצעות שירות פשוט בסגנון FastAPI או באמצעות שרת מודל ייעודי

שרת אפליקציות פשוט (גישה בסגנון FastAPI) עובד היטב עבור מוצרים מוקדמים או מודלים פשוטים מכיוון שאתה שומר על שליטה על ניתוב, אימות ואינטגרציה. שרת מודל (בסגנון TorchServe או NVIDIA Triton) יכול לספק יעילות חזקה יותר של עיבוד אצווה, מקביליות ו-GPU כבר מהקופסה. צוותים רבים נוחתים על היברידי: שרת מודל להסקה בתוספת שכבת API דקה לאימות, עיצוב בקשות ומגבלות קצב.

כיצד לשפר את ההשהיה והתפוקה מבלי לפגוע בדיוק

התחילו במדידת השהיית p95/p99 על חומרה דמוית ייצור עם מטענים מציאותיים, מכיוון שבדיקות קטנות עלולות להטעות. מנופים נפוצים כוללים עיבוד אצווה (תפוקה טובה יותר, השהייה פוטנציאלית נמוכה יותר), כימות (קטנה ומהירה יותר, לפעמים עם פשרות דיוק צנועות), זרימות קומפילציה ואופטימיזציה (דמוי ONNX/TensorRT), ואחסון במטמון של קלט חוזר או הטמעות. קנה מידה אוטומטי המבוסס על עומק תור יכול גם למנוע מהשהיית זנב לזחול כלפי מעלה.

איזה ניטור נדרש מעבר ל"נקודת הקצה פעילה"

זמן פעולה (uptime) אינו מספיק, משום ששירות יכול להיראות בריא בעוד שאיכות החיזוי נשחקת. ​​לכל הפחות, יש לנטר את נפח הבקשות, שיעור השגיאות והתפלגויות ההשהיה, בנוסף לאותות רוויה כמו CPU/GPU/זיכרון וזמן תור. עבור התנהגות המודל, יש לעקוב אחר התפלגויות קלט ופלט יחד עם אותות אנומליה בסיסיים. יש להוסיף בדיקות סחיפה שמפעילות פעולה במקום התראות רועשות, ולרשום מזהי בקשות, גרסאות מודל ותוצאות אימות סכימה.

כיצד להשיק גרסאות מודל חדשות בבטחה ולהתאושש במהירות

התייחסו למודלים כמו למהדורות מלאות, עם צינור CI/CD שבודק עיבוד מקדים ועיבוד לאחר מכן, מריץ בדיקות אינטגרציה מול "סט זהב" וקובע קו בסיס לעומס. עבור פריסות, מהדורות קנריות מגבירות את התעבורה בהדרגה, בעוד ש-blue-green שומרות גרסה ישנה יותר פעילה לגיבוי מיידי. בדיקות צל עוזרות להעריך מודל חדש על תעבורה אמיתית מבלי להשפיע על המשתמשים. החזרה למצב אחר צריכה להיות מנגנון מהשורה הראשונה, לא מחשבה שלאחר מעשה.

המכשולים הנפוצים ביותר בלימוד פריסת מודלים של בינה מלאכותית

הטיה של אימון-הגשה היא המקרה הקלאסי: עיבוד מקדים שונה בין אימון לייצור, והביצועים יורדים בשקט. בעיה שכיחה נוספת היא חוסר באימות סכימה, שבו שינוי במעלה הזרם שובר קלטים בדרכים עדינות. צוותים גם ממעיטים בערכי השהיית זנב ומתמקדים יתר על המידה בממוצעים, מתעלמים מעלות (מעבדים גרפיים לא פעילים מצטברים מהר) ומדלגים על תכנון החזרה למצב קודם. ניטור זמן פעולה בלבד הוא מסוכן במיוחד, מכיוון ש"למעלה אבל לא נכון" יכול להיות גרוע יותר מלמטה.

הפניות

  1. שירותי האינטרנט של אמזון (AWS) - Amazon SageMaker: הסקה בזמן אמת - docs.aws.amazon.com

  2. שירותי אינטרנט של אמזון (AWS) - טרנספורמציה של אצווה של אמזון SageMaker - docs.aws.amazon.com

  3. שירותי אינטרנט של אמזון (AWS) - ניטור מודלים של אמזון SageMaker - docs.aws.amazon.com

  4. שירותי אינטרנט של אמזון (AWS) - ויסות בקשות API Gateway - docs.aws.amazon.com

  5. שירותי אינטרנט של אמזון (AWS) - מנהל סודות AWS: מבוא - docs.aws.amazon.com

  6. שירותי אינטרנט של אמזון (AWS) - מחזור חיים של סביבת ביצוע של AWS Lambda - docs.aws.amazon.com

  7. גוגל קלאוד - ורטקס בינה מלאכותית: פריסת מודל לנקודת קצה - docs.cloud.google.com

  8. סקירת ניטור מודל בינה מלאכותית של גוגל קלאוד - docs.cloud.google.com

  9. גוגל קלאוד - ורטקס בינה מלאכותית: ניטור הטיה וסחיפה של תכונות - docs.cloud.google.com

  10. בלוג גוגל קלאוד - זרימת נתונים: מצבי סטרימינג של פעם אחת בדיוק לעומת מצבי סטרימינג של לפחות פעם אחת - cloud.google.com

  11. גוגל קלאוד - מצבי סטרימינג של Cloud Dataflow - docs.cloud.google.com

  12. ספר SRE של גוגל - ניטור מערכות מבוזרות - sre.google

  13. מחקר גוגל - הזנב בקנה מידה - research.google

  14. LiteRT (Google AI) - סקירה כללית של LiteRT - ai.google.dev

  15. LiteRT (Google AI) - LiteRT במכשיר - ai.google.dev

  16. Docker - מהו קונטיינר? - docs.docker.com

  17. Docker - שיטות עבודה מומלצות לבניית Docker - docs.docker.com

  18. Kubernetes - Kubernetes Secrets - kubernetes.io

  19. Kubernetes - קנה מידה אוטומטי של פודים אופקיים - kubernetes.io

  20. מרטין פאולר - שחרור קנרי - martinfowler.com

  21. מרטין פאולר - פריסה כחולה-ירוקה - martinfowler.com

  22. יוזמת OpenAPI - מה זה OpenAPI? - openapis.org

  23. סכמת JSON - (האתר ממוזכר) - json-schema.org

  24. מאגר פרוטוקולים - סקירה כללית של מאגר פרוטוקולים - protobuf.dev

  25. FastAPI - (האתר מופנה אליו) - fastapi.tiangolo.com

  26. NVIDIA - Triton: אצווה דינמית וביצוע מודלים בו-זמני - docs.nvidia.com

  27. NVIDIA - Triton: ביצוע מודל בו-זמני - docs.nvidia.com

  28. NVIDIA - מסמכי שרת הסקת מסקנות Triton - docs.nvidia.com

  29. PyTorch - מסמכי TorchServe - docs.pytorch.org

  30. BentoML - אריזה לפריסה - docs.bentoml.com

  31. מסמכים של ריי - ריי סרב - docs.ray.io

  32. TensorFlow - כימות לאחר אימון (אופטימיזציה של מודל TensorFlow) - tensorflow.org

  33. TensorFlow - אימות נתונים של TensorFlow: זיהוי הטיה בהגשת אימון - tensorflow.org

  34. ONNX - (האתר שאליו הפנה) - onnx.ai

  35. ONNX Runtime - אופטימיזציות של מודלים - onnxruntime.ai

  36. NIST (המכון הלאומי לתקנים וטכנולוגיה) - NIST SP 800-122 - csrc.nist.gov

  37. arXiv - כרטיסי מודל לדיווח מודלים - arxiv.org

  38. מיקרוסופט - בדיקות צל - microsoft.github.io

  39. OWASP - 10 תוכניות OWASP המובילות עבור בקשות לתואר שני במשפטים - owasp.org

  40. פרויקט האבטחה של OWASP GenAI - OWASP: הזרקה מיידית - genai.owasp.org

מצאו את הבינה המלאכותית העדכנית ביותר בחנות הרשמית של עוזרי בינה מלאכותית

אודותינו

חזרה לבלוג