תשובה קצרה: שדרוג קנה מידה באמצעות בינה מלאכותית פועל על ידי אימון מודל על תמונות מזווגות ברזולוציה נמוכה וגבוהה, ולאחר מכן שימוש בו כדי לחזות פיקסלים נוספים אמינים במהלך השדרוג. אם המודל ראה מרקמים או פנים דומים באימון, הוא יכול להוסיף פרטים משכנעים; אם לא, הוא עלול "להזות" חפצים כמו הילות, עור שעווה או ריצוד בסרטון.
נקודות מפתח:
ניבוי: המודל מייצר פרטים סבירים, לא שחזור מובטח של המציאות.
בחירת דגם: רשתות CNN נוטות להיות יציבות יותר; רשתות GAN יכולות להיראות חדות יותר אך מסתכנות בהמצאת תכונות.
בדיקות חפצים: שימו לב להילות, מרקמים חוזרים, "כמעט אותיות" ופרצופים פלסטיקיים.
יציבות וידאו: השתמש בשיטות זמניות או שתראה הבהוב וסחיפה מפריים לפריים.
שימוש בסיכון גבוה: אם לדיוק יש לגלות את העיבוד ולהתייחס לתוצאות כהמחשה.

בטח ראיתם את זה: תמונה זעירה ופריכה הופכת למשהו חד מספיק כדי להדפיס, להזרים או לשלב אותו במצגת בלי להתכווץ. זה מרגיש כמו רמאות. ובדרך הטובה ביותר - זה אכן כזה 😅
אז, איך שדרוג בינה מלאכותית עובד מסתכם במשהו ספציפי יותר מ"המחשב משפר פרטים" (גלי ידני) וקרוב יותר ל"מודל מנבא מבנה ברזולוציה גבוהה מתקבל על הדעת על סמך דפוסים שלמד מדוגמאות רבות" (למידה עמוקה עבור רזולוציית תמונה סופר: סקר). שלב החיזוי הזה הוא כל המשחק - וזו הסיבה ששדרוג בינה מלאכותית יכול להיראות מדהים... או קצת פלסטיקי... או כמו שהחתול שלכם גידל שפם בונוס.
מאמרים שאולי תרצו לקרוא אחרי זה:
🔗 איך בינה מלאכותית עובדת
למד את יסודות המודלים, הנתונים והסקת הסקות בבינה מלאכותית.
🔗 איך בינה מלאכותית לומדת
ראה כיצד נתוני אימון ומשוב משפרים את ביצועי המודל לאורך זמן.
🔗 כיצד בינה מלאכותית מזהה אנומליות
להבין קווי בסיס של דפוסים וכיצד בינה מלאכותית מסמנת התנהגות חריגה במהירות.
🔗 כיצד בינה מלאכותית מנבאת מגמות
חקור שיטות חיזוי שמזהות אותות וצופות ביקוש עתידי.
איך עובדת שדרוג בינה מלאכותית: הרעיון המרכזי, במילים יומיומיות 🧩
שיפור רזולוציה פירושו הגדלת הרזולוציה: יותר פיקסלים, תמונה גדולה יותר. שיפור רזולוציה מסורתי (כמו ביקוביק) בעצם מותח פיקסלים ומחליק מעברים (אינטרפולציה ביקובית). זה בסדר, אבל זה לא יכול להמציא חדשים - זה פשוט מבצע אינטרפולציה.
שדרוג בינה מלאכותית מנסה משהו נועז יותר (הידוע גם כ"רזולוציית-על" בעולם המחקר) (למידה עמוקה עבור רזולוציית-על של תמונות: סקר):
-
זה מסתכל על הקלט ברזולוציה נמוכה
-
מזהה דוגמאות (קצוות, מרקמים, תווי פנים, משיכות טקסט, אריגת בד...)
-
ניבוי איך אמורה להיראות גרסה ברזולוציה גבוהה יותר
-
מייצר נתוני פיקסלים נוספים שמתאימים לדפוסים אלה
לא "לשחזר את המציאות בצורה מושלמת", יותר כמו "לנחש ניחוש אמין ביותר" (Image Super-Resolution Using Deep Convolutional Networks (SRCNN)). אם זה נשמע קצת חשוד, אתם לא טועים - אבל זו גם הסיבה שזה עובד כל כך טוב 😄
וכן, זה אומר ששדרוג בינה מלאכותית הוא בעצם הזיות מבוקרות... אבל בצורה פרודוקטיבית, המכבדת פיקסלים.
מה הופך גרסה טובה של שדרוג בינה מלאכותית? ✅🛠️
אם אתם שופטים שיפור בינה מלאכותית (או הגדרה מוגדרת מראש), הנה מה שבדרך כלל חשוב ביותר:
-
שחזור פרטים ללא בישול יתר.
שדרוג טוב מוסיף פריכות ומבנה, לא רעש פריך או נקבוביות מזויפות. -
משמעת בקצוות
קווים נקיים נשארים נקיים. מודלים גרועים גורמים לקצוות להתנדנד או להצמיח הילות. -
ריאליזם של מרקם.
שיער לא צריך להפוך למשיחת מכחול. לבנים לא צריכות להפוך לחותמת דוגמה חוזרת. -
טיפול ברעשים ובדחיסה.
הרבה תמונות יומיומיות עוברות עיבוד JPEG עד מוות. מכשיר איכותי לא מגביר את הנזק הזה (Real-ESRGAN). -
מודעות לפנים ולטקסט
פנים וטקסט הם המקומות הקלים ביותר לאתר טעויות. דוגמנים טובים מתייחסים אליהם בעדינות (או שיש להם מצבים מיוחדים). -
עקביות בין פריימים (עבור וידאו)
אם הפרטים מרצדים פריים לפריים, העיניים שלכם יצעקו. שדרוג וידאו חי או מת לפי יציבות זמנית (BasicVSR (CVPR 2021)). -
פקדים הגיוניים
אתם רוצים מחוונים שמתואמים לתוצאות אמיתיות: ניקוי רעשים, הסרת טשטוש, הסרת חפצים, שמירת גרגירים, חידוד... הדברים המעשיים.
כלל שקט שתקף: השדרוג ה"טוב" ביותר הוא לעתים קרובות זה שבקושי שמים לב אליו. נראה פשוט שהייתה לך מצלמה טובה יותר מלכתחילה 📷✨
טבלת השוואה: אפשרויות פופולריות לשדרוג בינה מלאכותית (ולמה הן טובות) 📊🙂
להלן השוואה מעשית. המחירים מטושטשים במכוון מכיוון שהכלים משתנים בהתאם לרישיון, לחבילות, לעלויות המחשוב ולכל הדברים הכיפיים האלה.
| כלי / גישה | הכי טוב עבור | אווירת מחיר | למה זה עובד (בערך) |
|---|---|---|---|
| מכשירי שיפור בסגנון טופז לשולחן העבודה (Topaz Photo, Topaz Video) | תמונות, וידאו, זרימת עבודה קלה | בתשלום-משהו | מודלים כלליים חזקים + הרבה כוונון, נוטים "פשוט לעבוד"... לרוב |
| תכונות מסוג "Super Resolution" של Adobe (Adobe Enhance > Super Resolution) | צלמים שכבר נמצאים במערכת האקולוגית הזו | מנוי-y | שחזור פרטים מוצק, בדרך כלל שמרני (פחות דרמטי) |
| אמיתי-ESRGAN / גרסאות ESRGAN (Real-ESRGAN, ESRGAN) | עשה זאת בעצמך, מפתחים, עבודות אצווה | חינם (אבל גוזל זמן) | מעולה בפרטי מרקם, יכול להיות חריף על פנים אם לא נזהרים |
| מצבי שדרוג מבוססי דיפוזיה (SR3) | עבודה יצירתית, תוצאות מסוגננות | מְעוּרָב | יכול ליצור פרטים מרהיבים - גם יכול להמציא שטויות, אז... כן |
| משדרגי משחקים (בסגנון DLSS/FSR) (NVIDIA DLSS, AMD FSR 2) | משחקים ורינדור בזמן אמת | חבילה | משתמש בנתוני תנועה ובנתונים קודמים שנלמדו - ניצחון בביצועים חלקים 🕹️ |
| שירותי שדרוג ענן | נוחות, ניצחונות מהירים | תשלום לפי שימוש | מהיר + ניתן להרחבה, אבל אתה סוחר בשליטה ולפעמים גם בעדינות |
| שדרוג בינה מלאכותית ממוקדת וידאו (BasicVSR, Topaz Video) | קטעים ישנים, אנימה, ארכיון | בתשלום-משהו | טריקים זמניים להפחתת ריצוד + מודלים מיוחדים של וידאו |
| שדרוג גלריה/טלפון חכם | שימוש מזדמן | כּוֹלֵל | דגמים קלים מכוונים לתפוקה נעימה, לא לשלמות (עדיין שימושיים) |
וידוי מוזר בעיצוב: "Paid-ish" עושה הרבה עבודה בטבלה הזאת. אבל הבנתם את הרעיון 😅
הסוד הגדול: מודלים לומדים מיפוי מרזולוציה נמוכה לרזולוציה גבוהה 🧠➡️🖼️
בלב רוב שדרוג ה-AI נמצא מערך למידה מפוקח (רזולוציית-על של תמונה באמצעות רשתות קונבולוציוניות עמוקות (SRCNN)):
-
התחילו עם תמונות ברזולוציה גבוהה ("האמת")
-
הקטנת הדגימה שלהם לגרסאות ברזולוציה נמוכה ("הקלט")
-
לאמן מודל לשחזר את הרזולוציה הגבוהה המקורית מהרזולוציה הנמוכה
עם הזמן, המודל לומד קורלציות כמו:
-
"טשטוש כזה סביב העין בדרך כלל שייך לריסים"
-
"אשכול פיקסלים זה מצביע לעתים קרובות על טקסט סריף"
-
"הגרדיאנט הזה של הקצה נראה כמו קו גג, לא רעש אקראי"
זה לא שינון תמונות ספציפיות (במובן הפשוט), זה לימוד מבנה סטטיסטי (למידה עמוקה עבור רזולוציית תמונה סופר-רזולוציה: סקר). תחשבו על זה כמו לימוד הדקדוק של מרקמים וקצוות. לא דקדוק שירה, יותר כמו... דקדוק ידני של איקאה 🪑📦 (מטאפורה מגושמת, אבל קרובה מספיק).
העיקרון: מה קורה במהלך הסקה (כאשר מבצעים סקאלה) ⚙️✨
כשמכניסים תמונה למערכת שיפור בינה מלאכותית, בדרך כלל יש תהליך כזה:
-
עיבוד מקדים
-
המרת מרחב צבע (לפעמים)
-
נרמול ערכי פיקסלים
-
חלק את התמונה לחתיכות אם היא גדולה (בדיקת מציאות של VRAM 😭) (מאגר Real-ESRGAN (אפשרויות אריחים))
-
-
חילוץ תכונות
-
שכבות מוקדמות מזהות קצוות, פינות ומעברי צבע
-
שכבות עמוקות יותר מזהות דפוסים: מרקמים, צורות, רכיבי פנים
-
-
שִׁחזוּר
-
המודל מייצר מפת מאפיינים ברזולוציה גבוהה יותר
-
לאחר מכן ממיר את זה לפלט פיקסלים בפועל
-
-
עיבוד לאחר מכן
-
חידוד אופציונלי
-
ביטול רעש אופציונלי
-
דיכוי חפצים אופציונלי (צלצולים, הילות, חסימות)
-
פרט עדין אחד: כלים רבים משדרגים את מבנה האריחים, ואז משלבים תפרים. כלים מעולים מסתירים את גבולות האריחים. כלים מעולים משאירים סימני רשת חלשים אם תמצמצו. וכן, אתם תצטמצו, כי בני אדם אוהבים לבחון פגמים זעירים בזום של 300% כמו גרמלינים קטנים 🧌
משפחות המודלים העיקריות המשמשות לשדרוג בינה מלאכותית (ומדוע הן מרגישות שונות) 🤖📚
1) רזולוציית-על מבוססת CNN (סוס העבודה הקלאסי)
רשתות עצביות קונבולוציוניות מצוינות בתבניות מקומיות: קצוות, מרקמים, מבנים קטנים (רזולוציית תמונה סופר באמצעות רשתות קונבולוציוניות עמוקות (SRCNN)).
-
יתרונות: מהיר יחסית, יציב, פחות הפתעות
-
חסרונות: יכול להיראות קצת "מעובד" אם דוחפים חזק
2) שדרוג מבוסס GAN (בסגנון ESRGAN) 🎭
רשתות GAN (Generative Adversarial Networks) מאמנות גנרטור לייצר תמונות ברזולוציה גבוהה שהמבחין אינו יכול להבחין ביניהן לבין תמונות אמיתיות (Generative Adversarial Networks).
-
יתרונות: פרטים עוצמתיים, מרקם מרשים
-
חסרונות: יכול להמציא פרטים שלא היו שם - לפעמים שגויים, לפעמים מוזרים (SRGAN, ESRGAN)
עדשת GAN יכולה לתת לך את החדות הראויה לנשימה. היא גם יכולה לתת למושא הדיוקן שלך גבה נוספת. אז... תבחרי את הקרבות שלך 😬
3) שדרוג מבוסס דיפוזיה (התו הכללי היצירתי) 🌫️➡️🖼️
מודלים של דיפוזיה מנקים רעשים צעד אחר צעד וניתן להנחות אותם לייצר פרטים ברזולוציה גבוהה (SR3).
-
יתרונות: יכול להיות טוב בצורה מטורפת בפרטים סבירים, במיוחד לעבודה יצירתית
-
חסרונות: יכול לסטות מהזהות/מבנה המקוריים אם ההגדרות אגרסיביות (SR3)
כאן מתחילה ה"שדרוג" (upscaling) להשתלב ב"דמיון מחדש". לפעמים זה בדיוק מה שאתם רוצים. לפעמים זה לא.
4) שדרוג וידאו עם עקביות זמנית 🎞️
שדרוג וידאו מוסיף לעתים קרובות לוגיקה מודעת תנועה:
-
משתמש במסגרות שכנות כדי לייצב פרטים (BasicVSR (CVPR 2021))
-
מנסה להימנע מהבהוב וזחילה
-
משלב לעתים קרובות רזולוציה גבוהה עם ביטול רעשים ודה-אינטרלייסינג (סרטון טופז)
אם שדרוג תמונה הוא כמו שחזור ציור אחד, שדרוג וידאו הוא כמו שחזור פנקס קריאה מבלי לגרום לאף של הדמות לשנות צורה בכל עמוד. וזה... קשה יותר ממה שזה נשמע.
למה שדרוג בינה מלאכותית לפעמים נראה מזויף (ואיך לזהות אותו) 👀🚩
שדרוג בינה מלאכותית נכשל בדרכים מוכרות. ברגע שתלמדו את הדפוסים, תראו אותם בכל מקום, כמו לקנות מכונית חדשה ולפתע להבחין בדגם הזה בכל רחוב 😵💫
מספרת נפוצה:
-
שעווה לעור בפנים (יותר מדי ניקוי רעשים + החלקה)
-
הילות מחודדות יתר על המידה סביב הקצוות (טריטוריית "החרגה" הקלאסית) (אינטרפולציה דו-קובית)
-
טקסטורות חוזרות (קירות לבנים הופכים לדפוסי העתקה-הדבקה)
-
מיקרו-ניגודיות פריכה שצועקת "אלגוריתם"
-
שיבוש טקסט שבו אותיות הופכות לכמעט אותיות (הסוג הגרוע ביותר)
-
סחף פרטים שבו מאפיינים קטנים משתנים בעדינות, במיוחד בזרימות עבודה של דיפוזיה (SR3)
החלק המסובך: לפעמים הממצאים האלה נראים "טובים יותר" במבט חטוף. המוח שלך אוהב חדות. אבל אחרי רגע, זה מרגיש... לא נכון.
טקטיקה טובה היא להתרחק ולבדוק אם זה נראה טבעי ממרחק צפייה רגיל. אם זה נראה טוב רק בזום של 400%, זה לא ניצחון, זה תחביב 😅
איך עובד שדרוג בינה מלאכותית: צד האימון, בלי כאב ראש מתמטי 📉🙂
אימון מודלים ברזולוציית-על כרוך בדרך כלל ב:
-
מערכי נתונים מזווגים (קלט ברזולוציה נמוכה, יעד ברזולוציה גבוהה) (רזולוציית תמונה סופר-רזולוציונית באמצעות רשתות קונבולוציוניות עמוקות (SRCNN))
-
פונקציות אובדן המענישות על שחזורים שגויים (SRGAN)
סוגי הפסדים אופייניים:
-
אובדן פיקסלים (L1/L2)
מעודד דיוק. יכול להניב תוצאות מעט רכות. -
אובדן תפיסה -
משווה מאפיינים עמוקים יותר (כמו "האם זה נראה דומה") ולא פיקסלים מדויקים (הפסדים תפיסתיים (Johnson et al., 2016)). -
הפסד אדוורסרי (GAN)
מעודד ריאליזם, לעיתים במחיר של דיוק מילולי (SRGAN, רשתות אדוורסריות גנרטיביות).
יש משיכת חבל מתמדת:
-
הפוך אותו נאמן למקור
לעומת -
הפוך את זה לנעים מבחינה ויזואלית
כלים שונים נוחתים במקומות שונים על הספקטרום הזה. וייתכן שתעדיפו אחד כזה, תלוי אם אתם משחזרים תמונות משפחתיות או מכינים פוסטר שבו "מראה טוב" חשוב יותר מדיוק פורנזי.
זרימות עבודה פרקטיות: תמונות, סריקות ישנות, אנימה וסרטונים 📸🧾🎥
תמונות (צילומי פורטרטים, נופים, צילומי מוצר)
נוהג מומלץ הוא בדרך כלל:
-
ניקוי רעשים קל תחילה (במידת הצורך)
-
יוקרתי עם הגדרות שמרניות
-
הוסף גרגירים בחזרה אם הדברים מרגישים חלקים מדי (כן, באמת)
דגנים הם כמו מלח. יותר מדי מהם הורסים את ארוחת הערב, אבל אף אחד מהם לא יכול להיות קצת שטוח 🍟
סריקות ישנות ותמונות דחוסות מאוד
אלה קשים יותר מכיוון שהמודל עשוי להתייחס לבלוקים של דחיסה כ"מרקם".
נסה:
-
הסרת חפצים או ביטול חסימות
-
ואז יוקרתי
-
ואז חידוד קל (לא יותר מדי... אני יודע, כולם אומרים את זה, אבל בכל זאת)
אנימה ויצירות קו
איורי קו נהנים מ:
-
דגמים ששומרים על קצוות נקיים
-
הזיות מרקם מופחתות.
שדרוג אנימה נראה לעתים קרובות נהדר מכיוון שהצורות פשוטות ועקביות. (מזל.)
וִידֵאוֹ
סרטון מוסיף שלבים נוספים:
-
דנויז
-
דה-שזירה (עבור מקורות מסוימים)
-
יוקרתי
-
החלקה או ייצוב זמניים (BasicVSR (CVPR 2021))
-
החזרת גרגרים אופציונלית לצורך לכידות
אם מדלגים על עקביות זמנית, מקבלים את הבהוב הפרטים המנצנץ הזה. ברגע שמבחינים בו, אי אפשר להתעלם ממנו. כמו כיסא חורק בחדר שקט 😖
בחירת הגדרות בלי לנחש בפראות (דף קטן של רמאות) 🎛️😵💫
הנה גישה התחלתית ראויה:
-
אם הפנים נראות פלסטיות,
הפחיתו את הרעש, הפחיתו את החידוד, נסו מודל או מצב לשמירת פנים. -
אם הטקסטורות נראות אינטנסיביות מדי,
הורידו את המחוונים "שיפור פרטים" או "שחזור פרטים", והוסיפו גרגירים עדינים לאחר מכן. -
אם הקצוות זוהרים,
הנמך את החידוד, בדוק את אפשרויות דיכוי הילה. -
אם התמונה נראית "בינה מלאכותית" מדי,
לכו על שמרנות רבה יותר. לפעמים הצעד הטוב ביותר הוא פשוט... פחות.
וגם: אל תגדילו את הגרסה לפיקסלים פי 8 רק בגלל שאתם יכולים. פיקסלים פי 2 או פי 4 נקיים הם לרוב הפתרון המושלם. מעבר לזה, אתם מבקשים מהדוגמנית לכתוב פאנפיקים על הפיקסלים שלכם 📖😂
אתיקה, אותנטיות, והשאלה המביכה של "אמת" 🧭😬
שדרוג בינה מלאכותית מטשטש קו:
-
שיקום פירושו שחזור של מה שהיה קיים
-
שיפור מרמז על הוספת מה שלא היה
עם תמונות אישיות, זה בדרך כלל בסדר (ויפה). עם עיתונות, ראיות משפטיות, הדמיה רפואית, או כל דבר שבו נאמנות חשובה... צריך להיות זהירים (OSAC/NIST: מדריך סטנדרטי לניהול תמונות דיגיטליות משפטיות, הנחיות SWGDE לניתוח תמונות משפטיות).
כלל פשוט:
-
אם ההימור גבוה, התייחסו לשדרוג הבינה המלאכותית כאל אילוסטרציה, לא סופי.
בנוסף, גילוי נאות חשוב בהקשרים מקצועיים. לא בגלל שבינה מלאכותית היא רעה, אלא בגלל שהקהל ראוי לדעת האם הפרטים שוחזרו או נלכדו. זה פשוט... מכבד.
הערות סיכום וסיכום קצר 🧡✅
אז, איך שדרוג בינה מלאכותית עובד הוא כך: מודלים לומדים כיצד פרטים ברזולוציה גבוהה נוטים להתייחס לדפוסים ברזולוציה נמוכה, ואז חוזים פיקסלים נוספים אמינים במהלך השדרוג (למידה עמוקה עבור רזולוציית תמונה סופר: סקר). בהתאם למשפחת המודלים (CNN, GAN, דיפוזיה, וידאו-זמני), ניבוי זה יכול להיות שמרני ונאמן... או נועז ולעיתים לא יציב 😅
סיכום קצר
-
שדרוג מסורתי מותח פיקסלים (אינטרפולציה ביקובית)
-
שדרוג בינה מלאכותית מנבא פרטים חסרים באמצעות דפוסים נלמדים (רזולוציית תמונה סופר באמצעות רשתות קונבולוציוניות עמוקות (SRCNN))
-
תוצאות נהדרות מגיעות מהמודל הנכון + איפוק
-
שימו לב להילות, פרצופים דמויי שעווה, מרקמים חוזרים ונשנים והבהובים בסרטון (BasicVSR (CVPR 2021))
-
שדרוג קנה מידה הוא לעתים קרובות "שחזור סביר", לא אמת מושלמת (SRGAN, ESRGAN)
אם אתם רוצים, תגידו לי מה אתם משדרגים (פרצופים, תמונות ישנות, וידאו, אנימה, סריקות טקסט), ואני אציע אסטרטגיית הגדרות שנוטה להתחמק ממלכודות ה"מראה של בינה מלאכותית" הנפוצות 🎯🙂
דוגמה מהעולם האמיתי: שדרוג תמונות מוצר ישנות מהשוק 📸
תַרחִישׁ
חנות קטנה למצלמות יד שנייה מציעה 40 תמונות מוצר שיוצאו מאתר אינטרנט ישן ברוחב 800 פיקסלים. הבעלים רוצה לעשות בהן שימוש חוזר בדף מסחר אלקטרוני חדש, שבו גודל התמונה המומלץ הוא 1,600 פיקסלים ברוחב.
הבעיה: שינוי גודל רגיל גורם למצלמות להיראות רכות, בעוד ששיפור גודל אגרסיבי של בינה מלאכותית יכול לגרום לאחיזות גומי, מספרי סידוריים וסימוני עדשה להיראות מזויפים באופן מחשיד. זה חשוב מכיוון שקונים מסתמכים על פרטים אלה לפני הרכישה.
המטרה אינה "לשחזר" מידע חסר בצורה מושלמת. אלא ליצור תמונות רישום נקיות יותר תוך שמירה על זמינות הקבצים המקוריים, מכיוון ששדרוג קנה המידה של בינה מלאכותית מנבא פרטים סבירים ולא אמת מובטחת.
מה שזרימת העבודה צריכה
תמונות מוצר מקוריות, רצוי הגרסאות הכי פחות דחוסות שקיימות
גודל פלט יעד, כגון הגדלה כפולה מ-800 פיקסלים לרוחב 1,600 פיקסלים
כלי או דגם עם בקרים נפרדים לניקוי רעשים, חידוד והסרת חפצים
רשימת בדיקה פשוטה לסקירה של טקסט, קצוות, לוגואים, ברגים, כפתורים, גרגירי עור והשתקפויות
תיקייה למסמכים המקוריים ותיקייה נפרדת לייצוא ערוך, כך ששום דבר לא יוחלף
הוראה לדוגמה
השתמשו בסוג זה של הוראה בעת בדיקת שדרוג AI:
שדרגו את תמונת המוצר הזו פי 2 עבור רישום מסחר אלקטרוני. שמרו על צורת האובייקט, מיקום הלוגו, סימוני העדשה, קצוות הכפתורים ומרקם פני השטח קרובים ככל האפשר למקור. השתמשו בניקוי עדין של דחיסה, בחידוד נמוך, והימנעו מהמצאת טקסט נוסף, שריטות, תוויות, מספרים סידוריים או פרטים דקורטיביים. התמונה הסופית צריכה להיראות טבעית בגודל רגיל של דף מוצר, לא חדה באופן מלאכותי בזום של 400%.
איך לבדוק את זה
התחילו עם חמש תמונות מעורבות לפני עיבוד הקבוצה המלאה:
תמונת מוצר אחת נקייה עם תאורה טובה
תמונה אחת דחוסה בפורמט JPEG עם חסימות
תמונה אחת עם טקסט מודפס זעיר או סימוני עדשה
תמונה חשוכה אחת עם רעש בצללים
תמונה אחת עם מתכת או זכוכית מחזירי אור
לאחר שינוי קנה המידה, השוו כל תוצאה למקור ב-100% ו-200%. בדקו האם שמות המותגים, החוגות, הברגים, היציאות ותבניות המרקם עדיין תואמים. אם המודל יוצר "כמעט אותיות" או סימני שטח מזויפים, הנמיכו את הגדרת החידוד או שחזור הפרטים.
תוֹצָאָה
תוצאה להמחשה: מבוססת על תזמון בדיקה של חמש תמונות לפני ואחרי שימוש בתהליך עבודה זה.
ניקוי ידני ושינוי גודל ארכו כ-9 דקות לכל תמונה, או 45 דקות עבור חמש תמונות.
תהליך העבודה בסיוע בינה מלאכותית ארכה כ-3 דקות לכל תמונה, או 15 דקות עבור חמש תמונות.
מדובר בהערכה של 30 דקות שנחסכו על חמש תמונות, או כ-4 שעות שנחסכו על פני קבוצה של 40 תמונות.
תוצאת בדיקת האיכות: 4 מתוך 5 תמונות עברו את הבדיקה הראשונה. תמונה אחת נכשלה מכיוון שהמשפר עיוות טקסט קטן בעדשה, ולכן היא עובדה מחדש עם חידוד נמוך יותר וללא שיפור טקסט.
המדד החשוב כאן אינו רק "נראה חד יותר". הוא: כמה תמונות עוברות סקירה זו לצד זו ללא פרטים מומצאים?
מה יכול להשתבש
ייתכן שהמודל יהפוך אבק, בלוקים של JPEG או שריטות למרקם "אמיתי".
טקסט זעיר יכול להפוך לטקסט מזויף שנראה אמין עד שמגדילים את התמונה.
יותר מדי הסרת רעש יכולה לגרום לגומי, עור או מתכת מוברשת להיראות כמו שעווה.
חידוד חזק יכול ליצור הילות סביב קצוות המוצר.
עיבוד אצווה יכול להסתיר טעויות, לכן סקור דוגמה לפני ייצוא הכל.
עבור מסחר אלקטרוני, הכלל הבטוח ביותר הוא פשוט: לעולם אל תשתמשו בשדרוג בינה מלאכותית כדי להסתיר נזק, לשנות מצב או לגרום למוצר להיראות חדש יותר ממה שהוא.
טייק אווי מעשי
שדרוג בינה מלאכותית עובד בצורה הטובה ביותר כאשר מתייחסים אליו כשלב גימור מבוקר, ולא ככפתור תיקון קסום. השתמשו בהגדרות שמרניות של 2×, בדקו את הפרטים שחשובים לקונים, ושמרו על התמונה המקורית כדי שהגרסה הערוכה תישאר אמינה.
דוגמה מהעולם האמיתי: שדרוג קנה המידה של סרטון הדרכה ישן מבלי לגרום לו לנצנץ
תַרחִישׁ
לחברת הדרכה קטנה יש סרטון הדגמה של בטיחות בן 7 דקות שהוקלט בשנת 2014 ברזולוציית 720p. התוכן עדיין בעל ערך, אך הצילומים נראים חלשים באתר החדש של החברה, במיוחד במסכי מחשב נייד גדולים יותר.
הצוות רוצה לייצא גרסה נקייה יותר של 1080p ללא צילום מחדש. הסיכון הוא ששדרוג אגרסיבי של בינה מלאכותית עלול לגרום לפנים להיראות דמויי שעווה, להפוך טקסט על שלטים ל"כמעט מילים", או ליצור מרקם מרצד ממסגרת למסגרת.
המטרה אינה לגרום לסרטון להיראות חדש לגמרי. אלא להפוך אותו לברור יותר, יציב יותר ופחות דחוס, תוך שמירה על נאמנות פני המדריך, תוויות האזהרה, תנועות הידיים ופרטי הציוד למקור.
מה שזרימת העבודה צריכה
קובץ וידאו מקורי, לא הורדה דחוסה מרשתות חברתיות אם אפשר
גודל ייצוא יעד, כגון 720p עד 1080p במקום מעבר ישר ל-4K
מכשיר להגדלת רעשים, חידוד, תיקון דחיסה ועקביות זמנית
קטע בדיקה קצר עם פנים, תנועה, טקסט ומשטחים מפורטים
רשימת בדיקה לסקירה של הבהוב, הילות, טקסט מעוות, מרקם פנים וקצוות נעים
עותק שמור של הסרטון המקורי להשוואה וגילוי במידת הצורך
הוראה לדוגמה
השתמשו בסוג זה של הוראות לפני עיבוד הסרטון המלא:
שדרגו את סרטון ההדרכה ברזולוציית 720p ל-1080p. תנו עדיפות לתנועה טבעית, קצוות יציבים, טקסט קיים קריא ומרקם עור ריאליסטי. השתמשו בתיקון דחיסה עדין וחידוד נמוך. אל תמציאו טקסט חסר, לוגואים, תוויות, שריטות, פרטי פנים או סימוני ציוד. הימנעו מנצנוץ בין פריימים. התוצאה הסופית צריכה להיראות ברורה יותר בגודל צפייה רגיל, ולא חדה באופן מלאכותי בעת השהייה והגדלה.
איך לבדוק את זה
לפני עיבוד הקובץ המלא בן 7 הדקות, יש לייצא דוגמה בת 20 שניות הכוללת:
פניו של המרצה בזמן דיבור
יד נעה על פני המסגרת
תווית אזהרה או טקסט מודפס קטן
משטח בעל טקסטורה, כגון בד, בטון, מתכת מוברשת או פלסטיק
סיבוב מצלמה או כל תנועה רועדת
צפו בדוגמית פעמיים: פעם אחת במהירות רגילה ופעם אחת בהשהיה פריים אחר פריים. במהירות רגילה, חפשו ריצוד, מרקם זוחל או תנועה לא טבעית סביב הקצוות. כאשר ההשהיה מתבצעת, השוו את הגרסה המקורית והגרסה המוגדלת כדי לבדוק אם הטקסט, הכפתורים, הכלים ותווי הפנים עדיין תואמים.
תוֹצָאָה
תוצאה להמחשה: מבוססת על תזמון של סרטון בדיקה אחד בן 20 שניות ולאחר מכן החלת אותן הגדרות על סרטון בן 7 דקות.
תהליך עבודה ידני של "שינוי גודל וחידוד" ארכה כ-35 דקות, כולל ייצוא וסקירה, אך התוצאה הראתה נצנוץ גלוי על שיער המדריך והילות סביב שלטי הבטיחות.
תהליך העבודה בסיוע בינה מלאכותית ארכה כ-55 דקות כולל ייצוא בדיקות, אך צמצם את בעיות הסקירה מ-8 בעיות גלויות בייצוא הראשון ל-2 בעיות קלות בייצוא הסופי.
הגרסה הסופית עברה 10 מתוך 12 בדיקות ברשימת הבדיקה. שתי הבעיות שנותרו היו רכות קלה בטקסט הרקע ורעש קל בפינה חשוכה אחת. שתיהן התקבלו מכיוון שהמדריך, הציוד וצעדי הבטיחות נותרו עקביים מבחינה ויזואלית.
המדד המשמעותי כאן אינו "1080p הושג". הוא: כמה שניות מהסרטון מציגות ארטיפקטים מסיחים את הדעת במהלך הפעלה רגילה?
מה יכול להשתבש
המודל עשוי לחדד בלוקי דחיסה ולגרום להם להיראות כמו מרקם אמיתי.
טקסט דק יכול להפוך לבטוח יותר אך פחות מדויק.
פנים יכולות להיות חלקות מדי אם ביטול הרעש גבוה מדי.
קצוות נעים יכולים לנצנץ אם הכלי מטפל בכל פריים באופן עצמאי מדי.
ייצוא 4K יכול להיראות גרוע יותר מייצוא מאופק של 1080p מכיוון שהמודל צריך להמציא יותר מדי פרטים.
הטעות הגדולה ביותר היא לשפוט רק פריים מושהה. שדרוג וידאו צריך להיראות טבעי בתנועה, לא רק מרשים כתמונה סטילס.
טייק אווי מעשי
עבור וידאו, שדרוג באמצעות בינה מלאכותית עובד בצורה הטובה ביותר כאשר בודקים תחילה קטע קצר, שומרים על שדרוג צנוע, ושופטים תנועה לפני חדות. תוצאה מעט רכה אך יציבה בדרך כלל טובה יותר מגרסה חדה שמרצדת בכל פעם שמישהו זז.
שאלות נפוצות
שדרוג בינה מלאכותית וכיצד זה עובד
שדרוג קנה מידה באמצעות בינה מלאכותית (המכונה לעתים קרובות "רזולוציית-על") מגביר את רזולוציית התמונה על ידי ניבוי פרטים חסרים ברזולוציה גבוהה מדפוסים שנלמדו במהלך האימון. במקום פשוט למתוח פיקסלים כמו אינטרפולציה דו-קובית, מודל חוקר קצוות, מרקמים, פאות ומשיכות דמויי טקסט, ולאחר מכן מייצר נתוני פיקסלים חדשים התואמים את הדפוסים הנלמדים. זה פחות "שחזור המציאות" ויותר "ניחוש אמין" שנקרא כטבעי.
שדרוג גודל באמצעות בינה מלאכותית לעומת שינוי גודל דו-קובי או מסורתי
שיטות שדרוג מסורתיות (כמו bicubic) מבצעות בעיקר אינטרפולציה בין פיקסלים קיימים, ומחליקות מעברים מבלי ליצור פרטים חדשים אמיתיים. שדרוג בינה מלאכותית שואף לשחזר מבנה סביר על ידי זיהוי רמזים חזותיים וחיזוי כיצד גרסאות ברזולוציה גבוהה של רמזים אלה נוטות להיראות. זו הסיבה שתוצאות בינה מלאכותית יכולות להרגיש חדות באופן דרמטי, וגם מדוע הן יכולות להציג ארטיפקטים או "להמציא" פרטים שלא היו קיימים במקור.
מדוע פנים יכולות להיראות דמויות שעווה או חלקות מדי
פנים דמויי שעווה מגיעות בדרך כלל מהסרת רעשים והחלקה אגרסיביים בשילוב עם חידוד שמסיר את המרקם הטבעי של העור. כלים רבים מתייחסים לרעש ולמרקם עדין באופן דומה, כך ש"ניקוי" תמונה יכול למחוק נקבוביות ופרטים עדינים. גישה נפוצה היא להפחית הסרת רעשים וחידוד, להשתמש במצב שימור פנים אם קיים, ואז להחזיר נגיעה של גרגירים כך שהתוצאה תרגיש פחות פלסטית ויותר צילומית.
ארטיפקטים נפוצים של שדרוג קנה מידה של בינה מלאכותית שכדאי לשים לב אליהם
סימנים אופייניים כוללים הילות סביב קצוות, דפוסי מרקם חוזרים (כמו לבני העתקה-הדבקה), מיקרו-ניגודיות פריכה וטקסט שהופך ל"כמעט אותיות". בזרימות עבודה מבוססות דיפוזיה, ניתן גם לראות סחף פרטים שבו מאפיינים קטנים משתנים בעדינות. עבור וידאו, הבהוב ופרטים זוחלים על פני פריימים הם דגלים אדומים גדולים. אם זה נראה טוב רק בזום קיצוני, כנראה שההגדרות אגרסיביות מדי.
כיצד GAN, CNN ו-difusion upscalers נוטים להשתנות בתוצאות
רזולוציית-על מבוססת CNN נוטה להיות יציבה וצפויה יותר, אך היא יכולה להיראות "מעובדת" אם נלחצים עליה חזק. אפשרויות מבוססות GAN (בסגנון ESRGAN) מייצרות לעיתים קרובות מרקם חד וחדות נתפסת יותר, אך הן יכולות להזות פרטים שגויים, במיוחד על פנים. שדרוג מבוסס דיפוזיה יכול לייצר פרטים יפים וסבירים, אך הם עלולים לסטות מהמבנה המקורי אם הגדרות ההדרכה או העוצמה חזקות מדי.
אסטרטגיית הגדרות מעשית למניעת מראה של "בינה מלאכותית מדי"
התחילו באופן שמרני: הגדילו את הגודל לפי 2 או 4 לפני שאתם פונים לגורמים קיצוניים. אם הפנים נראות פלסטיות, הפחיתו את רמת הרעש והחידוד ונסו מצב המודע לפנים. אם הטקסטורות נעשות אינטנסיביות מדי, הפחיתו את שיפור הפרטים ושקלו להוסיף גרגירים עדינים לאחר מכן. אם הקצוות זוהרים, הפחיתו את החידוד ובדקו דיכוי הילה או חפצים. בהרבה תהליכים, "פחות" מנצח כי זה שומר על ריאליזם אמין.
טיפול בסריקות ישנות או בתמונות דחוסות מאוד בפורמט JPEG לפני שינוי קנה מידה
תמונות דחוסות הן מסובכות משום שמודלים יכולים להתייחס לחפצי בלוק כאל מרקם אמיתי ולהגביר אותם. תהליך עבודה נפוץ הוא הסרה או ביטול חסימות של חפצים תחילה, לאחר מכן הגדלה, ולאחר מכן חידוד קל רק במידת הצורך. עבור סריקות, ניקוי עדין יכול לעזור למודל להתמקד במבנה בפועל ולא בנזק. המטרה היא להפחית "רמזים מזויפים של מרקם" כך שהמודל לא ייאלץ לנחש בביטחון על סמך קלט רועש.
למה שדרוג וידאו קשה יותר משדרוג תמונות
שדרוג קנה המידה של וידאו חייב להיות עקבי בין פריימים, לא רק טוב בתמונה אחת. אם פרטים מהבהבים פריים לפריים, התוצאה הופכת במהירות למסיחה את הדעת. גישות ממוקדות וידאו משתמשות במידע זמני מפריימים שכנים כדי לייצב את השחזור ולהימנע מפריימים מנצנצים. זרימות עבודה רבות כוללות גם ביטול רעשים, ביטול שזירה עבור מקורות מסוימים, והכנסה מחדש אופציונלית של גרגירים, כך שכל הרצף מרגיש קוהרנטי ולא חד באופן מלאכותי.
כאשר שדרוג קנה מידה של בינה מלאכותית אינו מתאים או מסוכן להסתמך עליו
עדיף להתייחס לשדרוג בינה מלאכותית כאל שיפור, לא כאל הוכחה. בהקשרים בעלי סיכון גבוה כמו עיתונאות, ראיות משפטיות, הדמיה רפואית או עבודה משפטית, יצירת פיקסלים "אמינים" עלולה להטעות משום שהיא עשויה להוסיף פרטים שלא נתפסו. מסגור בטוח יותר הוא להשתמש בו להמחשה ולחשוף שתהליך בינה מלאכותית שיחזר פרטים. אם דיוק הוא קריטי, יש לשמור את המסמכים המקוריים ולתעד כל שלב והגדרה בעיבוד.
הפניות
-
arXiv - למידה עמוקה עבור רזולוציית תמונה גבוהה: סקר - arxiv.org
-
arXiv - רזולוציית-על של תמונה באמצעות רשתות קונבולוציוניות עמוקות (SRCNN) - arxiv.org
-
arXiv - Real-ESRGAN - arxiv.org
-
arXiv - ESRGAN - arxiv.org
-
arXiv - SR3 - arxiv.org
-
מפתח NVIDIA - NVIDIA DLSS - developer.nvidia.com
-
AMD GPUOpen - FidelityFX Super Resolution 2 - gpuopen.com
-
גישה פתוחה של קרן הראייה הממוחשבת (CVF) - BasicVSR: החיפוש אחר רכיבים חיוניים ברזולוציית-על של וידאו (CVPR 2021) - openaccess.thecvf.com
-
arXiv - רשתות יריבות גנריות - arxiv.org
-
arXiv - SRGAN - arxiv.org
-
arXiv - אובדן תפיסתי (ג'ונסון ואחרים, 2016) - arxiv.org
-
GitHub - מאגר Real-ESRGAN (אפשרויות אריחים) - github.com
-
ויקיפדיה - אינטרפולציה ביקובית - wikipedia.org
-
מעבדות טופז - תמונה של טופז - topazlabs.com
-
מעבדות טופז - סרטון טופז - topazlabs.com
-
מרכז העזרה של אדובי - Adobe Enhance > רזולוציה מעולה - helpx.adobe.com
-
NIST / OSAC - מדריך סטנדרטי לניהול תמונות דיגיטליות פורנזיות (גרסה 1.0) - nist.gov
-
SWGDE - הנחיות לניתוח תמונות פורנזיות - swgde.org