תשובה קצרה: שדרוג קנה מידה באמצעות בינה מלאכותית פועל על ידי אימון מודל על תמונות מזווגות ברזולוציה נמוכה וגבוהה, ולאחר מכן שימוש בו כדי לחזות פיקסלים נוספים אמינים במהלך השדרוג. אם המודל ראה מרקמים או פנים דומים באימון, הוא יכול להוסיף פרטים משכנעים; אם לא, הוא עלול "להזות" חפצים כמו הילות, עור שעווה או ריצוד בסרטון.
נקודות מפתח:
ניבוי : המודל מייצר פרטים סבירים, לא שחזור מובטח של המציאות.
בחירת דגם : רשתות CNN נוטות להיות יציבות יותר; רשתות GAN יכולות להיראות חדות יותר אך מסתכנות בהמצאת תכונות.
בדיקות חפצים : שימו לב להילות, מרקמים חוזרים, "כמעט אותיות" ופרצופים פלסטיקיים.
יציבות וידאו : השתמש בשיטות זמניות או שתראה הבהוב וסחיפה מפריים לפריים.
שימוש בסיכון גבוה : אם לדיוק יש לגלות את העיבוד ולהתייחס לתוצאות כהמחשה.

בטח ראיתם את זה: תמונה זעירה ופריכה הופכת למשהו חד מספיק כדי להדפיס, להזרים או לשלב אותו במצגת בלי להתכווץ. זה מרגיש כמו רמאות. ובדרך הטובה ביותר - זה אכן כזה 😅
אז, איך שדרוג בינה מלאכותית עובד מסתכם במשהו ספציפי יותר מ"המחשב משפר פרטים" (גלי ידני) וקרוב יותר ל"מודל מנבא מבנה ברזולוציה גבוהה מתקבל על הדעת על סמך דפוסים שלמד מדוגמאות רבות" ( למידה עמוקה עבור רזולוציית תמונה סופר: סקר ). שלב החיזוי הזה הוא כל המשחק - וזו הסיבה ששדרוג בינה מלאכותית יכול להיראות מדהים... או קצת פלסטיקי... או כמו שהחתול שלכם גידל שפם בונוס.
מאמרים שאולי תרצו לקרוא אחרי זה:
🔗 איך בינה מלאכותית עובדת
למד את יסודות המודלים, הנתונים והסקת הסקות בבינה מלאכותית.
🔗 איך בינה מלאכותית לומדת
ראה כיצד נתוני אימון ומשוב משפרים את ביצועי המודל לאורך זמן.
🔗 כיצד בינה מלאכותית מזהה אנומליות
להבין קווי בסיס של דפוסים וכיצד בינה מלאכותית מסמנת התנהגות חריגה במהירות.
🔗 כיצד בינה מלאכותית מנבאת מגמות
חקור שיטות חיזוי שמזהות אותות וצופות ביקוש עתידי.
איך עובדת שדרוג בינה מלאכותית: הרעיון המרכזי, במילים יומיומיות 🧩
שיפור רזולוציה פירושו הגדלת הרזולוציה: יותר פיקסלים, תמונה גדולה יותר. שיפור רזולוציה מסורתי (כמו ביקוביק) בעצם מותח פיקסלים ומחליק מעברים ( אינטרפולציה ביקובית ). זה בסדר, אבל זה לא יכול להמציא חדשים - זה פשוט מבצע אינטרפולציה.
שדרוג בינה מלאכותית מנסה משהו נועז יותר (הידוע גם כ"רזולוציית-על" בעולם המחקר) ( למידה עמוקה עבור רזולוציית-על של תמונות: סקר ):
-
זה מסתכל על הקלט ברזולוציה נמוכה
-
מזהה דוגמאות (קצוות, מרקמים, תווי פנים, משיכות טקסט, אריגת בד...)
-
אמורה להיראות גרסה ברזולוציה גבוהה יותר
-
מייצר נתוני פיקסלים נוספים שמתאימים לדפוסים אלה
לא "לשחזר את המציאות בצורה מושלמת", יותר כמו "לנחש ניחוש אמין ביותר" ( Image Super-Resolution Using Deep Convolutional Networks (SRCNN) ). אם זה נשמע קצת חשוד, אתם לא טועים - אבל זו גם הסיבה שזה עובד כל כך טוב 😄
וכן, זה אומר ששדרוג בינה מלאכותית הוא בעצם הזיות מבוקרות... אבל בצורה פרודוקטיבית, המכבדת פיקסלים.
מה הופך גרסה טובה של שדרוג בינה מלאכותית? ✅🛠️
אם אתם שופטים שיפור בינה מלאכותית (או הגדרה מוגדרת מראש), הנה מה שבדרך כלל חשוב ביותר:
-
שחזור פרטים ללא בישול יתר.
שדרוג טוב מוסיף פריכות ומבנה, לא רעש פריך או נקבוביות מזויפות. -
משמעת בקצוות
קווים נקיים נשארים נקיים. מודלים גרועים גורמים לקצוות להתנדנד או להצמיח הילות. -
ריאליזם של מרקם.
שיער לא צריך להפוך למשיחת מכחול. לבנים לא צריכות להפוך לחותמת דוגמה חוזרת. -
טיפול ברעשים ובדחיסה.
הרבה תמונות יומיומיות עוברות עיבוד JPEG עד מוות. מכשיר איכותי לא מגביר את הנזק הזה ( Real-ESRGAN ). -
מודעות לפנים ולטקסט
פנים וטקסט הם המקומות הקלים ביותר לאתר טעויות. דוגמנים טובים מתייחסים אליהם בעדינות (או שיש להם מצבים מיוחדים). -
עקביות בין פריימים (עבור וידאו)
אם הפרטים מרצדים פריים לפריים, העיניים שלכם יצעקו. שדרוג וידאו חי או מת לפי יציבות זמנית ( BasicVSR (CVPR 2021) ). -
פקדים הגיוניים
אתם רוצים מחוונים שמתואמים לתוצאות אמיתיות: ניקוי רעשים, הסרת טשטוש, הסרת חפצים, שמירת גרגירים, חידוד... הדברים המעשיים.
כלל שקט שתקף: השדרוג ה"טוב" ביותר הוא לעתים קרובות זה שבקושי שמים לב אליו. נראה פשוט שהייתה לך מצלמה טובה יותר מלכתחילה 📷✨
טבלת השוואה: אפשרויות פופולריות לשדרוג בינה מלאכותית (ולמה הן טובות) 📊🙂
להלן השוואה מעשית. המחירים מטושטשים במכוון מכיוון שהכלים משתנים בהתאם לרישיון, לחבילות, לעלויות המחשוב ולכל הדברים הכיפיים האלה.
| כלי / גישה | הכי טוב עבור | אווירת מחיר | למה זה עובד (בערך) |
|---|---|---|---|
| מכשירי שיפור בסגנון טופז לשולחן העבודה ( Topaz Photo , Topaz Video ) | תמונות, וידאו, זרימת עבודה קלה | בתשלום-משהו | מודלים כלליים חזקים + הרבה כוונון, נוטים "פשוט לעבוד"... לרוב |
| תכונות מסוג "Super Resolution" של Adobe ( Adobe Enhance > Super Resolution ) | צלמים שכבר נמצאים במערכת האקולוגית הזו | מנוי-y | שחזור פרטים מוצק, בדרך כלל שמרני (פחות דרמטי) |
| אמיתי-ESRGAN / גרסאות ESRGAN ( Real-ESRGAN , ESRGAN ) | עשה זאת בעצמך, מפתחים, עבודות אצווה | חינם (אבל גוזל זמן) | מעולה בפרטי מרקם, יכול להיות חריף על פנים אם לא נזהרים |
| מצבי שדרוג מבוססי דיפוזיה ( SR3 ) | עבודה יצירתית, תוצאות מסוגננות | מְעוּרָב | יכול ליצור פרטים מרהיבים - גם יכול להמציא שטויות, אז... כן |
| משדרגי משחקים (בסגנון DLSS/FSR) ( NVIDIA DLSS , AMD FSR 2 ) | משחקים ורינדור בזמן אמת | חבילה | משתמש בנתוני תנועה ובנתונים קודמים שנלמדו - ניצחון בביצועים חלקים 🕹️ |
| שירותי שדרוג ענן | נוחות, ניצחונות מהירים | תשלום לפי שימוש | מהיר + ניתן להרחבה, אבל אתה סוחר בשליטה ולפעמים גם בעדינות |
| שדרוג בינה מלאכותית ממוקדת וידאו ( BasicVSR , Topaz Video ) | קטעים ישנים, אנימה, ארכיון | בתשלום-משהו | טריקים זמניים להפחתת ריצוד + מודלים מיוחדים של וידאו |
| שדרוג גלריה/טלפון חכם | שימוש מזדמן | כּוֹלֵל | דגמים קלים מכוונים לתפוקה נעימה, לא לשלמות (עדיין שימושיים) |
וידוי מוזר בעיצוב: "Paid-ish" עושה הרבה עבודה בטבלה הזאת. אבל הבנתם את הרעיון 😅
הסוד הגדול: מודלים לומדים מיפוי מרזולוציה נמוכה לרזולוציה גבוהה 🧠➡️🖼️
בלב רוב שדרוג ה-AI נמצא מערך למידה מפוקח ( רזולוציית-על של תמונה באמצעות רשתות קונבולוציוניות עמוקות (SRCNN) ):
-
התחילו עם תמונות ברזולוציה גבוהה ("האמת")
-
הקטנת הדגימה שלהם לגרסאות ברזולוציה נמוכה ("הקלט")
-
לאמן מודל לשחזר את הרזולוציה הגבוהה המקורית מהרזולוציה הנמוכה
עם הזמן, המודל לומד קורלציות כמו:
-
"טשטוש כזה סביב העין בדרך כלל שייך לריסים"
-
"אשכול פיקסלים זה מצביע לעתים קרובות על טקסט סריף"
-
"הגרדיאנט הזה של הקצה נראה כמו קו גג, לא רעש אקראי"
זה לא שינון תמונות ספציפיות (במובן הפשוט), זה לימוד מבנה סטטיסטי ( למידה עמוקה עבור רזולוציית תמונה סופר-רזולוציה: סקר ). תחשבו על זה כמו לימוד הדקדוק של מרקמים וקצוות. לא דקדוק שירה, יותר כמו... דקדוק ידני של איקאה 🪑📦 (מטאפורה מגושמת, אבל קרובה מספיק).
העיקרון: מה קורה במהלך הסקה (כאשר מבצעים סקאלה) ⚙️✨
כשמכניסים תמונה למערכת שיפור בינה מלאכותית, בדרך כלל יש תהליך כזה:
-
עיבוד מקדים
-
המרת מרחב צבע (לפעמים)
-
נרמול ערכי פיקסלים
-
חלק את התמונה לחתיכות אם היא גדולה (בדיקת מציאות של VRAM 😭) ( מאגר Real-ESRGAN (אפשרויות אריחים) )
-
-
חילוץ תכונות
-
שכבות מוקדמות מזהות קצוות, פינות ומעברי צבע
-
שכבות עמוקות יותר מזהות דפוסים: מרקמים, צורות, רכיבי פנים
-
-
שִׁחזוּר
-
המודל מייצר מפת מאפיינים ברזולוציה גבוהה יותר
-
לאחר מכן ממיר את זה לפלט פיקסלים בפועל
-
-
עיבוד לאחר מכן
-
חידוד אופציונלי
-
ביטול רעש אופציונלי
-
דיכוי חפצים אופציונלי (צלצולים, הילות, חסימות)
-
פרט עדין אחד: כלים רבים משדרגים את מבנה האריחים, ואז משלבים תפרים. כלים מעולים מסתירים את גבולות האריחים. כלים מעולים משאירים סימני רשת חלשים אם תמצמצו. וכן, אתם תצטמצו, כי בני אדם אוהבים לבחון פגמים זעירים בזום של 300% כמו גרמלינים קטנים 🧌
משפחות המודלים העיקריות המשמשות לשדרוג בינה מלאכותית (ומדוע הן מרגישות שונות) 🤖📚
1) רזולוציית-על מבוססת CNN (סוס העבודה הקלאסי)
רשתות עצביות קונבולוציוניות מצוינות בתבניות מקומיות: קצוות, מרקמים, מבנים קטנים ( רזולוציית תמונה סופר באמצעות רשתות קונבולוציוניות עמוקות (SRCNN) ).
-
יתרונות: מהיר יחסית, יציב, פחות הפתעות
-
חסרונות: יכול להיראות קצת "מעובד" אם דוחפים חזק
2) שדרוג מבוסס GAN (בסגנון ESRGAN) 🎭
רשתות GAN (Generative Adversarial Networks) מאמנות גנרטור לייצר תמונות ברזולוציה גבוהה שהמבחין אינו יכול להבחין ביניהן לבין תמונות אמיתיות ( Generative Adversarial Networks ).
-
יתרונות: פרטים עוצמתיים, מרקם מרשים
-
חסרונות: יכול להמציא פרטים שלא היו שם - לפעמים שגויים, לפעמים מוזרים ( SRGAN , ESRGAN )
עדשת GAN יכולה לתת לך את החדות הראויה לנשימה. היא גם יכולה לתת למושא הדיוקן שלך גבה נוספת. אז... תבחרי את הקרבות שלך 😬
3) שדרוג מבוסס דיפוזיה (התו הכללי היצירתי) 🌫️➡️🖼️
מודלים של דיפוזיה מנקים רעשים צעד אחר צעד וניתן להנחות אותם לייצר פרטים ברזולוציה גבוהה ( SR3 ).
-
יתרונות: יכול להיות טוב בצורה מטורפת בפרטים סבירים, במיוחד לעבודה יצירתית
-
חסרונות: יכול לסטות מהזהות/מבנה המקוריים אם ההגדרות אגרסיביות ( SR3 )
כאן מתחילה ה"שדרוג" (upscaling) להשתלב ב"דמיון מחדש". לפעמים זה בדיוק מה שאתם רוצים. לפעמים זה לא.
4) שדרוג וידאו עם עקביות זמנית 🎞️
שדרוג וידאו מוסיף לעתים קרובות לוגיקה מודעת תנועה:
-
משתמש במסגרות שכנות כדי לייצב פרטים ( BasicVSR (CVPR 2021) )
-
מנסה להימנע מהבהוב וזחילה
-
משלב לעתים קרובות רזולוציה גבוהה עם ביטול רעשים ודה-אינטרלייסינג ( סרטון טופז )
אם שדרוג תמונה הוא כמו שחזור ציור אחד, שדרוג וידאו הוא כמו שחזור פנקס קריאה מבלי לגרום לאף של הדמות לשנות צורה בכל עמוד. וזה... קשה יותר ממה שזה נשמע.
למה שדרוג בינה מלאכותית לפעמים נראה מזויף (ואיך לזהות אותו) 👀🚩
שדרוג בינה מלאכותית נכשל בדרכים מוכרות. ברגע שתלמדו את הדפוסים, תראו אותם בכל מקום, כמו לקנות מכונית חדשה ולפתע להבחין בדגם הזה בכל רחוב 😵💫
מספרת נפוצה:
-
שעווה לעור בפנים (יותר מדי ניקוי רעשים + החלקה)
-
הילות מחודדות יתר על המידה סביב הקצוות (טריטוריית "החרגה" הקלאסית) ( אינטרפולציה דו-קובית )
-
טקסטורות חוזרות (קירות לבנים הופכים לדפוסי העתקה-הדבקה)
-
מיקרו-ניגודיות פריכה שצועקת "אלגוריתם"
-
שיבוש טקסט שבו אותיות הופכות לכמעט אותיות (הסוג הגרוע ביותר)
-
סחף פרטים שבו מאפיינים קטנים משתנים בעדינות, במיוחד בזרימות עבודה של דיפוזיה ( SR3 )
החלק המסובך: לפעמים הממצאים האלה נראים "טובים יותר" במבט חטוף. המוח שלך אוהב חדות. אבל אחרי רגע, זה מרגיש... לא נכון.
טקטיקה טובה היא להתרחק ולבדוק אם זה נראה טבעי ממרחק צפייה רגיל. אם זה נראה טוב רק בזום של 400%, זה לא ניצחון, זה תחביב 😅
איך עובד שדרוג בינה מלאכותית: צד האימון, בלי כאב ראש מתמטי 📉🙂
אימון מודלים ברזולוציית-על כרוך בדרך כלל ב:
-
מערכי נתונים מזווגים (קלט ברזולוציה נמוכה, יעד ברזולוציה גבוהה) ( רזולוציית תמונה סופר-רזולוציונית באמצעות רשתות קונבולוציוניות עמוקות (SRCNN) )
-
פונקציות אובדן המענישות על שחזורים שגויים ( SRGAN )
סוגי הפסדים אופייניים:
-
אובדן פיקסלים (L1/L2)
מעודד דיוק. יכול להניב תוצאות מעט רכות. -
אובדן תפיסה -
משווה מאפיינים עמוקים יותר (כמו "האם זה נראה דומה") ולא פיקסלים מדויקים ( הפסדים תפיסתיים (Johnson et al., 2016) ). -
הפסד אדוורסרי (GAN)
מעודד ריאליזם, לעיתים במחיר של דיוק מילולי ( SRGAN , רשתות אדוורסריות גנרטיביות ).
יש משיכת חבל מתמדת:
-
הפוך אותו נאמן למקור
לעומת -
הפוך את זה לנעים מבחינה ויזואלית
כלים שונים נוחתים במקומות שונים על הספקטרום הזה. וייתכן שתעדיפו אחד כזה, תלוי אם אתם משחזרים תמונות משפחתיות או מכינים פוסטר שבו "מראה טוב" חשוב יותר מדיוק פורנזי.
זרימות עבודה פרקטיות: תמונות, סריקות ישנות, אנימה וסרטונים 📸🧾🎥
תמונות (צילומי פורטרטים, נופים, צילומי מוצר)
נוהג מומלץ הוא בדרך כלל:
-
ניקוי רעשים קל תחילה (במידת הצורך)
-
יוקרתי עם הגדרות שמרניות
-
הוסף גרגירים בחזרה אם הדברים מרגישים חלקים מדי (כן, באמת)
דגנים הם כמו מלח. יותר מדי מהם הורסים את ארוחת הערב, אבל אף אחד מהם לא יכול להיות קצת שטוח 🍟
סריקות ישנות ותמונות דחוסות מאוד
אלה קשים יותר מכיוון שהמודל עשוי להתייחס לבלוקים של דחיסה כ"מרקם".
נסה:
-
הסרת חפצים או ביטול חסימות
-
ואז יוקרתי
-
ואז חידוד קל (לא יותר מדי... אני יודע, כולם אומרים את זה, אבל בכל זאת)
אנימה ויצירות קו
איורי קו נהנים מ:
-
דגמים ששומרים על קצוות נקיים
-
הזיות מרקם מופחתות.
שדרוג אנימה נראה לעתים קרובות נהדר מכיוון שהצורות פשוטות ועקביות. (מזל.)
וִידֵאוֹ
סרטון מוסיף שלבים נוספים:
-
דנויז
-
דה-שזירה (עבור מקורות מסוימים)
-
יוקרתי
-
החלקה או ייצוב זמניים ( BasicVSR (CVPR 2021) )
-
החזרת גרגרים אופציונלית לצורך לכידות
אם מדלגים על עקביות זמנית, מקבלים את הבהוב הפרטים המנצנץ הזה. ברגע שמבחינים בו, אי אפשר להתעלם ממנו. כמו כיסא חורק בחדר שקט 😖
בחירת הגדרות בלי לנחש בפראות (דף קטן של רמאות) 🎛️😵💫
הנה גישה התחלתית ראויה:
-
אם הפנים נראות פלסטיות,
הפחיתו את הרעש, הפחיתו את החידוד, נסו מודל או מצב לשמירת פנים. -
אם הטקסטורות נראות אינטנסיביות מדי,
הורידו את המחוונים "שיפור פרטים" או "שחזור פרטים", והוסיפו גרגירים עדינים לאחר מכן. -
אם הקצוות זוהרים,
הנמך את החידוד, בדוק את אפשרויות דיכוי הילה. -
אם התמונה נראית "בינה מלאכותית" מדי,
לכו על שמרנות רבה יותר. לפעמים הצעד הטוב ביותר הוא פשוט... פחות.
וגם: אל תגדילו את הגרסה לפיקסלים פי 8 רק בגלל שאתם יכולים. פיקסלים פי 2 או פי 4 נקיים הם לרוב הפתרון המושלם. מעבר לזה, אתם מבקשים מהדוגמנית לכתוב פאנפיקים על הפיקסלים שלכם 📖😂
אתיקה, אותנטיות, והשאלה המביכה של "אמת" 🧭😬
שדרוג בינה מלאכותית מטשטש קו:
-
שיקום פירושו שחזור של מה שהיה קיים
-
שיפור מרמז על הוספת מה שלא היה
עם תמונות אישיות, זה בדרך כלל בסדר (ויפה). עם עיתונות, ראיות משפטיות, הדמיה רפואית, או כל דבר שבו נאמנות חשובה... צריך להיות זהירים ( OSAC/NIST: מדריך סטנדרטי לניהול תמונות דיגיטליות משפטיות , הנחיות SWGDE לניתוח תמונות משפטיות ).
כלל פשוט:
-
אם ההימור גבוה, התייחסו לשדרוג הבינה המלאכותית כאל אילוסטרציה , לא סופי.
בנוסף, גילוי נאות חשוב בהקשרים מקצועיים. לא בגלל שבינה מלאכותית היא רעה, אלא בגלל שהקהל ראוי לדעת האם הפרטים שוחזרו או נלכדו. זה פשוט... מכבד.
הערות סיכום וסיכום קצר 🧡✅
אז, איך שדרוג בינה מלאכותית עובד הוא כך: מודלים לומדים כיצד פרטים ברזולוציה גבוהה נוטים להתייחס לדפוסים ברזולוציה נמוכה, ואז חוזים פיקסלים נוספים אמינים במהלך השדרוג ( למידה עמוקה עבור רזולוציית תמונה סופר: סקר ). בהתאם למשפחת המודלים (CNN, GAN, דיפוזיה, וידאו-זמני), ניבוי זה יכול להיות שמרני ונאמן... או נועז ולעיתים לא יציב 😅
סיכום קצר
-
שדרוג מסורתי מותח פיקסלים ( אינטרפולציה ביקובית )
-
שדרוג בינה מלאכותית מנבא פרטים חסרים באמצעות דפוסים נלמדים ( רזולוציית תמונה סופר באמצעות רשתות קונבולוציוניות עמוקות (SRCNN) )
-
תוצאות נהדרות מגיעות מהמודל הנכון + איפוק
-
שימו לב להילות, פרצופים דמויי שעווה, מרקמים חוזרים ונשנים והבהובים בסרטון ( BasicVSR (CVPR 2021) )
-
שדרוג קנה מידה הוא לעתים קרובות "שחזור סביר", לא אמת מושלמת ( SRGAN , ESRGAN )
אם אתם רוצים, תגידו לי מה אתם משדרגים (פרצופים, תמונות ישנות, וידאו, אנימה, סריקות טקסט), ואני אציע אסטרטגיית הגדרות שנוטה להתחמק ממלכודות ה"מראה של בינה מלאכותית" הנפוצות 🎯🙂
שאלות נפוצות
שדרוג בינה מלאכותית וכיצד זה עובד
שדרוג קנה מידה באמצעות בינה מלאכותית (המכונה לעתים קרובות "רזולוציית-על") מגביר את רזולוציית התמונה על ידי ניבוי פרטים חסרים ברזולוציה גבוהה מדפוסים שנלמדו במהלך האימון. במקום פשוט למתוח פיקסלים כמו אינטרפולציה דו-קובית, מודל חוקר קצוות, מרקמים, פאות ומשיכות דמויי טקסט, ולאחר מכן מייצר נתוני פיקסלים חדשים התואמים את הדפוסים הנלמדים. זה פחות "שחזור המציאות" ויותר "ניחוש אמין" שנקרא כטבעי.
שדרוג גודל באמצעות בינה מלאכותית לעומת שינוי גודל דו-קובי או מסורתי
שיטות שדרוג מסורתיות (כמו bicubic) מבצעות בעיקר אינטרפולציה בין פיקסלים קיימים, ומחליקות מעברים מבלי ליצור פרטים חדשים אמיתיים. שדרוג בינה מלאכותית שואף לשחזר מבנה סביר על ידי זיהוי רמזים חזותיים וחיזוי כיצד גרסאות ברזולוציה גבוהה של רמזים אלה נוטות להיראות. זו הסיבה שתוצאות בינה מלאכותית יכולות להרגיש חדות באופן דרמטי, וגם מדוע הן יכולות להציג ארטיפקטים או "להמציא" פרטים שלא היו קיימים במקור.
מדוע פנים יכולות להיראות דמויות שעווה או חלקות מדי
פנים דמויי שעווה מגיעות בדרך כלל מהסרת רעשים והחלקה אגרסיביים בשילוב עם חידוד שמסיר את המרקם הטבעי של העור. כלים רבים מתייחסים לרעש ולמרקם עדין באופן דומה, כך ש"ניקוי" תמונה יכול למחוק נקבוביות ופרטים עדינים. גישה נפוצה היא להפחית הסרת רעשים וחידוד, להשתמש במצב שימור פנים אם קיים, ואז להחזיר נגיעה של גרגירים כך שהתוצאה תרגיש פחות פלסטית ויותר צילומית.
ארטיפקטים נפוצים של שדרוג קנה מידה של בינה מלאכותית שכדאי לשים לב אליהם
סימנים אופייניים כוללים הילות סביב קצוות, דפוסי מרקם חוזרים (כמו לבני העתקה-הדבקה), מיקרו-ניגודיות פריכה וטקסט שהופך ל"כמעט אותיות". בזרימות עבודה מבוססות דיפוזיה, ניתן גם לראות סחף פרטים שבו מאפיינים קטנים משתנים בעדינות. עבור וידאו, הבהוב ופרטים זוחלים על פני פריימים הם דגלים אדומים גדולים. אם זה נראה טוב רק בזום קיצוני, כנראה שההגדרות אגרסיביות מדי.
כיצד GAN, CNN ו-difusion upscalers נוטים להשתנות בתוצאות
רזולוציית-על מבוססת CNN נוטה להיות יציבה וצפויה יותר, אך היא יכולה להיראות "מעובדת" אם נלחצים עליה חזק. אפשרויות מבוססות GAN (בסגנון ESRGAN) מייצרות לעיתים קרובות מרקם חד וחדות נתפסת יותר, אך הן יכולות להזות פרטים שגויים, במיוחד על פנים. שדרוג מבוסס דיפוזיה יכול לייצר פרטים יפים וסבירים, אך הם עלולים לסטות מהמבנה המקורי אם הגדרות ההדרכה או העוצמה חזקות מדי.
אסטרטגיית הגדרות מעשית למניעת מראה של "בינה מלאכותית מדי"
התחילו באופן שמרני: הגדילו את הגודל לפי 2 או 4 לפני שאתם פונים לגורמים קיצוניים. אם הפנים נראות פלסטיות, הפחיתו את רמת הרעש והחידוד ונסו מצב המודע לפנים. אם הטקסטורות נעשות אינטנסיביות מדי, הפחיתו את שיפור הפרטים ושקלו להוסיף גרגירים עדינים לאחר מכן. אם הקצוות זוהרים, הפחיתו את החידוד ובדקו דיכוי הילה או חפצים. בהרבה תהליכים, "פחות" מנצח כי זה שומר על ריאליזם אמין.
טיפול בסריקות ישנות או בתמונות דחוסות מאוד בפורמט JPEG לפני שינוי קנה מידה
תמונות דחוסות הן מסובכות משום שמודלים יכולים להתייחס לחפצי בלוק כאל מרקם אמיתי ולהגביר אותם. תהליך עבודה נפוץ הוא הסרה או ביטול חסימות של חפצים תחילה, לאחר מכן הגדלה, ולאחר מכן חידוד קל רק במידת הצורך. עבור סריקות, ניקוי עדין יכול לעזור למודל להתמקד במבנה בפועל ולא בנזק. המטרה היא להפחית "רמזים מזויפים של מרקם" כך שהמודל לא ייאלץ לנחש בביטחון על סמך קלט רועש.
למה שדרוג וידאו קשה יותר משדרוג תמונות
שדרוג קנה המידה של וידאו חייב להיות עקבי בין פריימים, לא רק טוב בתמונה אחת. אם פרטים מהבהבים פריים לפריים, התוצאה הופכת במהירות למסיחה את הדעת. גישות ממוקדות וידאו משתמשות במידע זמני מפריימים שכנים כדי לייצב את השחזור ולהימנע מפריימים מנצנצים. זרימות עבודה רבות כוללות גם ביטול רעשים, ביטול שזירה עבור מקורות מסוימים, והכנסה מחדש אופציונלית של גרגירים, כך שכל הרצף מרגיש קוהרנטי ולא חד באופן מלאכותי.
כאשר שדרוג קנה מידה של בינה מלאכותית אינו מתאים או מסוכן להסתמך עליו
עדיף להתייחס לשדרוג בינה מלאכותית כאל שיפור, לא כאל הוכחה. בהקשרים בעלי סיכון גבוה כמו עיתונאות, ראיות משפטיות, הדמיה רפואית או עבודה משפטית, יצירת פיקסלים "אמינים" עלולה להטעות משום שהיא עשויה להוסיף פרטים שלא נתפסו. מסגור בטוח יותר הוא להשתמש בו להמחשה ולחשוף שתהליך בינה מלאכותית שיחזר פרטים. אם דיוק הוא קריטי, יש לשמור את המסמכים המקוריים ולתעד כל שלב והגדרה בעיבוד.
הפניות
-
arXiv - למידה עמוקה עבור רזולוציית תמונה גבוהה: סקר - arxiv.org
-
arXiv - רזולוציית-על של תמונה באמצעות רשתות קונבולוציוניות עמוקות (SRCNN) - arxiv.org
-
arXiv - Real-ESRGAN - arxiv.org
-
arXiv - ESRGAN - arxiv.org
-
arXiv - SR3 - arxiv.org
-
מפתח NVIDIA - NVIDIA DLSS - developer.nvidia.com
-
AMD GPUOpen - FidelityFX Super Resolution 2 - gpuopen.com
-
גישה פתוחה של קרן הראייה הממוחשבת (CVF) - BasicVSR: החיפוש אחר רכיבים חיוניים ברזולוציית-על של וידאו (CVPR 2021) - openaccess.thecvf.com
-
arXiv - רשתות יריבות גנריות - arxiv.org
-
arXiv - SRGAN - arxiv.org
-
arXiv - אובדן תפיסתי (ג'ונסון ואחרים, 2016) - arxiv.org
-
GitHub - מאגר Real-ESRGAN (אפשרויות אריחים) - github.com
-
ויקיפדיה - אינטרפולציה ביקובית - wikipedia.org
-
מעבדות טופז - תמונה של טופז - topazlabs.com
-
מעבדות טופז - סרטון טופז - topazlabs.com
-
מרכז העזרה של אדובי - Adobe Enhance > רזולוציה מעולה - helpx.adobe.com
-
NIST / OSAC - מדריך סטנדרטי לניהול תמונות דיגיטליות פורנזיות (גרסה 1.0) - nist.gov
-
SWGDE - הנחיות לניתוח תמונות פורנזיות - swgde.org