אנבידיה: מצאנו שיטה חדשה ליצירת תוכן ויזואלי באמצעות AI

לפי החברה, כלי ה-AI החדשים שלה מאפשרים לתוכנות כפיקאסו ו-DALL-E לספק תוצאות אישיות לצרכי המשתמשים ● כך, במקום תמונה "רגילה" של "משה", אפשר להגדיר אובייקט חדש ולהציג אותו שותה אורנג'דה או בטיול משפחתי

אנבידיה.צילום: BigStock

אנבידיה חשפה אתמול (ד') כמה מחקרים חדשים, שיוצגו באוגוסט הקרוב בכנס SIGGRAPH 2023 שלה, שבהם, לטענתה, היא חושפת את הדור הבא של יצירת תוכן ויזואלי באמצעות בינה מלאכותית יוצרת תוכן. המחקרים הללו אמורים, לפי החברה, להראות את היכולת להגדיר תוכנות כמו פיקאסו של אנבידיה עצמה, DALL-E ועוד, כך שהן ילמדו לספק תוצאות שמוצעות באופן הרבה יותר אישי לצרכים של המשתמשים בהן.

"הנקודה שהתחלנו לעבוד עליה היא שהרבה פעמים, מה שאת.ה רוצה לייצר הוא דברים שרלבנטיים לך ולא משהו גנרי מהאינטרנט, למשל תמונות שמכילות את הכלב של מישהו, ולא איזשהו כלב. לדוגמה, עבור מנהל.ת מוצרים, תמונה שמשלבת מוצר מסוים עם דברים נוספים. בכלים הנוכחיים זה לא אפשרי, כי הם כלליים מדי", אמר פרופ' גל צ'צ'יק, מנהל קבוצת המחקר של הבינה המלאכותית באנבידיה ישראל, בשיחה עם עיתונאים.

לדבריו, השיטה החדשה שהחברה מציעה מהווה פריצת דרך, כי היא מאפשרת הגדרה ספציפית ביותר של אלמנט או אובייקט מסוים, ופותחת פתח למגוון רחב של שימושים עבור יוצרים, מעצבים, אנשי שיווק ומיתוג, בעולמות הגיימינג, המטאברס, הבידור, ואף בעולמות העסקי והמסחרי.

"מבחינה טכנית, הדרך שבה המודלים עובדים היא לקחת את המילים במילון ולהפוך אותן לווקטורים של מספרים, ואנחנו מייצרים עוד וקטור שמצטרף למודל. זה הרעיון, בגדול. מכיוון שמדובר בשבר חדש, אפשר לשלב אותו עם כל דבר במודל מבלי לפגוע בו", הוסיף פרופ' צ'צ'יק.

איך זה עובד בפועל?

מה ההבדל בין דרישה ליצור תמונה בשיטה הרגילה לבין שיטה שבה מגדירים אובייקט מסוים? ניקח, לדוגמה, חבר בשם משה, שרוצים קצת לצחקק אתו עליו. בשיטה הנוכחית צריך להגדיר למודל שמשה הוא אדם, שהוא חבר, להוסיף תיאור של מה שרוצים שיהיה יחד אתו בתמונה ולקוות שיצא משהו דומה… אולי. אבל לפי אנבידיה, המשתמש יוכל לאמן את המודל מבלי לשנות דבר בדרך הפעולה שלו, עם אובייקט חדש שקוראים לו "משה". זה יכול להיעשות עם כמה תמונות של משה שקיימות במלאי, לדוגמה, ואז התיאור יכול להיות הרבה יותר פשוט, והתוצאה הרבה יותר מדויקת: משה שותה בקבוק אורנג'דה, משה בטיול עם המשפחה, וכיוצא בזה. התוצאה שהמודל יפיק תהיה הרבה יותר אפקטיבית בצורה הזו מסבירים באנבידיה.

כך זה עובד בפועל. צילום: אנבידיה

"אנחנו דוחפים את הטכנולוגיה הזו לגבהים חדשים – מאפשרים פרסונליזציה של טקסט לתמונה ובנוסף האצת הלמידה של קונספט חדש מדקות לשניות. הפיתוח עושה כמה דברים מאוד חשובים: מצליח להגיע לאיכות הרבה יותר טובה, תוך דמיון לתמונות שבהן משתמשים לצורך אימון המודל – אבל אחרת. יש טרייד אוף עם משהו שאפשר לשלוט בו אבל מהצד השני, הוא מספיק נאמן לתמונות שניתנו, והמודל הזה טוב יותר בשני הממדים. מה שחשוב לא פחות הוא שמדובר במודל קל משקל שמספק תמונות ברמה איכותית יותר ממה שידענו עד עכשיו", הסביר צ'צ'יק.

פיתוח ואבטחה

חלק מהטכנולוגיות שהציגה אנבידיה בוצעו בשיתוף עם חוקרים מאוניברסיטת תל אביב, ולפי צ'צ'יק הן אמורות להשתלב בעתיד במוצרים של החברה. "חשוב לנו מאוד שיתוף הפעולה האקדמי. מאוד חשוב לנו שהעבודות הללו יהיו שימושיות לקהילת המפתחים", אמר.

מה לגבי אבטחה ודיפ פייק? לא ברור בינתיים כיצד המודל ימנע שימוש לא חוקי בתמונות שלמשתמשים אין זכויות יוצרים עליהן, לדוגמה. רק באחרונה הציגה אנבידיה את NeMo Guardrails, כדי להילחם בסטייה של כלי יצירת תוכן מבוססי טקסט מהנושא, ולאפשר לכלי בינה מלאכותית יוצרת תוכן להתמקד במידע הקנייני של הארגונים עצמם. כמו כן, הוא כולל מסנני שפה. לפי צ'צ'יק, נכון לעכשיו לא מפותח כלי דומה לשימוש עם הטכנולוגיה החדשה שהציגה כעת החברה.

מהצד השני, לגבי היצירות עצמן הוא אמר: "קל לזהות את הדרך שבה הרבה מהתמונות הללו נוצרו – אולי לא לעין האנושית, אבל יש מודלים שמקלים על זיהוי בינה מלאכותית. בנוסף, יש טכנולוגיות שמאפשרות לשתול בתמונה סימן שמסמן שהיא נעשתה באמצעות בינה מלאכותית, כך שאני מאמין שתהיה אפשרות להימנע מדיפ פייק".

Nvidia AI גל צ'צ'יק אנבידיה

תגובות

(1)

כתיבת תגובה לבטל

מ.

לפני 2 שנים

נשמע כמו Textual inversion או LORA. לא ברור למה הם חושבים שפרצו דרך איכשהו.

השיבו לתגובה

מגרדת ידע בלי רשות: OpenAI השיקה GPTBot שסורק אתרי אינטרנט

אפל ו-TSMC סגרו עסקת שבבים שחוסכת ליצרנית ה-iPhone מיליארדי ד

אקזיט כחולבן: רובריק רוכשת את למינאר ברבע מיליארד דולרים

חשש מהתחלת מחסור בכרטיסי מסך

אפל החלה לבחון מעבד ממשפחת M3 – שתושק באוקטובר

רבעון טוב לפלייטיקה: הרווח הנקי עלה ביותר מפי שניים

מד וואן מקימה דאטה סנטרים ברמלה ב-1.5 מיליארד שקלים

"סבתא בישלה דייסה – ולסייבר במגזר הבריאות לא נשאר"

התייעלות אנרגטית: מהפכה בדאטה סנטרים לעתיד ירוק יותר

כיצד מומלץ לקבל החלטות בעידן ה-AI?

נשים ומחשבים: חן בעדני, גי אי דיגיטל

יוצאים לטייל? קחו אתכם תחנת כוח ניידת

מה חושבים המנהלים על הבינה המלאכותית היוצרת?

קבלת החלטות בעידן ה-AI

נשים ומחשבים: ליאור רוכברגר, פאלו אלטו נטוורקס

כיצד המנמ"ר מתכנן ומנהל תקציבים שנתיים?

אנבידיה: מצאנו שיטה חדשה ליצירת תוכן ויזואלי באמצעות AI

איך זה עובד בפועל?

פיתוח ואבטחה

תגובות

כתיבת תגובה לבטל

אירועים קרובים

מגרדת ידע בלי רשות: OpenAI השיקה GPTBot שסורק אתרי אינטרנט

אפל ו-TSMC סגרו עסקת שבבים שחוסכת ליצרנית ה-iPhone מיליארדי ד

אקזיט כחולבן: רובריק רוכשת את למינאר ברבע מיליארד דולרים

חשש מהתחלת מחסור בכרטיסי מסך

אפל החלה לבחון מעבד ממשפחת M3 – שתושק באוקטובר

רבעון טוב לפלייטיקה: הרווח הנקי עלה ביותר מפי שניים

מד וואן מקימה דאטה סנטרים ברמלה ב-1.5 מיליארד שקלים

"סבתא בישלה דייסה – ולסייבר במגזר הבריאות לא נשאר"

התייעלות אנרגטית: מהפכה בדאטה סנטרים לעתיד ירוק יותר

כיצד מומלץ לקבל החלטות בעידן ה-AI?

נשים ומחשבים: חן בעדני, גי אי דיגיטל

יוצאים לטייל? קחו אתכם תחנת כוח ניידת

מה חושבים המנהלים על הבינה המלאכותית היוצרת?

קבלת החלטות בעידן ה-AI

נשים ומחשבים: ליאור רוכברגר, פאלו אלטו נטוורקס

כיצד המנמ"ר מתכנן ומנהל תקציבים שנתיים?

אנבידיה: מצאנו שיטה חדשה ליצירת תוכן ויזואלי באמצעות AI

איך זה עובד בפועל?

פיתוח ואבטחה

תגובות

כתיבת תגובה לבטל

אירועים קרובים

תוכן פרסומי

תוכן פרסומי

תוכן פרסומי

תוכן פרסומי

שמנו לב שחוסם הפרסומות שלך מופעל