אחד למיליארד: וקטור התקפה חדש נולד
האם טביעת האצבע שלנו, שהיא אחד מהנכסים הביומטריים שמייחדים אותנו כאשר הסיכוי לאתר טביעה זהה לה הוא אחד למיליארד, הינה באמת מנגנון הזיהוי המיטבי ביותר שקיים כיום?
שימוש בטביעות אצבע של משתמשים לצרכי זיהוי הולך וגובר מיום ליום, אנו עושים שימוש בשיטת זיהוי זו בכדי לאמת את זהותנו במגוון יישומים החל מפתיחת דלתות במשרדים ובתים חכמים, אבטחת מכשיר הסמארטפון שברשותנו ועד לאישור תשלומים ופעולות רגישות באפליקציות השונות. אז האם טביעת האצבע שלנו, שהיא אחד מהנכסים הביומטריים שמייחדים אותנו כאשר הסיכוי לאתר טביעה זהה לה הוא אחד למיליארד, הינה באמת מנגנון הזיהוי המיטבי ביותר שקיים כיום?
בכדי לענות על שאלה זו עלינו להבין מהי בינה מלאכותית באופן מעמיק ולכן נערוך השוואה בין המבנה של אלגוריתם סטנדרטי למבנה של אלגוריתם המאפשר למידה עמוקה. בעוד שאלגוריתם סטנדרטי מכיל סט של התניות ומפיק פלט בהתאם לקלט שקיבל, אלגוריתם עמוק צריך לעבור תהליך "אימון" שיהפוך אותו לחכם, כאשר במהלך האימון מוצג לאלגוריתם קלט ופלט תואם שאנו מצפים מהאלגוריתם להציג.
מפתיע לגלות שבתחום כה חדשני אחד האלגוריתמים המשמעותיים דווקא אינו חדש כלל, רשתות נוירונים הן אלגוריתם מסוג "קופסא שחורה" שעוצב במטרה לחקות את המוח האנושי הוצג לראשונה ב 1943 על ידי וורן מקלאוץ' וולטר פיטס.
באלגוריתם מסוג זה אין אנו רואים או יכולים להבין בצורה מדויקת את הרציונל העומד מאחורי החלטות המודל בדיוק כמו שאין אנו יודעים לתת הסבר מדויק לפעילות המוח האנושי. ניתן להגדיר זאת כשרשת נוירונים מאומנת למשימה ספציפית כמו זיהוי כתב יד היכולה להגיע לדיוק של למעלה מ-99%, הישג מרשים לכל הדעות! את ההישג הזה אנחנו יכולים לראות במערכות לזיהוי שפה כמו העוזרות הווירטואליות, מנגנוני המלצה שמנסים לאפיין את הטעם שלנו בספקיות תוכן כמו Netflix ו-Spotify.
בשנת 2014 הוצג אלגוריתם חדש בשם Generative adversarial network (ר"ת GAN) אשר מתבסס על תחרות בין שתי רשתות נוירונים, כאשר רשת ראשונה הינהG (מחולל) ורשת נוספת הינה D (מאבחן).
אז איך עובד GAN:
- המאבחן (D) מקבל 5 תמונות אמתיות.
1.1. בעבור כל תמונה על המאבחן (D) להחליט האם התמונה אמיתית או זיוף.
1.2. לאחר החלטת המאבחן, מתקיים משוב (feedback loop) וכיוונון הקשרים ברשת הנוירונים D בהתאם. - בעבור כל 5 תמונות אמתיות (סעיף 1) המחולל (G) מייצר תמונה סינטטית ושולח אותה למאבחן (D).
2.1. על המאבחן (D) להחליט כעת אם התמונה אמיתית או זיוף בהתבסס על התמונות שכבר תועדו.
2.2. לאחר החלטת המאבחן, מתקיים משוב (feedback loop) וכיוונון הקשרים ברשת הנוירונים של המחולל G בהתאם.
לטכניקה זו קוראים Unsupervised Learning , דהיינו "למידה לא מפוקחת", כך שבשונה מאלגוריתם למידה עמוקה גנרי, הקלט שמקבל ה-GAN אינו מכיל label אלא רק תמונות ולכן האלגוריתם אינו יודע מה מוצג בכל תמונה. כתוצאה מכך, האלגוריתם מצליח ללמוד ולהשתפר בעזרת ה Feedback-Loop.
הייחודיות של GAN היא שהוא מסוגל לחקות את הקלט ולייצר תמונות דומות לאלו שמציגים לו. כמה דומות? מאוד דומות ולפעמים אף יותר מוצלחות מהתמונות ששימשו אותו כקלט ללמידה.
אז מה הקשר בין בינה מלאכותית לאבטחת מידע
באוקטובר 2018 חוקרים מאוניברסיטאות שונות בארצות הברית פרסמו מחקר בו הם הציגו כיצד ייצרו טביעות אצבע סינתטיות בעזרת שימוש במודל ה-GAN, והוכיחו שטביעות אלה בעלות התאמה של עד 22% לכלל טביעות האצבע בעולם, כלומר עבור חמישית מהאוכלוסייה לא ניתן להבדיל בין טביעת האצבע שלהם לטביעה סינתטית. בדומה למפתח מאסטר המתאים למספר רב של דלתות, כך גם הטביעה הסינתטית בעלת אחוזי התאמה גבוהים למספר רב של טביעות אצבע כאשר כינויה הינו DeepMasterPrins.
כחלק מתהליכי מחקר שאנו מבצעים ב-Bugsec, הוחלט להבין את התהליך על כלל רבדיו בניסיון לשחזר ולהגיע לתוצאות זהות כמתואר. בסיום תהליך הלמידה ומימוש הדברים ניתן לומר שלא התאכזבנו ואף הושגו תוצאות מרשימות שהפתיעו גם אותנו!
הכותב הוא ניר סאיאס, Penetration Tester ב-BugSec.