"רעיונות איך לטפל בחריגים רעים נובעים מלימוד של טיפול בחריגים טובים"
כך אמרה אדית אורי, מפתחת פתרון GT data mining ושל מדע הנתונים החדש, במפגש פורום Data Science מבית אנשים ומחשבים בנושא "זיהוי חריגים - מפתח לקבלת החלטות מהירות" ● אבי ויינברג, מומחה בתחום הסייבר ולימוד מכונה, דיבר על זיהוי אנומליות של חתימות ביומטריות בעידן הפייק ניוז
"לעיתים קרובות צריכים בכלל לשאול קודם כל מה זה חריגים. בדרך כלל מתייחסים אליהם כאל משהו שולי קיצוני, אבל לפעמים זוהי תופעה די גדולה, ועד שנזכרים, מתעוררים ומתחילים לטפל בה – היא הופכת לרצינית. אין זה גם בהכרח שגיאה של המערכת וזה לא גם חייב להיות בהכרח משהו פסול או לא תקין. למעשה, אין זו תופעה נדירה כל כך כמו שנוטים לחשוב. זו פשוט תופעה אחרת, תופעה שיש לה איזשהו שהוא שורש אחר ואנחנו רוצים וצריכים ללמוד איך לטפל בה. למעשה, בלא מעט מקרים, רעיונות איך לטפל בחריגים רעים נובעים מלימוד של טיפול בחריגים טובים", כך אמרה השבוע אדית אורי, מפתחת פתרון GT data mining ושל מדע הנתונים החדש, במפגש פורום Data Science מבית אנשים ומחשבים בנושא "זיהוי חריגים – מפתח לקבלת החלטות מהירות", שנערך ביס פלאנט בראשון לציון.
אורי, מהנדסת תעשייה וניהול מהטכניון ובעלת תואר MSc מהפוליטכניק של ניו יורק, תיארה את הדרך שבה משתמשים כיום לזיהוי חריגים. "נכון להיום משתמשים בכוח המחשוב כדי להריץ את כל השילובים ואת כל האפשרויות כדי לבדוק האם אחד מהם מצליח להסביר תופעה חריגה, ואז עושים עוד הרצה ועוד אחת, ובסופו של דבר בוחנים מקרוב את ההרצה שמובילה לחיזוי הטוב והמהיר ביותר של החריגה", היא סיפרה.
אבל לדעתה לא מדובר בשיטה טובה דיה, ובטח לא לכל המקרים. "היא לפעמים מאכזבת, כי מה שרואים בסופו של דבר זו שרשרת ארוכה של משתנים, שבעצם לא אומרת כלום. אומרים שזה בגלל הביג דטה, אבל כבר הוכח שזה קורה גם כשהמידע לא ממש גדול. זה אומר שייתכן שהסיבה היא מחוץ למשתנים, ואז לא מצליחים להתאים הסבר, והמצב אפילו נהיה רע יותר", טענה אורי.
היא סיפרה שזה מה שהוביל אותה לפיתוח מדע הנתונים החדש. "אירועים אי אפשר שימשיכו, אבל חוקים כן. איך אנחנו מוודאים שמדובר באפשרות לבצע קריאה אמיתית למחר ולא מדובר במשהו מקרי? הכלי שאני מציעה הוא GT Data Mininig, והרעיון שלו הוא, שאם אני מזהה דפוסי התנהגות הסיכוי שהם יהוו חוק עתידי יהיה גדול יותר. כדי לעשות זאת אני משתמשת בקבוצות, כי קבוצות מאפשרות לסנן רעשים וגם עוזרות להפריד בין תופעות שונות, כי ההנחה היא שהקבוצה צריכה להיות הומוגנית", היא סיכמה.
זיהוי אנומליות של חתימות ביומטריות
אבי וינברג, מומחה בתחום הסייבר ולימוד מכונה, דיבר על זיהוי אנומליות של חתימות ביומטריות בעידן הפייק ניוז שהוא לטענתו מסוכן אף יותר ממה שחושבים, תוך שהוא מביא כדוגמאות סרטונים שהוכנו ומציגים נאומים דמיוניים של מנהיגים, כמו נאום מומצא של הנשיא האמריקאי לשעבר ברק אובמה, וכן תמונות מסונתזות של אנשים שנועדו להטעות את משטרות הגבולות ועוד.
"כדי לזהות דברים כאלה, אנחנו בעצם רוצים למצוא את הנורמלי מתוך מה שלא נורמלי, וזה אומר שהדבר הראשון שצריך לעשות הוא להגדיר מה זה נורמלי. החריגות לא חייבת להיות תופעה שולית, אלא תופעה ייחודית ומקורית, ואפשר למנף אותה לטובת הארגון. יש גם דברים שנמצאים על גבול החריג/לא חריג אבל זה אומר שההגדרות שלנו לא תמיד מדויקות", הוא אמר.
לדבריו יש כמה שיטות שונות שנלמדו לאורך הזמן בשביל לאתר שונות. " יש גישה כמותית, של בדיקת תוצאות רבות שיש לנו מול ואז מאתרים את אלו ששונות מאוד. גישה אחרת היא ניסויית והיא אומרת, שצריך לשחק עם הנתונים שלנו כדי לגלות מה קורה, ולא תמיד בצורה ויזואלית, אלא בצד המתמטי. ויש גם את השיטה הסטטיסטית, שמכמתת את הנתונים שלנו על ציר מסוים, על ממד מסוים", הוא פירט.
לפי ווינברג, זה הוביל בסופו של דבר לכניסה של הבינה המלאכותית ולימוד המכונה, ולשילוב כל המידע הזה בעולם אבטחת המידע והסייבר. "תקיפות הן למעשה סוג של אנומליות במערכת, והמטרה שלי היא ליצור מודל אחד מעל הנתונים ומכל הגירסאות של ההרצות כדי לבנות מודל זיהוי. השאלה היא האם לימוד מעמיק מספיק חכם כדי להתמודד עם תקיפות של לימוד מעמיק? לדעתי כן, ואנחנו בדרך לשם, וזה גם בא לידי ביטוי באלגוריתם שפיתחתי בשם MOFA, המאפשר לבדוק מהי רמת מהימנות של תמונות, ויתרה מכך, אם מזהים שמדובר בתמונות מסונתזות, ללמוד מה המקור שלהן", הוא סיפר.
צבי קצבורג
תגובות
(0)