מפתחים מערכת מבוססת AI? חשוב שתבינו מהיכן מגיע הדטה
איסוף מידע נקי, עכשווי ופתוח מהרשת, המוצג מנקודת מבטם של אלפי אזרחים וצרכנים ברחבי העולם, מאפשר לראות ולבחון תמונה רחבה ומלאה, ולפעול על-פי אסטרטגיה מתוכננת, גם בתקופות של חוסר ודאות וטלטלות במשק, כמו כיום בעידן הקורונה
מערכות מבוססות בינה מלאכותית ממשיכות לתפוס מקום הולך וגדל בחיינו, וברור לכולנו כי המערכות האלו כאן כדי להישאר. חברות הפועלות כיום במגזר העסקי, מודעות היטב לפוטנציאל הרב הגלום במערכות אלה, ולתובנות יקרות-הערך שניתן לחלץ מהן על בסיס מאגר הנתונים בחברה. נשאלת השאלה האם מערכות אלו זקוקות לשלל נתונים ומידע רחב (דטה) על מנת להגיע לתוצאות מוצלחות, או האם מידע עכשווי ונקי חיוני להן אף יותר?
בתהליך יצירת הערך מדטה, מתקיימים מספר רב של שלבים, אך החשוב והבסיסי ביותר הינו שלב איסוף המידע ממגוון מקורות רלוונטיים, איכותיים ונקיים. מכאן נובע, שעוצמה ויעילות מערכות AI תלויות בעיקר על הדטה עליו הן מתבססות. על מנת להגיע לתובנות יעילות באמצעות מערכות בינה מלאכותית, ובכדי שהן יספקו מענה מדויק לכל תהליך בו הן מוטמעות, על מקורות המידע להיות נקיים, זמינים ולא "משוחדים". מטרת מקורות המידע היא לשרת את מערכות ה-AI באופן אמין ולאורך זמן. כידוע, הכשרה יעילה של מערכות אלה דורשת כמויות עצומות של נתונים ספציפיים ועדכניים מאד. לרוב הדטה עליו הן מתבססות נדלה מבסיס נתונים רחב המשרת את כולנו – ספירת האינטרנט.
פיתוח מערכות AI ו-ML בתעשיות שונות, מתבסס, בימים אלה, על מידע זה. דוגמה עכשווית בימים מאתגרים אלו היא תכנון על פי התנהגות צרכנים בענפי הביטוח והפיננסים, או חקר שוק בתעשיית הקמעונאות והנדל"ן. בכדי להגיע לתובנות עמוקות יותר, חברות רבות ברחבי העולם מסתמכות על ציוצים בטוויטר, פוסטים בפייסבוק, ביקורות וטוקבקים באתרים. מקורות מידע פומביים אלו משמשים כחומר גלם לפיתוח תובנות מבוססות בינה מלאכותית הנדרשות לעסקים בכדי להישאר רלוונטיים בשוק התחרותי והלא צפוי של היום. כך למשל הודעות גיוס בלינקדאין או בפורטלי חיפוש עבודה דוגמת Glassdoor, יכולות להצביע על צמיחה כללית בתחום או בתעשייה ספציפית, או לחלופין להצביע על מגמה של ירידה חדה. באמצעות איסוף מידע נקי, עכשווי ופתוח מהרשת, המוצג מנקודת מבטם של אלפי אזרחים וצרכנים ברחבי העולם, ניתן לראות ולבחון את התמונה המלאה, ולפעול על-פי אסטרטגיה מתוכננת, גם בתקופות של חוסר ודאות וטלטלות במשק, כפי שהמציאות משקפת כיום.
אך כמו בהרבה נושאים ותחומים אחרים, קל יותר לומר מאשר לבצע. מחקרים עדכניים מראים כי חברות רבות מקדישות מעל 80% מזמן הפרויקט שלהן ל'ניקוי' ומיטוב נתונים, וזה רק כהכנה לשימוש בבינה מלאכותית. לכן ניתן להבין שאיסוף נתונים רחב היקף ומהיר טומן בחובו אתגרים רבים בשל עובדה אחת הידועה לכל – האינטרנט אמנם זמין לכולנו, אך לא באותה מידה.
זו נקודת המפתח: מה שנגיש עבורנו כצרכנים פרטיים לעיתים קרובות אינו נגיש לעסקים. קיימים אתגרים מורכבים ורבים באיסוף מידע מהאינטרנט, גם כשמדובר במידע פתוח ופומבי. לעיתים קרובות אתר זה או אחר ייתקל בחסימה על ידי אתר מתחרה, כשהוא מעוניין באיסוף נתונים הנגישים לנו בקלות רבה כציבור הצרכנים. בנוסף, המידע אליו אנו נחשפים תלוי כמובן במיקומנו הגיאוגרפי, בסוג המחשב או המכשיר הנייד שברשותנו, וכן מושפע מהעדפות ובחירות פרסונליות שביצענו בעבר ברשת. לכן, האתגרים הרבים באיסוף נתונים מהרשת הם דבר שבשגרה.
תהליך איסוף המידע או הדטה מהאינטרנט גם מחייב כל עסק או חברה להתייחס לנתוני הצרכנים באחריות מירבית ולפעול לפי חוקי פרטיות המידע, דוגמת GDPR. במידה שחברה מסוימת מעוניינת לפתח את מערכות ה-AI שלה בהתבסס על נתונים נקיים, ראוי שתבצע זאת תוך שמירה על כללי האתיקה המקצועית ועל ספירת מידע ברשת.
גישה למידע מקוון ונקי הנדלה מרחבי העולם ברשת הוי אכן אתגר מורכב, אך אתגר שניתן לפתור בקלות יחסית באמצעות טכנולוגיה מתקדמת ועכשווית.
אחד הפתרונות האפשריים הוא שימוש ברשת איסוף מידע ענפה, המתבססת על כתובות IP של צרכנים אמיתיים. רשת מסוג זה מאפשרת לאלה האוספים את המידע לראות את האינטרנט כאילו היו צרכנים אמיתיים ממקומות גיאוגרפיים שונים ברחבי העולם, וכוללת מיליוני כתובות IP של צרכנים אשר תרמו ביודעין את כתובתם בתמורה להטבה. כתובות IP אלה מאפשרות לחברות ולעסקים להגיע לדטה נקי בהגדרה, הנותן מענה מדויק לצרכי "אימון" והכשרה של מערכות AI.
הדבר משול לבניית בית. גם אם נשתמש בצוות בנייה מוכשר, ואפילו באדריכל הטוב ביותר, במידה שחומרי הגלם לא יהיו איכותיים – ייגרם נזק לבניין, לעיתים נזק בלתי הפיך.
מערכות בינה מלאכותית "סובלות" מאותה התופעה. עליהן להיות מוכשרות ולהיבנות על בסיס מידע, איכותי, אחראי, רלוונטי והכי חשוב – נקי.
הכותב הוא ראש משרדי לומינטי נטוורקס בארה"ב
תגובות
(0)