מפתחים מערכת מבוססת AI? חשוב שתבינו מהיכן מגיע הדטה

איסוף מידע נקי, עכשווי ופתוח מהרשת, המוצג מנקודת מבטם של אלפי אזרחים וצרכנים ברחבי העולם, מאפשר לראות ולבחון תמונה רחבה ומלאה, ולפעול על-פי אסטרטגיה מתוכננת, גם בתקופות של חוסר ודאות וטלטלות במשק, כמו כיום בעידן הקורונה

עמרי אורגד, ראש משרדי לומינטי נטוורקס בארה"ב. צילום: תמרה ברלסקי

מערכות מבוססות בינה מלאכותית ממשיכות לתפוס מקום הולך וגדל בחיינו, וברור לכולנו כי המערכות האלו כאן כדי להישאר. חברות הפועלות כיום במגזר העסקי, מודעות היטב לפוטנציאל הרב הגלום במערכות אלה, ולתובנות יקרות-הערך שניתן לחלץ מהן על בסיס מאגר הנתונים בחברה. נשאלת השאלה האם מערכות אלו זקוקות לשלל נתונים ומידע רחב (דטה) על מנת להגיע לתוצאות מוצלחות, או האם מידע עכשווי ונקי חיוני להן אף יותר?

בתהליך יצירת הערך מדטה, מתקיימים מספר רב של שלבים, אך החשוב והבסיסי ביותר הינו שלב איסוף המידע ממגוון מקורות רלוונטיים, איכותיים ונקיים. מכאן נובע, שעוצמה ויעילות מערכות AI תלויות בעיקר על הדטה עליו הן מתבססות. על מנת להגיע לתובנות יעילות באמצעות מערכות בינה מלאכותית, ובכדי שהן יספקו מענה מדויק לכל תהליך בו הן מוטמעות, על מקורות המידע להיות נקיים, זמינים ולא "משוחדים". מטרת מקורות המידע היא לשרת את מערכות ה-AI באופן אמין ולאורך זמן. כידוע, הכשרה יעילה של מערכות אלה דורשת כמויות עצומות של נתונים ספציפיים ועדכניים מאד. לרוב הדטה עליו הן מתבססות נדלה מבסיס נתונים רחב המשרת את כולנו – ספירת האינטרנט.

פיתוח מערכות AI ו-ML בתעשיות שונות, מתבסס, בימים אלה, על מידע זה. דוגמה עכשווית בימים מאתגרים אלו היא תכנון על פי התנהגות צרכנים בענפי הביטוח והפיננסים, או חקר שוק בתעשיית הקמעונאות והנדל"ן. בכדי להגיע לתובנות עמוקות יותר, חברות רבות ברחבי העולם מסתמכות על ציוצים בטוויטר, פוסטים בפייסבוק, ביקורות וטוקבקים באתרים. מקורות מידע פומביים אלו משמשים כחומר גלם לפיתוח תובנות מבוססות בינה מלאכותית הנדרשות לעסקים בכדי להישאר רלוונטיים בשוק התחרותי והלא צפוי של היום. כך למשל הודעות גיוס בלינקדאין או בפורטלי חיפוש עבודה דוגמת Glassdoor, יכולות להצביע על צמיחה כללית בתחום או בתעשייה ספציפית, או לחלופין להצביע על מגמה של ירידה חדה. באמצעות איסוף מידע נקי, עכשווי ופתוח מהרשת, המוצג מנקודת מבטם של אלפי אזרחים וצרכנים ברחבי העולם, ניתן לראות ולבחון את התמונה המלאה, ולפעול על-פי אסטרטגיה מתוכננת, גם בתקופות של חוסר ודאות וטלטלות במשק, כפי שהמציאות משקפת כיום.

אך כמו בהרבה נושאים ותחומים אחרים, קל יותר לומר מאשר לבצע. מחקרים עדכניים מראים כי חברות רבות מקדישות מעל 80% מזמן הפרויקט שלהן ל'ניקוי' ומיטוב נתונים, וזה רק כהכנה לשימוש בבינה מלאכותית. לכן ניתן להבין שאיסוף נתונים רחב היקף ומהיר טומן בחובו אתגרים רבים בשל עובדה אחת הידועה לכל – האינטרנט אמנם זמין לכולנו, אך לא באותה מידה.

זו נקודת המפתח: מה שנגיש עבורנו כצרכנים פרטיים לעיתים קרובות אינו נגיש לעסקים. קיימים אתגרים מורכבים ורבים באיסוף מידע מהאינטרנט, גם כשמדובר במידע פתוח ופומבי. לעיתים קרובות אתר זה או אחר ייתקל בחסימה על ידי אתר מתחרה, כשהוא מעוניין באיסוף נתונים הנגישים לנו בקלות רבה כציבור הצרכנים. בנוסף, המידע אליו אנו נחשפים תלוי כמובן במיקומנו הגיאוגרפי, בסוג המחשב או המכשיר הנייד שברשותנו, וכן מושפע מהעדפות ובחירות פרסונליות שביצענו בעבר ברשת. לכן, האתגרים הרבים באיסוף נתונים מהרשת הם דבר שבשגרה.

חשוב שיהיה נקי ואיכותי. איסוף דטה. צילום אילוסטרציה: BigStock

תהליך איסוף המידע או הדטה מהאינטרנט גם מחייב כל עסק או חברה להתייחס לנתוני הצרכנים באחריות מירבית ולפעול לפי חוקי פרטיות המידע, דוגמת GDPR. במידה שחברה מסוימת מעוניינת לפתח את מערכות ה-AI שלה בהתבסס על נתונים נקיים, ראוי שתבצע זאת תוך שמירה על כללי האתיקה המקצועית ועל ספירת מידע ברשת.

גישה למידע מקוון ונקי הנדלה מרחבי העולם ברשת הוי אכן אתגר מורכב, אך אתגר שניתן לפתור בקלות יחסית באמצעות טכנולוגיה מתקדמת ועכשווית.

אחד הפתרונות האפשריים הוא שימוש ברשת איסוף מידע ענפה, המתבססת על כתובות IP של צרכנים אמיתיים. רשת מסוג זה מאפשרת לאלה האוספים את המידע לראות את האינטרנט כאילו היו צרכנים אמיתיים ממקומות גיאוגרפיים שונים ברחבי העולם, וכוללת מיליוני כתובות IP של צרכנים אשר תרמו ביודעין את כתובתם בתמורה להטבה. כתובות IP אלה מאפשרות לחברות ולעסקים להגיע לדטה נקי בהגדרה, הנותן מענה מדויק לצרכי "אימון" והכשרה של מערכות AI.

הדבר משול לבניית בית. גם אם נשתמש בצוות בנייה מוכשר, ואפילו באדריכל הטוב ביותר, במידה שחומרי הגלם לא יהיו איכותיים – ייגרם נזק לבניין, לעיתים נזק בלתי הפיך.

מערכות בינה מלאכותית "סובלות" מאותה התופעה. עליהן להיות מוכשרות ולהיבנות על בסיס מידע, איכותי, אחראי, רלוונטי והכי חשוב – נקי.

הכותב הוא ראש משרדי לומינטי נטוורקס בארה"ב

תגובות

(0)

מגרדת ידע בלי רשות: OpenAI השיקה GPTBot שסורק אתרי אינטרנט

אפל ו-TSMC סגרו עסקת שבבים שחוסכת ליצרנית ה-iPhone מיליארדי ד

אקזיט כחולבן: רובריק רוכשת את למינאר ברבע מיליארד דולרים

חשש מהתחלת מחסור בכרטיסי מסך

אפל החלה לבחון מעבד ממשפחת M3 – שתושק באוקטובר

רבעון טוב לפלייטיקה: הרווח הנקי עלה ביותר מפי שניים

מד וואן מקימה דאטה סנטרים ברמלה ב-1.5 מיליארד שקלים

"סבתא בישלה דייסה – ולסייבר במגזר הבריאות לא נשאר"

התייעלות אנרגטית: מהפכה בדאטה סנטרים לעתיד ירוק יותר

כיצד מומלץ לקבל החלטות בעידן ה-AI?

נשים ומחשבים: חן בעדני, גי אי דיגיטל

יוצאים לטייל? קחו אתכם תחנת כוח ניידת

מה חושבים המנהלים על הבינה המלאכותית היוצרת?

קבלת החלטות בעידן ה-AI

נשים ומחשבים: ליאור רוכברגר, פאלו אלטו נטוורקס

כיצד המנמ"ר מתכנן ומנהל תקציבים שנתיים?

כתיבת תגובה לבטל

אירועים קרובים

מגרדת ידע בלי רשות: OpenAI השיקה GPTBot שסורק אתרי אינטרנט

אפל ו-TSMC סגרו עסקת שבבים שחוסכת ליצרנית ה-iPhone מיליארדי ד

אקזיט כחולבן: רובריק רוכשת את למינאר ברבע מיליארד דולרים

חשש מהתחלת מחסור בכרטיסי מסך

אפל החלה לבחון מעבד ממשפחת M3 – שתושק באוקטובר

רבעון טוב לפלייטיקה: הרווח הנקי עלה ביותר מפי שניים

מד וואן מקימה דאטה סנטרים ברמלה ב-1.5 מיליארד שקלים

"סבתא בישלה דייסה – ולסייבר במגזר הבריאות לא נשאר"

התייעלות אנרגטית: מהפכה בדאטה סנטרים לעתיד ירוק יותר

כיצד מומלץ לקבל החלטות בעידן ה-AI?

נשים ומחשבים: חן בעדני, גי אי דיגיטל

יוצאים לטייל? קחו אתכם תחנת כוח ניידת

מה חושבים המנהלים על הבינה המלאכותית היוצרת?

קבלת החלטות בעידן ה-AI

נשים ומחשבים: ליאור רוכברגר, פאלו אלטו נטוורקס

כיצד המנמ"ר מתכנן ומנהל תקציבים שנתיים?

מפתחים מערכת מבוססת AI? חשוב שתבינו מהיכן מגיע הדטה

תגובות

כתיבת תגובה לבטל

אירועים קרובים

תוכן פרסומי

תוכן פרסומי

תוכן פרסומי

תוכן פרסומי

שמנו לב שחוסם הפרסומות שלך מופעל