הברווזון המכוער של עולמות הדטה
מאת אופיר קימברג
מאמר שפורסם לאחרונה על ידי אנדריסן הורוביץ מפרט את חמשת המגה-טרנדים בענף ה-IT כיום. מגמה מרכזית ברשימה זו היא נתונים, שם מוזכר כי "נתונים הם התוכנה החדשה." היעילות של כל יישום כיום היא השתקפות ישירה של הנתונים הבסיסיים שלה. פירוש הדבר הוא, שהנתונים המשמשים יישומי תוכנה ומערכות צריכים להיות נקיים, שימושיים וזמינים.
במקביל, עולה מגמת ה"data driven". כדי להבין טוב יותר את לקוחותיהם ועסקיהם, ארגונים רבים מקבלים החלטות, אסטרטגיות וטקטיות כאחד, על סמך נתונים פנימיים ונתוני צד שלישי. מגמה זו מתיישרת עם התפיסה הרווחת ש"ידע זה כוח!" – אך האומנם? עידן הביג דטה הביא עימו אתגרים רבים – כמויות רבות של מידע, בתדירות הולכת וגוברת, ומגוון של נתונים ופורמטים גדול מאי פעם. מכאן, שמידע לא חסר, להיפך, יש התפוצצות של מידע. הכוח בעידן המודרני אינו בקיום של מידע, אלא ביכולת להשתמש בו.
נתונים ואיכות נתונים – אבני היסוד של עבודה עם דטה
כאשר חושבים על נתונים, רבים חושבים על היעד הסופי: הדו"ח, הפנל או מודל AI. ניתן לראות תפיסה זו בהשקעה העצומה בתחום זה: גרטנר טוענים ששוק כלי AI וויזואליזציה גדול פי 20 מתחום הכנת הנתונים, כאשר הראשון עומד על 190 מיליארד דולר בשנת 2019 והשני צפוי להגיע לפי ההערכה ל-9.8 מיליארד דולר בשנת 2022.
מהו תהליך הכנת נתונים (Data Preparation), ולמה הוא מורכב כל כך?
מדובר בהכנת הנתונים לצריכה עתידית שלהם על ידי גורמים שונים בארגון בהם אנליסטים, מדעני נתונים ומגוון גורמים עסקיים שונים (משיווק ומכירות ועד דרג מקבלי ההחלטות). בתצורה הפשוטה ביותר: הכנת הנתונים הינה כלל העיבודים הנדרשים להפיכת מידע גולמי לשמיש בארגון. אחת המורכבויות הבולטות בתהליך זה נעוצה בהיותו רב תחומי, ובשל כך הוא מצריך איזון מיוחד בין הבנה עסקית ומיומנויות טכנולוגיות.
מצד אחד, הכנת נתונים הינו תהליך טכני ביסודו: כתיבת תהליך ETL – כתיבת קוד, ניטור ותחזוק משאבי עיבוד, זמני ריצה ומקום, הבניה ושיטוח של פורמטים לא מובנים ועוד. ומצד שני, הבנה עסקית – אילו שאלות ישאלו על המידע – למה המידע יתחבר? איזה פורמט רצוי? איך נראות חריגות? ואיזה מידע בכלל רלוונטי: לפנל הסופי, לעמודות מפתח בהעשרות מידע (joins) או לסינון, איך קובעים סגמנטים לקיבוץ אוכלוסיות במידע ועוד.
מה הן התכונות הנדרשות לפתרונות הכנת נתונים?
כמו בפיתוח, פתרונות הכנת נתונים חייבים להיות אג'יליים לעולמות הדטה. היכולת לעבוד עם דגימות מהמידע ולראות כיצד זה משפיע על כל המידע, בזמן אמת, היא יתרון מהפכני. למעשה, אין צורך להריץ כל פעולה על כל המידע, אלא להשתמש בפונקציית Preview, להגיב בזמן אמת – בזמן פיתוח הלוגיקה, וכך לחסוך טעויות נגררות.
ממשק המשתמש של פתרונות להכנת נתונים צריך להיות אינטואטיבי ואינטראקטיבי, על מנת לצמצם זמני חפיפה של עובדים חדשים. רצוי שהפתרון ישלב למידת מכונה מתקדמת, שמצד אחד מאיץ את זמני הפיתוח ומצד שני יודע להציע הצעות אופרטיביות אינטליגנטיות, שלפעמים אפילו המשתמש לא חשב עליהן.
פונקציה נוספת וחשובה היא Reuse – משמעותה היא שימוש חוזר בעבודה שנעשתה. בטריפקטה זה נעשה על ידי יצירת מקרו – המאפשר לקבץ כמה צעדים לכדי פונקציה/פורמולה מהתהליך, וכך אפשר להשתמש בפונקציה שנוצרה בפרויקט אחד עבור פרויקטים נוספים, ואין צורך לייצר מהתחלה את כל הפונקציות.
מה הם הפתרונות הטובים ביותר להכנת נתונים?
מתוך סל המוצרים להכנת נתונים, שנבחנו על ידי חברות המחקר גרטנר ופורסטר, נבחרה טריפקטה (Trifacta) כמובילה בתחום. טריפקטה פונה לשלושה קהלי יעד: אנליסטים, מדעני נתונים ומהנדסי נתונים. היא מנגישה את פעולות הכנת הנתונים, שבעבר נשמרו למהנדסי נתונים בלבד, לכלל המשתמשים, הטכנולוגים והעסקיים, באמצעות ממשק משתמש אינטראקטיבי, אך שומרת על גמישות ביטוי. בנוסף, טריפטקה מנגישה סל כלים מגוון, שניתן להרחיבו גם בעזרת קוד (UDF – user define functions), כרגע בג'אווה ובהמשך גם בפייתון. טריפקטה מאפשרת לעבוד בשיתוף פעולה, לבחור אם לעבוד עם המתזמן הפנימי, או על ידי חשיפת API , עם מתזמן ארגוני, ורצה על הספארק הארגוני: בענן או בהאדופ.
הכותבת היא מנהלת מוצר טריפקטה באקורייט מקבוצת UCL.