מגמות וחדשנות בעולם ה-Big Data
כתבה: יעל בן-יהודה, Big Data Presales Consultant ב-HPE Vertica
עולם ה-Big Data טומן בחובו סט של בעיות עסקיות חדשות בעיקר בתחום ניתוח מידע, חיזוי וניבוי מגמות והתנהגויות שמטרתן קבלת תובנות עסקיות, ושיפור תהליכי קבלת החלטות בזמן אמת.
ארגונים של היום נאלצים להתמודד עם תחומים חדשים כגון: חיזוי וניתוח נטישה של לקוחות, שימוש במנועי המלצות תוכן, מיקוד פרסום מותאם לקוח, המלצות על פי ניתוח מיקום גיאוגרפי, בניית תמחורים מהימנים, מעקב אחר מסחר, ניתוח איומים ועוד.
אם בעבר היינו עובדים על פיענוח שאלות היסטוריות ומנתחים את התוצאות, הרי שכיום עברנו למצב של חיזוי וניבוי התנהגות עתידית על בסיס ניתוח המידע, שילוב עם מודלים סטטיסיטיים והפעלת אלגוריתמים של Machine Learning.
כדי לטפל ב"בעיות החדשות" נדרשת תשתית אלסטית אדפטיבית למאגרי הנתונים ויכולת תחקור אנליטית המבוססת על שלושה דברים עיקיים:
● יכולת לבצע תחקור ואנליזה על פלטפורמה אחת שתומכת בנתונים מובנים ולא מובנים.
● תחקור בזמן אמת (real time analytics) וזמן השהיה נמוך עבור אפליקציות ועבודה ב-Web.
● שימוש במודל עסקי המאפשר צמיחה כלכלית לארגון תוך חלוקת תהליכים ועומסים בין משאבים. למשל מודל המאפשר יכולת גידול תפוקה כתלות לינארית בהוספת משאבי חומרה זולה (commodity hardware).
Big Data הוא נושא חם מאחר שהוא מייצג בפעם הראשונה מזה 30 שנה את החשיבה מחדש על בסיסי נתונים ושיטות ניהול, אחסון ושליפת מידע מהיר. מאז שנת 1980 שוק מערכות בסיסי נתונים התרכזו סביב שלוש ספקיות גדולות בלבד: אורקל (Oracle), מיקרוסופט (Microsoft) ויבמ (IBM).
לעומת זאת, בעשור האחרון התחוללה מהפכה של ממש בכל עולם הנתונים: כמות הנתונים גדלה בקצב אקספוננציאלי, בנוסף הדיסקים והזיכרון הפכו לזולים מאוד וספקי ענן מאפשרים צריכה דינאמית של כמות גדולה של משאבים במחירים מגוחכים.
במקביל אנו עדים לטכנולוגיות חדשות המאפשרות ניתוח נתונים בצורות חדשות. קיימת חדשנות עצומה בעולמות בסיסי הנתונים; OLAP ,NoSQL ,Columnar ,In-Memory ,Cloud databases וכן שימוש בכלי Open Source.
החדשנות בעולם ה-Big Data מתחלקת למספר קטגוריות:
● ניהול אמצעי אחסון נתונים ועיבוד נתונים מקבילי בזמן אמת. ההמלצה היא לעבודה בטכנולוגייה טורית Column Store, בשילוב עם טכנולוגיית MPP וכיווץ נתונים המאפשרים עבודה ב-shared nothing וללא single point of failure.
● Data Structure – כלומר מבני מידע: structured ,semi structured, ו-unstructured.
● Data Dimension – כלומר סוגי מימדים המאפשרים לתחקר בסיסי נתונים רב-מימדיים באספקטים שונים.
● אופן שמירת המידע: On-Premise ,Cloud ,Hadoop. שימוש בפתרונות ענן כגון AWS ,Google ,Azure ובפתרונות On-Premise בשילוב טכנולוגיות Hadoop.
לפיכך, בעידן המודרני של היום בו כמות המידע מתעצמת, נדרשים כלי עיבוד מקבילים המסוגלים לבצע תחקור נתונים בזמן אמת. פלטפורמת Vertica הינה כלי מבוסס Column Store ועובד בטכנולוגית MPP שמאפשר מענה לטיפול ב"בעיות החדשות" בזכות מאות פונקציות אנליטיות המשולבות בו. בנוסף, הכלי מאפשר ללקוח פיתוח UDF (ר"ת User Defined Functions) ב-Python ,R ,Java, ו-++C ותומך ב-ANSI SQL Standards, כך שניתן לעבוד איתו כמו עם דטה-בייס רגיל.
ניתן לשלב ב-Vertica עבודה מול תבניות קבצים כגון Parquet ,ORC ,RC ב-Hadoop HDFS או באמצעות מנוע SQL on Hadoop.
באמצעות Vertica ניתן גם לעבוד על תשתיות פיזיות או וירטואליות הנמצאות בארגון בענן ציבורי או פרטי כגון אמזון (Amazon) או Azure. בין אלפי לקוחותנו נמצא את החברות הגדולות אובר (Uber), פייסבוק (Facebook) ו-Etsy שעושות שימוש במנוע Vertica.
לסיכום, מגמת ה-Big Data הולכת וגוברת בעקבות ייצור וצריכת מידע המוכפלים בעולם מדי שנה ומציגה סט חדש של בעיות עם פתרונות מגוונים הכוללים כלים אנליטיים המאפשרים לנתח, לחזות ולנבא התנהגויות, ובסופו של דבר לקבל תובנות עסקיות לשיפור תהליכי קבלת ההחלטות.