כלים חדשים למדעני נתונים ב-Dataforce Meetup בחסות יבמ
עשרות מפתחים ומומחים בתחום מדעי הנתונים (Data Science) השתתפו במייטאפ השני של פורום Dataforce, אותו מקדמת יבמ (IBM) במסגרת פעילותה בתחום Deep Learning והבינה המלאכותית בישראל.
עניין מיוחד במסגרת המפגש הזה, עוררה סביבת העבודה ל-Data Scientist של יבמ, אשר נקראת Data Science Experience, אותה מציעה יבמ הן בגרסה להתקנה מקומית והן במסגרת כלי הענן שלה, בשילוב עם סביבת ווטסון (Watson).
ליאת עין דור, ממעבדת המחקר החדשה של יבמ בגבעתיים, הציגה את פעילות קבוצת ה-Debating של יבמ, המתמקדת בפיתוח כלים המאפשרים לענות לשאלות מורכבות, בשפה טבעית – תוך בנייה אוטומטית של נימוקים וטיעונים על בסיס מסמכים וחומרים רלוונטיים.
תהליך העבודה כולל שלב למידה מפוקחת על ידי מומחי תוכן – המדריכים את המכונה בעולם המושגים בו היא נדרשת לשלוט. בהמשך, וככל שהפרויקט מתקדם, מצליחה המערכת להביא תוכן יותר ויותר עשיר, וטיעונים רבים יותר הנשענים עליו.
האלגוריתמיקה הייחודית המפותחת ביבמ כוללת גם ניתוח דימיון בין טקסטים שונים. חישוב רמת הדימיון בין טקסטים נשען על נוכחות מילים זהות, ועל קרבה בין מונחים – אשר לצורך הגדרת מדד שלה נעשה שימוש בוויקיפדיה (Wikipedia) ובמערך הקשרים בין הערכים הכלולים בה.
במסגרת העבודה במעבדות יבמ, הגדירו מתייגים אנושיים מאגר בן 19 אלף זוגות קונצפטים קשורים. שילוב המאגר הזה יחד עם פונקציית הקשר בין קונצפטים, הנשענת בין השאר על ויקיפדיה, משפר את יכולות חיזוי הקשר שיתקיים בין מושגים שונים בשיעור של 15%. בחודשים הקרובים תפרסם יבמ במסגרת קהילת קוד פתוח את הקוד העומד מאחורי חלקים שונים של מערכת זו.
יבמ מקפידה לנהל את פעילות מדעי הנתונים שלה במסגרת עולם הקוד הפתוח – באופן המאפשר למשתמשים בכלים ובשירותים שלה ליהנות מעוצמת הידע האגורה בקהילה כולה. במקביל, משלבת יבמ את היכולות הייחודיות לה בכל הנוגע להרחבה גמישה של תשתיות, תפיסת אבטחה כוללת ושילוב נוח בין כלים שונים. רובד מרכזי נוסף וייחודי לפעילות החברה הוא זה של ווטסון, מערכת המחשוב הקוגניטיבי של יבמ המוצעת כשירות ענן.
תמי רותם, מג'יניוס, הציגה בפני משתמשי המיטאפ את SPSS Modeler, שהוא כלי ייחודי לבניית מודלים של נתונים – הכולל ספריית מודלים עשירה במיוחד, כלי ויזואליזציה של מידע, אפשרות הכנה מהירה של נתונים לקראת עיבוד וניתוח – והכל בממשק "גרור ושחרר", שאינו מחייב ידע מקיף בתכנות.
יתרון מרכזי של כלי בניית המודלים הזה, הוא התמיכה בכלי קוד מקור פתוח דוגמת R ו-Python, באמצעותם ניתן גם לפנות לסביבת ספארק וספריית כלי למידת המכונה שלה. את הכלים האלה ניתן להריץ ישירות מתוך שולחן העבודה, ותוך בניית ממשק גרפי עבור הפונקציה בה נעשה שימוש בכל שלב נתון.
ליאוניד גורליק, ממעבדות המחקר של יבמ בגבעתיים, הציג את העבודה המתבצעת במעבדה בתחום זיהוי אנומליות במידע בזמן אמת – בעולם בעיות המהווה זירה מרכזית ליישום כלי Deep Learning.
מרק מקלסקי, מ-q-data הציג על קצה המזלג את Data exchange platform המאפשרת לחברות לקנות ולמכור מידע עם מגוון תועלות למשתמשים בהבטים של אבטחת מידע, סקלאבליות, פרטיות ( HIPPA ) עם אספקטים מסחריים המאפשרים מוניטיזציה של דטה.
למעונינים לחצו כאן לצפייה בהרצאות.