מהו מודל הנתונים האנליטיים החדש, שתופס תאוצה?

הכירו את Data Vault 2.0 - מודל נתונים שעשוי להוות תחליף למודל הנתונים הוותיק אשר במחסן הנתונים המסורתי, ה-Star Scheme

פיני כהן ועינת שמעוני, סמנכ''לים ואנליסטים בכירים ב-STKI.צילום: עיבוד ממוחשב. מקור: יח"צ

ארגונים מונחי-נתונים שוקדים רבות על שיפור הטכנולוגיה והארכיטקטורה הרלוונטית. לדברי עינת שמעוני ופיני כהן, סמנכ"לים ואנליסטים בכירים ב-STKI, בעת האחרונה תופס תאוצה מודל נתונים אנליטיים חדש, המכונה Data Vault 2.0. "מודל נתונים זה עשוי להוות תחליף למודל הנתונים הוותיק, אשר במחסן הנתונים המסורתי, ה-Star Schema", הסבירו.

לפי שמעוני וכהן, "ה-Star Schema הוא מודל אידיאלי לטובת ביצוע שאילתות מהירות. הוא מכיל מידע 'לעוס', כלומר בפורמט המתאים מראש לשאילתות ולניתוחים. כמו כן, יש לו גם 'אמת אחת'. אולם כדי להגיע לכל היעדים הללו, נדרש זמן הכנה ארוך". על פי השניים, "אחת מהחולשות הבולטות של מחסני נתונים ארגוניים, DW, אשר מבוססים על Star Schema היא האיטיות שבה משנים את המודל. כך, בעיקר מוסיפים מקורות מידע חדשים, פעולה אשר גוזלת לעיתים חודשים רבים. לכן, בהיבט של זמן הגעה לשוק, Time To Market – זהו עקב האכילס של המודל".

לפי שמעוני וכהן, "האנטיתזה ל-DW המסורתי היא אגם הנתונים, Data Lake. הוא מבוסס על טכנולוגיות נתונים חדשות, NoSQL – אשר יודעות לטפל בצורה משופרת בסוגי מידע שונים – נתונים מובנים ונתונים שאינם מובנים. לכן בדרך זו מתאפשר, בין היתר, מבנה רשומה שאינו קבוע. יישום אגם הנתונים התאפיין בחופש מוחלט של כל הגורמים – להעלות נתונים באופן זריז ומיידי. זה הביא לשיפור גדול בעקב האכילס המדובר של מחסן הנתונים הארגוני".

"אולם", ציינו השניים, "המחיר היה גבוה – נוצר אוסף של מקורות מידע, בלא קשר ביניהם, בלא ראייה של התמונה הכוללת של כלל מקורות המידע. כך נוצר מצב חדש, בו באגם הנתונים הזה יש עומס של נתונים מיותרים, מיושנים ולא רלוונטיים".

"שיטת מידול הנתונים Data Vault 2.0 מציעה דרך אמצע"

"שיטת מידול הנתונים Data Vault 2.0", הסבירו כהן ושמעוני, "מציעה דרך אמצע. זו כוללת זריזות בבנייה ובעדכון של מודל הנתונים. בנוסף היא כוללת יכולת לזריזות בעדכון ובהוספת נתונים – אולם תוך שמירה על ה-הקשר (קונטקסט), אפילו אם הוא אינו מושלם – לשאר הנתונים הקיימים".

STKI

לפי כהן ושמעוני, "בעולם התוכן של Data Vault 2.0 ישנם שלושה סוגי טבלאות. הראשונה, טבלת ה-HUB, המכילה את המידע העיקרי, מבוסס מפתח עסקי של הישות העיקרית של עולם התוכן. לעיתים היא באה עם מידע בסיסי נוסף. בדרך כלל מדובר על טבלה 'רזה', עם מספר לא גדול של עמודות".

"הטבלה השנייה", ציינו, "היא ה-Satellite, אשר מכילה את כל הפרטים האפשריים על ישות ה-HUB. מדובר על טבלה במבנה אחיד. אם המבנה משתנה, או אם ישנם פרטים אחרים – אז יוצרים טבלה חדשה. כלומר, ניתן לקיים כמה טבלאות Satellite – אשר מחוברות לאותו HUB. הסוג של הטבלה השלישית היא Link, שמציינת יחס בין שתי ישויות Hub". הם הוסיפו כי "על מנת לאפשר טעינת נתונים מהירה, שלא תתעכב בגלל בדיקה האם מפתח קיים – בכל הטבלאות מוסיפים גם מפתח ייחודי שנוצר במיוחד לכל רשומה – Surrogate Key (לפעמים מפתח שנוצר ב-HASH). עוד מוסיפים את זמן טעינת הנתון ואת המקור (הטבלה או ג'וב ה-ETL, או תור ה-Streaming) – אשר ממנו הנתון הגיע".

"בדרך זו", ציינו שמעוני וכהן, "מתאפשרת הזנת נתונים מהירה ומקושרת למה שכבר נמצא. אלא שמצב זה מחייב לקבל החלטה מאוחרת – לגבי אי תאימויות בנתונים".

"המדובר על תפישה חדשה למידול נתונים", סיכמו שמעוני וכהן. "זו תפישה מעניינת, אשר הולכת ותופסת תאוצה. אנו מציעים להתעדכן וללמוד אודות שיטה חדשה זו, ובמידת הצורך – גם להתנסות בה".

תגובות

(0)

מגרדת ידע בלי רשות: OpenAI השיקה GPTBot שסורק אתרי אינטרנט

אפל ו-TSMC סגרו עסקת שבבים שחוסכת ליצרנית ה-iPhone מיליארדי ד

אקזיט כחולבן: רובריק רוכשת את למינאר ברבע מיליארד דולרים

חשש מהתחלת מחסור בכרטיסי מסך

אפל החלה לבחון מעבד ממשפחת M3 – שתושק באוקטובר

רבעון טוב לפלייטיקה: הרווח הנקי עלה ביותר מפי שניים

מד וואן מקימה דאטה סנטרים ברמלה ב-1.5 מיליארד שקלים

"סבתא בישלה דייסה – ולסייבר במגזר הבריאות לא נשאר"

התייעלות אנרגטית: מהפכה בדאטה סנטרים לעתיד ירוק יותר

כיצד מומלץ לקבל החלטות בעידן ה-AI?

נשים ומחשבים: חן בעדני, גי אי דיגיטל

יוצאים לטייל? קחו אתכם תחנת כוח ניידת

מה חושבים המנהלים על הבינה המלאכותית היוצרת?

קבלת החלטות בעידן ה-AI

נשים ומחשבים: ליאור רוכברגר, פאלו אלטו נטוורקס

כיצד המנמ"ר מתכנן ומנהל תקציבים שנתיים?

מהו מודל הנתונים האנליטיים החדש, שתופס תאוצה?

הכירו את Data Vault 2.0 - מודל נתונים שעשוי להוות תחליף למודל הנתונים הוותיק אשר במחסן הנתונים המסורתי, ה-Star Scheme

"שיטת מידול הנתונים Data Vault 2.0 מציעה דרך אמצע"

תגובות

כתיבת תגובה לבטל

אירועים קרובים

מגרדת ידע בלי רשות: OpenAI השיקה GPTBot שסורק אתרי אינטרנט

אפל ו-TSMC סגרו עסקת שבבים שחוסכת ליצרנית ה-iPhone מיליארדי ד

אקזיט כחולבן: רובריק רוכשת את למינאר ברבע מיליארד דולרים

חשש מהתחלת מחסור בכרטיסי מסך

אפל החלה לבחון מעבד ממשפחת M3 – שתושק באוקטובר

רבעון טוב לפלייטיקה: הרווח הנקי עלה ביותר מפי שניים

מד וואן מקימה דאטה סנטרים ברמלה ב-1.5 מיליארד שקלים

"סבתא בישלה דייסה – ולסייבר במגזר הבריאות לא נשאר"

התייעלות אנרגטית: מהפכה בדאטה סנטרים לעתיד ירוק יותר

כיצד מומלץ לקבל החלטות בעידן ה-AI?

נשים ומחשבים: חן בעדני, גי אי דיגיטל

יוצאים לטייל? קחו אתכם תחנת כוח ניידת

מה חושבים המנהלים על הבינה המלאכותית היוצרת?

קבלת החלטות בעידן ה-AI

נשים ומחשבים: ליאור רוכברגר, פאלו אלטו נטוורקס

כיצד המנמ"ר מתכנן ומנהל תקציבים שנתיים?

מהו מודל הנתונים האנליטיים החדש, שתופס תאוצה?

הכירו את Data Vault 2.0 - מודל נתונים שעשוי להוות תחליף למודל הנתונים הוותיק אשר במחסן הנתונים המסורתי, ה-Star Scheme

"שיטת מידול הנתונים Data Vault 2.0 מציעה דרך אמצע"

תגובות

כתיבת תגובה לבטל

אירועים קרובים

תוכן פרסומי

תוכן פרסומי

תוכן פרסומי

תוכן פרסומי

שמנו לב שחוסם הפרסומות שלך מופעל