יד ושם: פרויקט למידה עמוקה לטיפול במאות מיליוני המסמכים שברשותו
"אנו 'רוכבים' על המהפכה שבתחום לימוד מעמיק. פעם היה נדרש לפתח הכל מאפס, וכיום יש יכולות לבנות מערכת לומדת, על בסיס Frameworks מבוססי קוד פתוח, עם יכולת להתאים אותם לשימוש שלך", אמר מיכאל ליבר, ראש אגף טכנולוגיות מידע ביד ושם
יד ושם יחל בחודש יוני השנה בפרויקט חלוצי של למידה עמוקה (Deep Learning), לטובת טיפול טוב יותר במאות מיליוני המסמכים שברשותו.
התשתית לפרויקט כוללת מחשב DGX-1 של NVIDIA המבוסס על סדרת המאיצים הגרפיים (GPU) בגרסה Tesla v100 וארכיטקטורת הליבה Tensor של החברה. ההטמעה של התשתית מבוצעת על ידי אנשי ה-IT של יד ושם, בשיתוף אנשי המו"פ בישראל של NVIDIA.
התשתית ללימוד מעמיק מגיעה עם תוכנה ייעודית וכלים לפיתוח הפלטפורמה. כך, יש ליד ושם מחשב מהדור חדש של מכונות חכמות שיכולות ללמוד, לראות ולהבחין – כמו שבני אנוש עושים. בקופסה אחת, המחשב מספק את העוצמה של מאות שרתים מבוססי מעבדים רגילים (CPU), עם נפח עבודה של petaFLOPs1.
"אנו מחפשים שיטות להעשיר את המטה-דטה שלנו, כדי שגולשים, חוקרים וכל מי שמתעניין בשואה, יוכלו לחפש בצורה טובה יותר, ולהבין מה הם רואים", הסביר בראיון לאנשים ומחשבים מיכאל ליבר, ראש אגף טכנולוגיות מידע ביד ושם, "כך, למשל, אם הצלחת לאתר כרטיס אסיר במחנה מטהאוזן, המערכת 'תדע' שזה כרטיס אסיר ותפנה אותך לשדות הנתונים ולמסמכים הרלוונטיים. המערכת תדע לאתר ולזהות סוגים של מסמכים ולתת עוד מידע, בלא התערבות אנוש".
לדבריו, "אנו 'רוכבים' על המהפכה שבתחום לימוד מעמיק. פעם היה נדרש לפתח הכל מאפס, וכיום יש יכולות לבנות מערכת לומדת, על בסיס Frameworks מבוססי קוד פתוח, עם יכולת להתאים אותם לשימוש שלך. כך, ניתן לבנות מודל העונה לבעיה-שאלה, בצורה זולה ומהירה, בתוך ימים". ליבר הוסיף כי "לא מדובר בפרויקט במובנו המסורתי – כי אם בבניית תשתית פרויקטלית, שעליה ניתן יהיה להלביש מודלים שונים של מחקר והנגשה. ניצור קשר עם גופי אקדמיה ומחקר, לטובת הגדלת השימוש במערכת ופיתוח יכולות נוספות על גבה".
"המשכנו להעביר מסמכים ותצלומים לגרסה החדשה של מאגר התצלומים שלנו, לתשתית המכונה YVNG – הדור הבא של יד ושם, דו-משמעות להיבט הטכנולוגי והגיל. בנינו את הפלטפורמות שלנו בראייה של חוויית המשתמש של הדור הצעיר, כפי שהוא רגיל בשימוש באתרים אחרים, כי זה הדור החשוב לנו ולו אנחנו רוצים להיות רלוונטיים. כך, כניסה לתת-אתר העוסק בשילוחים (טרנספורטים) של יהודים למשרפות, מספקת עושר נתונים: רכבות, מסלולים, מי היה ברכבות, עם יכולות חוצות מערכות, עם הקשר (קונטקסט) של התקופה, קהילות, משפחות, לוחות זמנים ומפות – ולא רשומה יבשה".
לפלטפורמה החדשה הועלו 350 אלף תצלומים, מתוך כחצי מיליון תצלומים שיש למוסד בכלל, שכן לא לכל התצלומים יש זכויות יוצרים להנגשה ברשת. לדבריו, "אנו מנהלים משא ומתן עם ארכיונים נוספים בעולם, על מנת להנגיש כמה שיותר מידע – כתוב, מצולם ומוסרט". ליבר ציין כי "אנו ממשיכים בפרויקט הענק להנגשת המסמכים הרבים שברשותנו – ברשת. לארכיון המוסד נוספו 6 מיליון מסמכים בשנה האחרונה, רובם ממזרח אירופה, וכיום יש לנו 210 מיליון דפי תיעוד. החלק המשמעותי של הארכיון, 80% ממנו – כבר סרוק".
הדקה ה-90 לאיסוף עדויות מניצולים
"אנו נמצאים בדקה ה-90 של מבצע איסוף עדויות של הניצולים", אמר ליבר, "זה ממש הרגע האחרון, ואנו עושים זאת באופן מואץ. צוותים שלנו – צוות צילום עם מראיין, מגיעים לבתי הניצולים. ב-2017 עשינו זאת עם 1,100 ניצולי שואה, וב-2018 – עם 1,200 ניצולים. הצילום דיגיטלי – ולכן כל שרשרת ההפקה דיגיטלית לחלוטין. הפרויקט נמשך במירוץ נגד השעון: מי שמעוניין בגביית עדות של קרוב משפחתו, מוזמן לפנות אלינו בטלפון 02-6443888 או במייל
[email protected]". .
ליבר הוסיף כי "עד כה העלינו לאתר וליוטיוב אלפי קטעי עדויות, וכעת התחלנו הנגשה באורך מלא, כולל תמלולים. בשיתופי פעולה עם חברות סטארט-אפ בתחום, מצאנו פתרונות טכנולוגיים חצי-אוטומטיים ומוזלים – לתמלל את העדויות במלואן, עם יכולות חיפוש ומענה לכללי הנגישות. העלנו כבר יותר ממאה באורך מלא". ה
וא ציין כי "העלאת העדויות מעלה שאלה כבדת משקל בתחום האתי – כי המהות שלנו היא הפצת מידע, אבל, למשל, ניצולה המספרת פרטים רגישים או אישיים, האם יש להעלות את עדותה במלואה? בהמשך השנה נערוך כנס בנושא לשמוע מגוון דעות של חוקרים".
נמשך פרויקט מחשוב שמות קורבנות השואה
עד כה הצליח יד ושם לזהות כ 80% משמות קורבנות השואה. בשנה החולפת נוספו 100,000 שמות, וכיום מתועדים במאגר השמות שבאתר כ-4.8 מיליון קורבנות. ההיסטוריונים מעריכים שלבסוף, המאגר יכיל את פרטיהם של כ-85% מהקורבנות, שכן קשה יהיה למצוא, או שלא יימצא כלל, תיעוד לשאר. המאגר המרכזי של שמות קורבנות השואה עלה לרשת בנובמבר 2004, כשבו פחות משלושה מיליון שמות. אז יצא המוסד במבצע רחב היקף לאיסוף שמות חסרים מהציבור הרחב, שההיענות לו הייתה רבה.
מקורם של קרוב למחצית השמות הנמצאים כיום במאגר המקוון בדפי עד – טפסים ובהם שמותיהם ופרטיהם האישיים של הנספים, שממלאים קרובים או מכרים שלהם. מקור יתר השמות הוא בפרויקטי הנצחה של קהילות וניצולים, וכן במסמכים ארכיוניים. הקושי העיקרי הוא באיתור שמותיהם של יהודים שנרצחו במזרח אירופה ובשטחי ברית המועצות לשעבר, כי בניגוד למצב במערב אירופה, במדינות אלה בוצעו מעשי הרצח פעמים רבות במקום המגורים של היהודים, והנאצים לא ערכו רשימות גירוש עם פרטי הקורבנות. לדברי ליבר, "ככל שחולפות השנים, אנו מעלים פחות שמות חדשים, ויותר עוסקים בעיבוי נתונים על קורבנות שכבר רשומים".
בהיבט האחסון, ציין, "אנו עורכים הגירה ממערכות EMC לאלו של היטאצ'י ו-HPE. בסך הכל, בכל המערכות של יד ושם, אנו מטפלים במידע מאוחסן בנפח כולל של 4 פטה בייט ובגיבויים בנפח 10 פטה בייט, כשחלק מהגיבוי הוא בדיסקים און ליין".
"הנגשת האתר של יד ושם, ועשרות תתי-האתרים שלו, היא היעד שלנו", סיכם ליבר, "כדי להעמיק את הקשר שלנו עם מגוון קהלים, חוקרים ואנשי חינוך, ובעיקר מיקוד בדור הצעיר, בארץ ובחו"ל".
תגובות
(0)