הממשלה מדברת בשפת אנוש: הקימה איגוד חברות לטכנולוגיות NLP
רשות החדשנות ומשרד הדיגיטל הלאומי הקימו את האיגוד ויספקו לו מימון של 7.5 מיליון שקלים בשלוש השנים הקרובות ● בממשלה אומרים שהאיגוד הוקם לאור האיכות הנמוכה של זיהוי העברית והערבית במערכות המחשוב הקיימות
רשות החדשנות ומשרד הדיגיטל הלאומי אישרו אתמול (ב') את הקמתו של איגוד לחברות שעוסקות בטכנולוגיות שפת אנוש (NLP) ויקצו לכך סכום של 7.5 מיליון שקלים לשלוש שנים. האיגוד יסייע בהטמעת השפות עברית וערבית בחברות ובמערכות ממוחשבות. בין החברות שהצטרפו אליו נמצאות רפאל, ג'ינג'ר סופטוור, מלינגו, אודיוקודס, אינטל, וואלה, ynet ובנק הפועלים.
בממשלה אומרים כי האיגוד הוקם "לאור איכות נמוכה ובלתי מספקת של זיהוי השפות עברית וערבית במערכות ממוחשבות מסוגים שונים בהשוואה לזיהוי הדיבור בשפות אחרות". לדבריהם, "הסיבה לאיכות הירודה ולקושי בפיתוח טמונה בעובדה שעברית וערבית הינן שפות שמיות, המאתגרות וקשות יותר לניתוח, וכך איכות ההבנה והזיהוי שלהן נמוכה יותר ומהווה חסם ליישום ומימוש שירותים מתקדמים ואיכותיים".
מטרת האיגוד היא לייצר תשתית מו"פ שתאפשר בסיס אמפירי לא רק לזיהוי האלמנטים והדגמים המבניים המרכיבים את המערכת הלשונית, אלא גם למיפוי האופן שבו משתמשים במערכות הללו. הכוונה היא למאפיינים תחביריים, סמנטיים ומורפולוגיים לצורכי מו"פ בתחום ה-NLP. על מנת לאפשר שיפורים מגוונים ורחבים ככל הניתן, הקורפוסים המתויגים בעברית ובערבית יהיו מתחומים מגוונים, בהם: חדשות, ארכיונים, סרטים, ספרים, מאמרים, שירות לקוחות, שידורי רדיו וטלוויזיה מתומללים ועוד, ממגזרי תעשייה שונים.
נוסף על כך, יבחן האיגוד את האפשרות לפיתוח בקוד פתוח, או להתאמת כלי צד ג' בקוד זה, לבדיקות ושיפור איכות הבנת שתי השפות על ידי מערכות המחשב. ברשות החדשנות ובמשרד הדיגיטל טוענים שבאמצעות תשתית זו, ניתן יהיה לשפר ולהגביר את איכות הפתרונות השונים לזיהוי שפת אנוש בעברית ובערבית. האיגוד יקים את התשתית על גבי ענן, והוא יאפשר שיתוף מאובטח של הקורפוסים והרצת מערכת ניהול ואלגוריתמים לכל השותפים בו. הגופים החברים בארגון יוכלו להשתמש בתשתית לפיתוח שירותים, יישומים ותוכנות לשיפור שירות לקוחות, ניהול, ידע, קבלת החלטות, וכן למימוש יישומים שדורשים הבנת שפה טבעית בעברית ובערבית.
חברות NLP לצד כאלה שמציעות פתרונות תשתית
בין הגופים המשתתפים בארגון יש חברות שמפתחות פתרונות תשתית, כמו גם כאלה שעוסקות בפיתוח שירותים ומוצרים בתחומי הבנת השפה. באיגוד אומרים שהצרכנים הפוטנציאליים למוצרים ושירותים מבוססי טכנולוגיות NLP מגיעים ממגוון נרחב של מגזרים ושירותים: היי-טק, בנקאות, ביטוח, תקשורת, בריאות, חינוך, תיירות, השמה, משרדים ממשלתיים, מערכות ביטחון ומודיעין, ועוד.
אשר ביטון, מנכ"ל משרד הדיגיטל הלאומי, אמר כי "הסקטור הציבורי עוסק ביום יום במידע בעברית ובערבית, שחלקו הגדול אינו מובנה. אחד האתגרים הגדולים בדיגיטציה של השירותים הציבוריים הוא לאפשר יעילות תפעולית וזמינות לציבור ללא עלות לצד פריון גבוה".
לדברי אביב זאבי, סמנכ"ל תשתית טכנולוגית ברשות החדשנות, "האיגוד שהקמנו השבוע אמור לתת לתעשייה להוביל את הגדרות הצרכים ולסייע בסגירת פערים טכנולוגיים, שיאפשרו לעשות שימוש במאגרי מידע לא מובנים בעברית ובערבית, ולהוציא על בסיסם תובנות שישמשו מנוף למוצרים ושירותים לחברות ישראליות".
תגובות
(0)