![]() | ![]() |
|


השיטה מפחיתה את הצורך בטיפול ידני | צלם: ניר קידר
מדענים ממעבדת המחקר של יבמ בחיפה משתתפים במיזם משותף עם יותר מ-20 מוסדות אקדמיים וגופי מחקר באירופה לשימור מסמכים מהמאה ה-15 ומתקופות מאוחרות יותר. המיזם, שנקרא Impact, מיועד לפתח כלים ושיטות שיאפשרו לשמר את הטקסטים ההיסטוריים באמצעים דיגיטליים, לאפשר לגשת אליהם בחיפוש מקוון ולהבטיח את נגישותם לדורות הבאים.
מאמץ המחקר, הממומן על ידי הקהילה האירופית, הוביל לפיתוח מערכת דיגיטיזציה (OCR) העושה שימוש במחשוב קהילתי (Crowd Sourcing) כדי להציג שיטה חדשה לעיבוד של טקסטים היסטוריים. תוכנת הדיגיטיזציה, שפותחה במעבדת יבמ, מפחיתה באופן משמעותי את הצורך בטיפול ידני ויקר בטקסטים הסרוקים, הנובע משימוש שנעשה בעבר בגופנים מורכבים שאינם מוכרים לתוכנות בנות ימינו, כמו גם בשל השוני באוצר המלים המקובל ובמבנה השפה.
תפישת המחשוב הקהילתי מאפשרת לקבוצות גדולות של מתנדבים הפזורים ברחבי אירופה להשתתף ולתרום מזמנם לאימות הטקסטים ולתיקון שגיאות בזיהוי באמצעות מערכת אינטרנטית מקוונת. ככל שמרבים בתיקונים המערכת יודעת ללמוד ולתקן את שגיאותיה, כדי להגיע לזיהוי טוב יותר בעתיד. בעקבות הצלחת השלבים הראשונים של הפרויקט, מרחיבות יבמ והקהילה האירופית את שיתוף הפעולה כדי לכלול בו גם ספריות לאומיות, מוסדות מחקר, אוניברסיטאות וחברות עסקיות נוספות.
טל דרורי, מנהל קבוצת עיבוד המסמכים במעבדת המחקר של יבמ בחיפה, אומר כי "פרויקט Impact לא רק מעמיד לרשות גופי מחקר מרכזיים דרך לקרב אנשים אל טקסטים היסטוריים, שלא היו נגישים ולא נראו לעיני הציבור בעבר: הוא גם מאפשר להם להפוך הם עצמם לחלק ממאמץ השימור".
כדי לייעל את תהליך הבחינה יודעת המערכת להציג בפני הבודק לא רק את דף המקור הסרוק, אלא את המלה המדויקת הדורשת בחינה לעומק. כך, למשל, שילוב האותיות האנגליות "r" ו-"n", המופיעות בצמוד זו לזו, מוביל פעמים רבות לטעות בקריאה הממוחשבת, כשהמחשב מניח כי rn הן למעשה האות m. כשהמערכת מגיעה לנקודות שבהן עולה ספק לגבי הזיהוי - היא אוספת מקרים רבים כאלה שזוהו כ-m, הפזורים ברחבי הטקסט - ומציגה אותם ביחד ובסמוך למלה שאותה מנסים לפענח. כך יכול הבודק להסיק בקלות רבה יותר מסקנות לגבי הזיהוי הנכון, ולתקן מספר גדול של מקרים בפעולה בודדת.
רשימת הגופים המשתתפים בפרויקט Impact כוללת, בין השאר, את הספריות הלאומיות של הולנד, בריטניה, צרפת, אוסטריה וגרמניה, הספרייה המרכזית של מדינת בוואריה שבגרמניה, הספרייה האוניברסיטאית של גטינגן, המכון ההולנדי לבלשנות, אוניברסיטת מינכן, אוניברסיטת באת', הספרייה הלאומית של צרפת, הספרייה הלאומית של ספרד והמרכז למחשוב-על בפוזנן שבפולין.
לדברי דרורי, המערכת מסוגלת גם לנתח טקסטים עתיקים בעברית אבל לא ממוקדת בכך: "יכול בהחלט להיות שמוסדות ואוניברסיטאות ישראלים יוכלו להשתמש בטכנולוגיה שפיתחנו לניתוח עברית, אבל היא בעיקר ממוקדת בשפה הלטינית". הוא אומר כי בפרויקט הנוכחי השתתפו עשרות אנשים, ובהם שבעה חוקרים ישראלים מטעם יבמ חיפה.
עוד בנושא:
עשרת הגדולים
| שימושים: דף הבית | RSS | אודות האתר | פרסום באתר | תקנון האתר | ||
| TheMarker: העמוד הראשון | הייטק | שוק ההון | וול סטריט | בעולם | קריירה | פרסום ומדיה | צרכנות | נדל"ן | משפט | רכב | המדריך למשקיע | ||
| Cafe: ראשי | העמוד שלי | אנשים | קהילות | בלוגים | תמונות | וידאו | קהילת תמיכה | ||
| עכבר העיר: עכבר העיר | סרטים | קולנוע | מסעדות | מתכונים | הופעות | פעילויות ילדים | הצגות | לילה | מסיבות | עכבר העיר: סרטים, לילה, מסעדות | ||
| לוח העיר: דרושים | דרושים הייטק | נדל"ן | פרוייקטים חדשים | רכב | בעלי מקצוע | קח תן | ||
האתר פותח ע"י![]() |