15/01/2025

OCR למסמכים היסטוריים בעברית: אתגרים ופתרונות AI

דיגיטציה של מסמכים היסטוריים בעברית מייצגת אחד האתגרים המורכבים ביותר בתחום זיהוי התווים האופטי (OCR). מכתבי יד רבניים מימי הביניים ועד רשומות הגירה מתחילת המאה ה-20, טקסטים בעברית מציבים סט ייחודי של מכשולים שטכנולוגיית OCR מסורתית פשוט לא מסוגלת להתמודד איתם.

מדוע OCR בעברית מאתגר באופן ייחודי

כיוון טקסט מימין לשמאל

שלא כמו שפות מבוססות לטינית, עברית נקראת מימין לשמאל. הבדל זה, שנראה פשוט, יוצר מורכבויות מדורגות בניתוח פריסת המסמך. כאשר משולבים אלמנטים משמאל לימין — מספרים, מילים בשפות זרות, או מסמכים דו-לשוניים הנפוצים ברשומות התפוצות היהודית — מנועי OCR סטנדרטיים מייצרים לעיתים קרובות פלט משובש.

מגוון כתבים לאורך המאות

מסמכים היסטוריים בעברית משתרעים על פני מסורות כתב מרובות:

  • כתב אשכנזי רהוט — כתב היד הזורם שנמצא ברשומות קהילות מזרח אירופה, התכתבויות אישיות ושאלות ותשובות רבניות
  • כתבים ספרדיים — צורות אותיות שונות בבירור ששימשו בקהילות יהודיות בים התיכון
  • כתב רש"י — כתב הדפוס החצי-רהוט ששימש בפירושי התלמוד מאז המאה ה-15
  • כתב מרובע (דפוס) — טקסט מודפס רשמי המשתנה משמעותית בין בתי דפוס ומאות
  • טקסטים ביידיש — המשתמשים באותיות עבריות עם מוסכמות ניקוד שונות

כל אחת ממסורות אלו דורשת נתוני אימון ומודלי זיהוי מיוחדים.

בלאי מסמכים

מסמכים היסטוריים בעברית סובלים לעיתים קרובות מ:

  • דיו ברזל-עפץ דהוי שאכל את הקלף
  • נזקי מים נפוצים במסמכים ששרדו פוגרומים והגירות כפויות
  • נזקי כריכה כאשר טקסט נעלם בקפל של כרכים כרוכים
  • חותמות, הערות צנזורה וכתיבה על גבי כתיבה בידיים שונות

כיצד AI מחולל מהפכה בזיהוי מסמכים עבריים

ב-MF Smart Research, אנו מפעילים גישת AI רב-שכבתית להתמודדות עם אתגרים אלו:

מודלי שפה מאומנים אישית

במקום להסתמך על OCR גנרי, אנו מאמנים מודלים מתמחים על קורפוסים של טקסטים היסטוריים בעברית. מודלים אלו מבינים לא רק תווים בודדים אלא את הדפוסים הלשוניים של תקופות וז'אנרים שונים — מזהים שטקסט רבני מהמאה ה-17 עוקב אחר מוסכמות שונות מעיתון של המאה ה-19.

השלמת פערים מודעת הקשר

כאשר תווים ניזוקים או בלתי קריאים, ה-AI שלנו לא מנחש סתם — הוא משתמש בהבנה הקשרית של דקדוק עברי, ביטויים נפוצים וטרמינולוגיה ספציפית לז'אנר כדי להציע את הקריאה הסבירה ביותר. זה משקף את עבודתו של פלאוגרף מיומן, אך בקנה מידה עצום.

אינטליגנציית פריסה

המערכות שלנו מסוגלות לנתח פריסות עמוד מורכבות בעברית כולל:

  • טקסטים רב-טוריים עם פירושים שוליים
  • מבני עמוד תלמודיים עם טקסט מרכזי מוקף בפירושים
  • מסמכים המערבבים עברית, ארמית ושפות עממיות
  • טבלאות, רשימות ורשומות מנהליות

יישומים מעשיים

ארכיונים קהילתיים יהודיים

מאות שנות רשומות קהילתיות יהודיות — פנקסי לידות, כתובות, פסקי דין ופרוטוקולים קהילתיים — מכילים נתונים היסטוריים שלא יסולא בפז. טכנולוגיית ה-OCR שלנו הופכת מסמכים אלו לברי-חיפוש בפעם הראשונה, ומאפשרת מחקר גנאלוגי וניתוח היסטורי בקנה מידה חסר תקדים.

תיעוד השואה

הדחיפות בדיגיטציה של מסמכי תקופת השואה אינה ניתנת להפרזה. מכתבים אישיים, רשימות שינוע, רשומות גטו ומסמכי עדות דורשים את הדיוק הגבוה ביותר. ה-OCR מסייע ה-AI שלנו מבטיח שרשומות היסטוריות קריטיות אלו נשמרות ונגישות לחוקרים ולמשפחות המחפשות מידע על קרובים שאבדו.

מחקר אקדמי

חוקרים החוקרים היסטוריה יהודית, פילוסופיה וספרות דתית יכולים כעת לחפש באוספים שלמים של כתבי יד. במקום לבלות חודשים בקריאה ידנית של כרכים, חוקרים יכולים לשאול שאילתות על אלפי מסמכים בו-זמנית, ולמצוא קשרים ודפוסים שאחרת היו נותרים חבויים.

העתיד של דיגיטציית מסמכים עבריים

ההתכנסות של OCR מתקדם, מודלי שפה גדולים וטכנולוגיית RAG (יצירה מוגברת באחזור) יוצרת אפשרויות חדשות. דמיינו שאילתה בשפה טבעית על ארכיון שלם: "מצא את כל ההתייחסויות ליחסי מסחר בין סלוניקי לאיסטנבול בשו"ת של המאה ה-18." זה כבר לא מדע בדיוני — זה הכיוון שבו אנחנו בונים באופן פעיל ב-MF Smart Research.

העבר ראוי לטכנולוגיה הטובה ביותר שאנו יכולים להציע. כל מסמך שאנו מדגטלים הוא קול שמשוחזר, סיפור שנשמר, חיבור למורשת המשותפת שלנו שמתחזק.


מעוניינים לדגטל את אוסף המסמכים העבריים שלכם? צרו קשר עם MF Smart Research כדי לדון בפרויקט שלכם.