OCR למסמכים היסטוריים בעברית — מדריך פרקטי 2026
נכתב לארכיונאים, ספרניות, היסטוריונים ולמהנדסים שמלווים אותם.
אם הגעתם לכאן, יש לכם כמעט בוודאות ערמת מסמכים היסטוריים בעברית — מודפסים, בכתב יד, או שניהם — ואתם רוצים לדעת אם בינה מלאכותית יכולה לקרוא אותם, באיזו איכות, באיזה מחיר, ואילו טעויות להימנע מהן. התשובה הקצרה: כן, הטכנולוגיה סוף-סוף בשלה לעבודה ארכיונית רצינית — אבל רק אם מתייחסים אליה כפרויקט מחקר ולא כרכישת תוכנה.
המדריך הזה בנוי סביב השאלות שלקוחות שואלים בפועל, בסדר שבו הן עולות.
האם OCR יעבוד על המסמכים שלי?
לפני בחירת כלי, בצעו בדיקת היתכנות בת 30 שניות. קחו עמוד מייצג וענו על חמש שאלות:
- מודפס או בכתב יד? הדפוס קל בערך בסדר גודל אחד מכתב היד.
- מאיזו מאה? דפוס מהמאה ה-19 ואילך משתמש בגופנים יציבים. דפוס שלפני 1850 יכול להיות קשה כמעט כמו כתב יד.
- האם העמוד פגום? דליפת דיו, חלודה, נזקי מים, חלקים חסרים, דיו דהוי, עובש — כל אחד מאלה חוצה את הדיוק הצפוי, אלא אם בוצע עיבוד מקדים.
- המבנה פשוט או מורכב? עמודה אחת, שפה אחת: קל. עברית-ארמית מעורבת עם הערות שוליים והוספות בכתב יד: קשה מאוד.
- שפה עברית טהורה או תערובת עברית–יידיש–ארמית–שפה מקומית? מערב קשה יותר, כי מודלים מן המדף בוחרים שפה אחת ומשבשים את השאר.
אם עניתם "מודפס, אחרי 1850, שלם, עמודה אחת, עברית טהורה" — מצוין, סביר שתשיגו דיוק של 98%+ עם כלים מן המדף ובמאמץ מינימלי. כל דבר אחר — אתם בטריטוריה של אימון מותאם.
אילו מנועים שווה באמת לבחון
מתעלמים מהרעש — הכלים שחשובים לעברית היסטורית ב-2026 הם:
Tesseract (קוד פתוח)
האב הקדמון של OCR. חינמי, רץ על כל מערכת, יש חבילות שפה לעברית (heb, heb_old, yid). דיוק כן על דפוס עברי מודרני נקי: 92–96%. על דפוס רבני מהמאה ה-19: 60–80%. Tesseract הוא התשובה הנכונה כשהתקציב הדוק והחומר נקי. הוא לא התשובה כשיש לכם כתבי יד.
Google Document AI
ה-OCR המסחרי של גוגל רץ ב-batch על מסמכים שמועלים. הדיוק על עברית מודפסת נקייה מצוין (לעיתים 98%+ מן הקופסה). תמחור לפי עמוד, סביר לפרויקטים חד-פעמיים. הסתייגויות: גמישות מוגבלת בכיוונון, אין fine-tuning על החומר הספציפי שלכם, והנתונים יוצאים מהארגון.
AWS Textract / Azure Document Intelligence
דומה לגוגל בעברית מודפסת, עם שילוב טוב יותר אם אתם בסביבות הענן האלה. אותן הסתייגויות.
Kraken / eScriptorium (קוד פתוח)
נבנו בידי קהילת מדעי הרוח הדיגיטליים ועבורה. נועדו לכתבים היסטוריים. ניתנים לאימון. רצים על GPU של מחשב נייד. בשימוש ב-École des Chartes, ב-BnF ובהדרגה גם בישראל. Kraken הוא האפשרות החינמית הטובה ביותר ל-HTR בעברית היסטורית — ברגע שאתם משלימים עם זה שתאמנו מודל בעצמכם.
Transkribus
פלטפורמת ה-HTR המקצועית של READ-COOP. מבוססת ענן, תמחור לפי עמוד, ממשק אימון מלוטש. יש בה מודלים גדלים לעברית/יידיש שתורמת קהילת המשתמשים. Transkribus הוא הבחירה הנכונה כשצריך לערב אנשי מקצוע שאינם מהנדסים בלולאת האימון והביקורת.
OCR מותאם מבוסס טרנספורמרים
הקצה הקדמי של התחום. מודלים כמו TrOCR, GOT-OCR2 ונגזרות קנייניות מנצחים כל מערכת מסורתית בחומר פגום. דורשים יותר מחשוב ויותר מומחיות. כאן MF Smart Research נמצאת רוב הזמן.
OCR מבוסס LLM
GPT-4 Vision, Claude עם vision, Gemini — מפתיעים לטובה על דפוס נקי וחלק מכתבי היד הברורים. לא יציבים בעליל ביד רבנית. שימושיים לעמודים בודדים קשים, מסוכנים כצינור עיקרי בגלל הזיה — מודל ראייה גנרטיבי ימציא בשקט טקסט שאמור להיות שם. תמיד שלבו אותם עם OCR לא-גנרטיבי לבקרה צולבת.
הדפוס שיש להפנים: OCR ענן מסחרי לדפוס נקי בקנה מידה; Kraken/Transkribus לחומר היסטורי עם אימון; צינורות טרנספורמרים מותאמים לחומר הקשה ביותר.
איזה דיוק לצפות
מספרים אמיתיים מפרויקטים אמיתיים:
| חומר | מן המדף | אחרי 500 שורות אימון | אחרי 5,000 שורות |
|---|---|---|---|
| דפוס עברי מודרני נקי | 95–98% | 98–99% | 99%+ |
| דפוס רבני מהמאה ה-19 | 70–82% | 92–96% | 97–99% |
| דפוס יידי מאמצע המאה ה-20 | 80–90% | 95–98% | 98–99% |
| מכתב אישי בכתב יד עברי, מהמאה ה-20 | 30–55% | 80–90% | 93–97% |
| יד רבנית, המאה ה-18–19 | 15–35% | 70–85% | 90–95% |
| לאדינו ברש"י | 40–60% | 85–93% | 95–98% |
| פנקס קהילה עם כמה ידיים | 20–40% | 65–80% | 85–93% |
הלקח היקר ביותר בתחום: הערך השולי של תמלול אנושי הוא לא ליניארי. 500 השורות הראשונות של אמת-יסוד מעלות את הדיוק דרמטית. 4,500 הבאות מעלות אתכם מ"שימושי" ל"בר-פרסום". מעבר ל-10,000 שורות אתם נלחמים בתשואה פוחתת.
העלויות שלא מדברים עליהן
הצעת תקציב שאומרת "10 סנט לעמוד OCR" הסתירה 80% מהעלות. התקציב האמיתי לפרויקט דיגיטציה מוסדי מתחלק בערך כך:
- תפיסת תמונה ועיבוד מקדים: 25–40%. כולל סריקה, יישור, ביטול עיוות, ניקוי רעש, בינריזציה, פילוח מבני. תפיסה גרועה לא תיגאל על ידי OCR טוב.
- תמלול אמת יסוד: 20–35%. שכירת מתמללים מוכשרים — לעיתים מורים בגמלאות, ספרניות או דוקטורנטים — שמייצרים את השורות שמאמנות את המודל. רכיב העלות המשתנה הגדול ביותר.
- אימון וכיוונון מודלים: 5–15%. עבודת ה-AI עצמה. לרוב הסעיף הקטן ביותר.
- בקרת איכות ובקרה אנושית: 15–25%. סקירת פלטים בעלי ביטחון נמוך, אימות ישויות, אימות המודל על מאגרי בדיקה שמורים.
- מטא-דאטה, חיפוש והגשה: 10–20%. פלט ה-OCR אינו התוצר — הארכיון בר-החיפוש עם מטא-דאטה מובנה הוא התוצר.
אם הצעת מחיר מספק לא מפרידה את השלבים האלה, שאלו למה.
שבע הטעויות שמחסלות פרויקטים
לפי תדירות הופעתן:
- בחירת מנוע לפני היכרות עם החומר. "אנחנו נשתמש ב-Tesseract" אינה תוכנית פרויקט. הריצו פיילוט של 100 עמודים על שלושה מנועים לפני התחייבות.
- תפיסה ברזולוציה נמוכה כדי לחסוך אחסון. 300 DPI הוא הרצפה המוחלטת ל-OCR; 400–600 DPI הוא הסטנדרט לחומר היסטורי. אי אפשר "לבטל מטשטוש" של עמוד אחר כך.
- דילוג על אמת יסוד. ללא נתוני ייחוס מתומללים, אין לכם מושג מהו הדיוק שלכם בפועל. ספק שמדווח "96% דיוק" בלי להראות לכם את מאגר הבדיקה — מבלף.
- אימון על מדגם שגוי. מודל שאומן על 80% הקלים יכשל על 20% הקשים — שם בדרך כלל נמצא הערך ההיסטורי. אצרו את מאגר האימון כדי להעדיף ייצוג של חומר קשה.
- התייחסות לפלט ה-OCR כסופי. OCR הוא הקלט לשלבים הבאים: NER, בניית גרף ידע, חיפוש. OCR גרוע מזהם את כל מה שבהמשך, בשקט.
- התעלמות מציוני ביטחון. מנועים מודרניים מפיקים ביטחון לכל תו. השתמשו בו לסינון סקירה אנושית. פרויקט שיסקור 5% מהעמודים לפי ביטחון ינצח פרויקט שיסקור 30% באקראי.
- זלזול במבנה. עמוד מודפס עם הערות שוליים, פירושים והגהות אינו מסמך אחד — הוא ארבעה. אם הצינור שלכם לא מפלח מבנה לפני OCR, הפלט יהיה בלגן שאף מערכת במורד הזרם לא תוכל לפענח.
סדר הפעולות שעובד באמת
צינור שפוי לארכיון עברי היסטורי לא-טריוויאלי נראה כך:
- תפיסת תמונה ב-400+ DPI, תאורה אחידה, סביבה לא-הרסנית.
- עיבוד מקדים: יישור, ביטול עיוות, נורמליזציית ניגודיות, בינריזציה במידת הצורך.
- ניתוח מבנה: זיהוי עמודות, הערות שוליים, אלמנטים דקורטיביים. כל אזור טקסט מוגדר כקלט נפרד בהמשך.
- OCR/HTR לכל אזור, כשציוני ביטחון נשמרים.
- זיהוי שפה לכל אזור (עברית מול ארמית מול יידיש מול שפה מקומית), עם ניתוב למודל המתאים.
- תיקון פוסט-OCR באמצעות מודל שפה עברי על פלט המתחשב בביטחון לכל שורה.
- זיהוי ישויות של אנשים, מקומות, תאריכים, אירועים.
- קישור ישויות לפתרון אזכורים מצולבים בארכיון.
- בניית גרף ידע המקשר ישויות למסמכים וביניהן.
- אינדקס חיפוש וממשק: לרוב מאגר וקטורים בשילוב חיפוש טקסט מלא וממשק קריאה.
- בקרת איכות מתמשכת: תור סקירה אנושית מועדף לפי ביטחון, עם חוזר משוב שמאמן מחדש את המודל.
שלבים 1–4 הם דיגיטציה קונבנציונלית. שלבים 5–11 הם המקום שבו AI מודרני מוסיף את הערך שמצדיק את הפרויקט.
מה MF Smart Research עושה אחרת
הצינור שלנו מבוסס על שלושה עקרונות:
ייחוס מקור בלתי-ניתן למשא ומתן. כל תו מתומלל ניתן לאיתור חזרה לעמוד ספציפי באוסף המקורי. כל ישות מוזכרת מקושרת למסמכים. כל סיכום שמייצר AI מצטט את מקורותיו ברמת השורה. אנחנו לא מספקים "פחות או יותר את מה שכתוב". אנחנו מספקים את מה שכתוב, עם ביטחון, עם המקור לידו.
מודלי HTR ייחודיים לכל ארכיון. אין שני ארכיונים עבריים זהים. דפוס וילנא של סוף המאה ה-19 הוא בעיה אחרת מדפוס לאדינו של סלוניקי בשנות ה-20, שהוא בעיה אחרת מיד רבנית בודדת בליטא של המאה ה-18. אנחנו מאמנים מודלים לכל אוסף, עם רווחי דיוק מדידים החל מהשבוע השני.
ביקורת אנושית במקום שזה מתאים. ניקוד ביטחון מניע תור סינון. 90% הזולים והקלים של העמודים מעובדים בקנה מידה; 10% הקשים — שם הערך ההיסטורי לרוב מצוי — נסקרים בידי היסטוריונים, עם תיקוני המודל מוזרמים חזרה לאימון.
מאיפה ממשיכים מכאן
אם יש לכם ערמת מסמכים ושאלה — האם זה יעבוד אצלנו, ובאיזה היקף — הדרך הזולה ביותר לתשובה כנה היא שיחת תיאום של 30 דקות. אנחנו מעבירים עמודים מייצגים בשלושה מנועים, חולקים ציוני ביטחון בשקיפות, ואומרים אם AI הוא הכלי הנכון למה שאתם מנסים לעשות (לעיתים התשובה היא "עוד לא").
