10/04/2026

מהארכיון לקורא: פרויקט חקר עיתונות היסטורית באמצעות AI

אחד הפרויקטים שביצענו לאחרונה מדגים בצורה טובה את הכוח שבשילוב מתודולוגיה היסטורית קלאסית עם טכנולוגיות AI מתקדמות: חיפוש אזכורים של דמות היסטורית ספציפית על פני עשרות שנות עיתונות עברית מוקדמת.

האתגר: מחט בערימת שחת של נייר מתפורר

הלקוח - חוקר שכתב ביוגרפיה של דמות ציבורית מימי היישוב - זקוק היה לאסוף כל אזכור של הדמות בעיתונות העברית בין השנים 1910 ל-1948. המקורות הפוטנציאליים כללו:

  • הצבי ועיתונים מימי הרצל
  • דואר היום של איתמר בן-אב"י
  • הארץ משנות ה-20 וה-30
  • דבר של ההסתדרות
  • הבוקר, הצופה, ידיעות אחרונות ועוד

כמות החומר: אלפי גיליונות, עשרות אלפי עמודים. חיפוש ידני היה לוקח חודשים, אולי שנים.

השלב הראשון: איכות OCR לכתבים היסטוריים

קיימים פרויקטים לאומיים לדיגיטציה של עיתונות עברית (כמו "עיתונות יהודית היסטורית" של הספרייה הלאומית), אך ה-OCR בהם מוגבל - במיוחד עבור:

  • דיו דהוי בגיליונות מתפוררים
  • פריסת עמוד מורכבת עם טורים צרים, מודעות, כותרות בגופנים שונים
  • שמות פרטיים ולעז שבהם מנועי OCR שוגים במיוחד
  • חלקים הדפסה של טקסטים שעברו צנזורה בריטית

הפתרון שלנו: הרצנו OCR משלים מותאם אישית על הגיליונות הרלוונטיים, תוך אימון המודל על קורפוס של עיתונות עברית מאותה תקופה. הדיוק על שמות פרטיים קפץ מ-72% לכ-94%.

השלב השני: בניית מנוע חיפוש חכם באמצעות RAG

טקסט OCR גולמי אינו מספיק. שם של אדם יכול להופיע בעשרות וריאציות: ראשי תיבות, שמות חיבה, כתיב מלא וחסר, שגיאות דפוס. גם חיפוש לוגי פשוט לא מספיק - אנחנו רוצים להבין את ההקשר של כל אזכור.

המערכת שבנינו:

  1. מאגר וקטורי של כל הפסקאות הרלוונטיות, עם הקשר של חצי עמוד לכל כיוון
  2. סוכן שפה גדולה שקורא כל "תוצאה" ומסווג אותה: האם זה אותו האדם? האם זה אזכור חולף או מאמר מלא עליו?
  3. הצלבה אוטומטית עם מקורות אחרים: יומנים אישיים, פרוטוקולים, מכתבים - כדי לאמת זהות לפי תאריכים ואירועים4. ציטוט מקורות מדויק: כל תוצאה חוזרת עם לינק ישיר לסריקת המקור המקורית, כולל מספר גיליון ועמוד

התוצאות

תוך שלושה שבועות - במקום שנה וחצי של חיפוש ידני - מצאנו:

  • מעל 400 אזכורים ישירים של הדמות בעיתונות התקופה
  • 17 ראיונות ומאמרים מלאים שלא היו ידועים קודם, כולל כמה שהיו גנוזים באוסף פרטי
  • שתי מחלוקות ציבוריות שהיא הייתה מעורבת בהן - שעלו רק בקריאה צולבת של מספר עיתונים באותו שבוע
  • רשימה של 30+ אנשי שם שהיו בקשר איתה - לפי אזכורים משותפים בעיתונות

מה למדנו

הפרויקט הזה לימד אותנו כמה דברים שאנחנו מיישמים היום כמעט בכל עבודה:

  1. OCR איכותי הוא הבסיס לכל השאר - אין תחליף לאימון על קורפוס רלוונטי של התקופה
  2. שפה טבעית מנצחת חיפוש מילולי - LLM מודרני מבין הקשר כמו חוקר אנושי, רק מהר יותר פי מאה
  3. שקיפות מקורות היא קריטית - כל ממצא חייב להיות ניתן לאימות חזרה לסריקה מקורית
  4. החוקר האנושי הוא בלתי-ניתן-להחלפה - ה-AI מאיץ את האיסוף, אבל הפירוש ההיסטורי הוא עדיין שלנו

מתאים עבורך?

אם יש לך פרויקט מחקר שדורש עבודה עם כמויות גדולות של עיתונות היסטורית, רשומות תקופתיות או כתבי עת - אנחנו כאן כדי להפוך את "בלתי אפשרי" ל"שלושה שבועות עבודה".

דבר איתנו על פרויקט העיתונות שלך