מהארכיון לקורא: פרויקט חקר עיתונות היסטורית באמצעות AI
אחד הפרויקטים שביצענו לאחרונה מדגים בצורה טובה את הכוח שבשילוב מתודולוגיה היסטורית קלאסית עם טכנולוגיות AI מתקדמות: חיפוש אזכורים של דמות היסטורית ספציפית על פני עשרות שנות עיתונות עברית מוקדמת.
האתגר: מחט בערימת שחת של נייר מתפורר
הלקוח - חוקר שכתב ביוגרפיה של דמות ציבורית מימי היישוב - זקוק היה לאסוף כל אזכור של הדמות בעיתונות העברית בין השנים 1910 ל-1948. המקורות הפוטנציאליים כללו:
- הצבי ועיתונים מימי הרצל
- דואר היום של איתמר בן-אב"י
- הארץ משנות ה-20 וה-30
- דבר של ההסתדרות
- הבוקר, הצופה, ידיעות אחרונות ועוד
כמות החומר: אלפי גיליונות, עשרות אלפי עמודים. חיפוש ידני היה לוקח חודשים, אולי שנים.
השלב הראשון: איכות OCR לכתבים היסטוריים
קיימים פרויקטים לאומיים לדיגיטציה של עיתונות עברית (כמו "עיתונות יהודית היסטורית" של הספרייה הלאומית), אך ה-OCR בהם מוגבל - במיוחד עבור:
- דיו דהוי בגיליונות מתפוררים
- פריסת עמוד מורכבת עם טורים צרים, מודעות, כותרות בגופנים שונים
- שמות פרטיים ולעז שבהם מנועי OCR שוגים במיוחד
- חלקים הדפסה של טקסטים שעברו צנזורה בריטית
הפתרון שלנו: הרצנו OCR משלים מותאם אישית על הגיליונות הרלוונטיים, תוך אימון המודל על קורפוס של עיתונות עברית מאותה תקופה. הדיוק על שמות פרטיים קפץ מ-72% לכ-94%.
השלב השני: בניית מנוע חיפוש חכם באמצעות RAG
טקסט OCR גולמי אינו מספיק. שם של אדם יכול להופיע בעשרות וריאציות: ראשי תיבות, שמות חיבה, כתיב מלא וחסר, שגיאות דפוס. גם חיפוש לוגי פשוט לא מספיק - אנחנו רוצים להבין את ההקשר של כל אזכור.
המערכת שבנינו:
- מאגר וקטורי של כל הפסקאות הרלוונטיות, עם הקשר של חצי עמוד לכל כיוון
- סוכן שפה גדולה שקורא כל "תוצאה" ומסווג אותה: האם זה אותו האדם? האם זה אזכור חולף או מאמר מלא עליו?
- הצלבה אוטומטית עם מקורות אחרים: יומנים אישיים, פרוטוקולים, מכתבים - כדי לאמת זהות לפי תאריכים ואירועים4. ציטוט מקורות מדויק: כל תוצאה חוזרת עם לינק ישיר לסריקת המקור המקורית, כולל מספר גיליון ועמוד
התוצאות
תוך שלושה שבועות - במקום שנה וחצי של חיפוש ידני - מצאנו:
- מעל 400 אזכורים ישירים של הדמות בעיתונות התקופה
- 17 ראיונות ומאמרים מלאים שלא היו ידועים קודם, כולל כמה שהיו גנוזים באוסף פרטי
- שתי מחלוקות ציבוריות שהיא הייתה מעורבת בהן - שעלו רק בקריאה צולבת של מספר עיתונים באותו שבוע
- רשימה של 30+ אנשי שם שהיו בקשר איתה - לפי אזכורים משותפים בעיתונות
מה למדנו
הפרויקט הזה לימד אותנו כמה דברים שאנחנו מיישמים היום כמעט בכל עבודה:
- OCR איכותי הוא הבסיס לכל השאר - אין תחליף לאימון על קורפוס רלוונטי של התקופה
- שפה טבעית מנצחת חיפוש מילולי - LLM מודרני מבין הקשר כמו חוקר אנושי, רק מהר יותר פי מאה
- שקיפות מקורות היא קריטית - כל ממצא חייב להיות ניתן לאימות חזרה לסריקה מקורית
- החוקר האנושי הוא בלתי-ניתן-להחלפה - ה-AI מאיץ את האיסוף, אבל הפירוש ההיסטורי הוא עדיין שלנו
מתאים עבורך?
אם יש לך פרויקט מחקר שדורש עבודה עם כמויות גדולות של עיתונות היסטורית, רשומות תקופתיות או כתבי עת - אנחנו כאן כדי להפוך את "בלתי אפשרי" ל"שלושה שבועות עבודה".
