מהארכיון לקורא: פרויקט חקר עיתונות היסטורית באמצעות AI

אחד הפרויקטים שביצענו לאחרונה מדגים בצורה טובה את הכוח שבשילוב מתודולוגיה היסטורית קלאסית עם טכנולוגיות AI מתקדמות: חיפוש אזכורים של דמות היסטורית ספציפית על פני עשרות שנות עיתונות עברית מוקדמת.

האתגר: מחט בערימת שחת של נייר מתפורר

הלקוח - חוקר שכתב ביוגרפיה של דמות ציבורית מימי היישוב - זקוק היה לאסוף כל אזכור של הדמות בעיתונות העברית בין השנים 1910 ל-1948. המקורות הפוטנציאליים כללו:

הצבי ועיתונים מימי הרצל
דואר היום של איתמר בן-אב"י
הארץ משנות ה-20 וה-30
דבר של ההסתדרות
הבוקר, הצופה, ידיעות אחרונות ועוד

כמות החומר: אלפי גיליונות, עשרות אלפי עמודים. חיפוש ידני היה לוקח חודשים, אולי שנים.

השלב הראשון: איכות OCR לכתבים היסטוריים

קיימים פרויקטים לאומיים לדיגיטציה של עיתונות עברית (כמו "עיתונות יהודית היסטורית" של הספרייה הלאומית), אך ה-OCR בהם מוגבל - במיוחד עבור:

דיו דהוי בגיליונות מתפוררים
פריסת עמוד מורכבת עם טורים צרים, מודעות, כותרות בגופנים שונים
שמות פרטיים ולעז שבהם מנועי OCR שוגים במיוחד
חלקים הדפסה של טקסטים שעברו צנזורה בריטית

הפתרון שלנו: הרצנו OCR משלים מותאם אישית על הגיליונות הרלוונטיים, תוך אימון המודל על קורפוס של עיתונות עברית מאותה תקופה. הדיוק על שמות פרטיים קפץ מ-72% לכ-94%.

השלב השני: בניית מנוע חיפוש חכם באמצעות RAG

טקסט OCR גולמי אינו מספיק — לכן בנינו צינור Retrieval-Augmented Generation (RAG). שם של אדם יכול להופיע בעשרות וריאציות: ראשי תיבות, שמות חיבה, כתיב מלא וחסר, שגיאות דפוס. גם חיפוש לוגי פשוט לא מספיק - אנחנו רוצים להבין את ההקשר של כל אזכור.

המערכת שבנינו:

מאגר וקטורי של כל הפסקאות הרלוונטיות, עם הקשר של חצי עמוד לכל כיוון
סוכן שפה גדולה שקורא כל "תוצאה" ומסווג אותה: האם זה אותו האדם? האם זה אזכור חולף או מאמר מלא עליו?
הצלבה אוטומטית עם מקורות אחרים: יומנים אישיים, פרוטוקולים, מכתבים - כדי לאמת זהות לפי תאריכים ואירועים4. ציטוט מקורות מדויק: כל תוצאה חוזרת עם לינק ישיר לסריקת המקור המקורית, כולל מספר גיליון ועמוד

התוצאות

תוך שלושה שבועות - במקום שנה וחצי של חיפוש ידני - מצאנו:

מעל 400 אזכורים ישירים של הדמות בעיתונות התקופה
17 ראיונות ומאמרים מלאים שלא היו ידועים קודם, כולל כמה שהיו גנוזים באוסף פרטי
שתי מחלוקות ציבוריות שהיא הייתה מעורבת בהן - שעלו רק בקריאה צולבת של מספר עיתונים באותו שבוע
רשימה של 30+ אנשי שם שהיו בקשר איתה - לפי אזכורים משותפים בעיתונות

מה למדנו

הפרויקט הזה לימד אותנו כמה דברים שאנחנו מיישמים היום כמעט בכל עבודה:

OCR איכותי הוא הבסיס לכל השאר - אין תחליף לאימון על קורפוס רלוונטי של התקופה
שפה טבעית מנצחת חיפוש מילולי - LLM מודרני מבין הקשר כמו חוקר אנושי, רק מהר יותר פי מאה
שקיפות מקורות היא קריטית - כל ממצא חייב להיות ניתן לאימות חזרה לסריקה מקורית
החוקר האנושי הוא בלתי-ניתן-להחלפה - ה-AI מאיץ את האיסוף, אבל הפירוש ההיסטורי הוא עדיין שלנו

מתאים עבורך?

אם יש לך פרויקט מחקר שדורש עבודה עם כמויות גדולות של עיתונות היסטורית, רשומות תקופתיות או כתבי עת - אנחנו כאן כדי להפוך את "בלתי אפשרי" ל"שלושה שבועות עבודה".

דבר איתנו על פרויקט העיתונות שלך

מהארכיון לקורא: פרויקט חקר עיתונות היסטורית באמצעות AI

האתגר: מחט בערימת שחת של נייר מתפורר

השלב הראשון: איכות OCR לכתבים היסטוריים

השלב השני: בניית מנוע חיפוש חכם באמצעות RAG

המערכת שבנינו:

התוצאות

מה למדנו

מתאים עבורך?

מאמרים קשורים

פרויקט: בניית מאגר מידע היסטורי לשנה אחת שכולה תמורות

מערכת קטלוג שמתאימה את עצמה לארכיון

RAG לארכיונים: שאל 10,000 מסמכים, קבל תשובות מצוטטות