פרויקט: בניית מאגר מידע היסטורי לשנה אחת שכולה תמורות
יש שנים שבהן מתרחשים כל כך הרבה אירועים, באופן מקביל ובקנה מידה כל כך גדול, שגם חוקרים ותיקים מתקשים להחזיק את התמונה השלמה בראש. מהפכות, הצהרות מדיניות, מלחמות, תנועות הגירה, כינוסים בינלאומיים — כולם באותם 365 ימים.
הפרויקט הזה סיפר דבר אחד: לקחת שנה מסוימת ולמפות אותה ברזולוציה הגבוהה ביותר האפשרית.
האתגר: צפיפות אירועים שמעמידה בפני שאלות קשות
הלקוח — חוקר בכיר בתחומו — ידע את השנה הזו לפני ולפנים. אבל ככל שהתעמק, גילה שהמקורות מספרים סיפורים שונים זה מזה. עיתון אחד מדווח על אירוע ברביעי לחודש, יומן אישי רושם אותו בשישי. מסמך דיפלומטי מייחס החלטה לדמות מסוימת, פרוטוקול ישיבה מראה שמישהו אחר לגמרי הציע אותה.
השאלה לא הייתה "מה קרה?" — אלא "מה קרה באמת, ובאיזה רצף מדויק, ומי באמת קיבל את ההחלטות?"
מה בנינו
מאגר מידע מובנה של השנה כולה
כל "אירוע" שמצאנו — בכל מקור שמצאנו אותו — נרשם כרשומה נפרדת עם:
- תאריך מדויק (או טווח תאריכים כשלא ברור)
- מקום — לפי מיפוי גאוגרפי עקבי
- שחקנים — כל אדם שמאוזכר, מזוהה ומקושר לאירועים אחרים
- סוג מקור — עיתונות, דיפלומטיה, יומן אישי, פרוטוקול, מכתב, עדות, תמונה
- ציטוט מלא — הקטע המדויק מהמקור
- רמת ודאות — האם זו עובדה מאומתת, פרשנות, או שמועה
כמות החומר שעובד
- 14 עיתונים בשלוש שפות, לאורך כל השנה — כ-5,000 גיליונות
- מעל 300 מסמכים דיפלומטיים שחלקם פורסמו במהדורות אקדמיות וחלקם נשארו בארכיונים
- 47 יומנים ומכתבים אישיים של דמויות מפתח
- פרוטוקולים של 12 גופים — ועדות, מפלגות, ארגונים
- כ-90 ביוגרפיות וזיכרונות שמזכירים אירועים מהשנה הזו
הטכנולוגיה
- OCR מותאם — כולל כתבי יד, דפוס ישן ומסמכים רב-לשוניים
- חילוץ ישויות חכם — סוכן LLM שמזהה שמות, מקומות, תאריכים ומושגים בכל פסקה
- הצלבה אוטומטית — כשאותו אירוע מופיע בשני מקורות, המערכת מסמנת זהות, סתירות ומשלימים
- ציר זמן דינמי — ממשק שמאפשר לגלול לאורך השנה, לסנן לפי נושאים ולצלול לכל אירוע
מה השיגו
תמונה כרונולוגית בדיוק של ימים
במקום "בתקופה ההיא הוחלט ש..." — החוקר יכול לראות: ב-3 לחודש התקיימה ישיבה. ב-5 לחודש פורסמה הידיעה בעיתון. ב-7 לחודש הגיב הצד השני במכתב פרטי. ב-12 לחודש הנושא הגיע לדיון בגוף רשמי.
חשיפת "שחקני צל"
המאגר חשף דמויות שלא עלו בספרות המחקרית הקיימת — אנשים שהיו נוכחים בישיבות, שנזכרו ביומנים של אחרים, שחתמו על מסמכים — אבל שהיסטוריונים עד כה לא הבחינו בחשיבותם כי המידע היה מפוזר על פני עשרות מקורות שונים.
פתרון סתירות
ב-23 מקרים נמצאו סתירות ישירות בין מקורות. ב-17 מהם הצלחנו לפתור את הסתירה על ידי מקור שלישי או רביעי שאישר גרסה אחת. ב-6 מקרים הסתירה נותרה פתוחה — ותועדה בצורה שמאפשרת לחוקרים עתידיים לחזור אליה.
מאגר נגיש
התוצר הסופי: בסיס נתונים דיגיטלי שהחוקר יכול לשאול בשפה טבעית: "מי נפגש עם מי בדצמבר?", "אילו כתבות פורסמו על הנושא ביום שאחרי ההכרזה?", "האם יש עדות לכך שפלוני ידע על ההחלטה מראש?" — ולקבל תשובה מקורית עם ציטוטים.
למי זה מתאים?
בניית מאגר מידע לשנה אחת היא הגישה הנכונה כאשר:
- שנה מכרעת בהיסטוריה של ארגון, קהילה, מדינה או תנועה
- ריבוי מקורות שאיש עד כה לא ריכז במקום אחד
- צורך במדויקות כרונולוגית — לא "בערך" אלא "בדיוק"
- הכנת מונוגרפיה, דוקטורט או ביוגרפיה שדורשת שליטה מוחלטת בחומר
- ארגון שרוצה לתעד שנת ייסוד או שנת מפנה בצורה מקיפה