ארכיון דיגיטלי בעידן ה-AI
במדפים המאובקים של ספריות נשכחות, ההיסטוריה מחכה להתגלות מחדש. במשך עשורים, "דיגיטציה" משמעה היה צילום תמונה — שימור הצורה אך לא התוכן. דף סרוק אינו זהה לדף שאפשר לחפש בו, לקשר אותו, או לשאול אותו שאלות. המעבר ביניהם הוא מה שמפריד בין הסריקות האיכותיות של שנות ה-2000 לבין הארכיונים מבוססי-AI שאנחנו בונים היום.
מעבר לדיגיטציה פשוטה
הדור הראשון של הארכיונים הדיגיטליים פתר בעיה אמיתית: מסמכים פיזיים מתפוררים, אובדים, ויושבים מאחורי דלתות נעולות שלאף חוקר אין דרך להגיע אליהן. סריקה ברזולוציה גבוהה של הכל, ופרסום הסריקות באינטרנט, היה תועלת ציבורית עצומה. רוב הארכיונים היהודיים, הרוסיים והאירופיים הגדולים השלימו את התרגיל הזה בערך בין 2005 ל-2018.
אבל זה נעצר שם. סריקה היא העתק, לא משאב. אפשר להסתכל עליה; אי אפשר לשאול אותה דבר. אם רצית למצוא את כל ההתייחסויות לעיירה ספציפית בארבעים כרכי שו"ת רבני, עדיין היית צריך לקרוא אותם בעצמך — בדיוק כפי שסבא שלך עשה עם המקור הנייר.
מפיקסלים למשמעות
מה שהשתנה בעידן ה-AI הוא כל הסטאק מתחת לסריקה.
מערכות OCR מודרניות (זיהוי תווים אופטי) השלימו את הפער מול דפוס. מערכות HTR (זיהוי כתב יד) — בעיה שונה מהותית — השלימו את הפער מול כתב רהוט. שתיהן יחד מסוגלות היום להפיק טקסט נגיש לחיפוש מתוך פנקס יידיש מהמאה ה-19 או מכתב מוקלד מהתקופה הסובייטית, ברמת דיוק שלא הייתה ניתנת לדמיון לפני עשור.
אבל טקסט הוא רק השכבה השנייה. השלישית — וזו שמבדילה ארכיון מבוסס-AI אמיתי — היא משמעות. כאשר המערכת יודעת ש"יעקב פרלמוטר" בעמוד 47 של פנקס אחד ו-"Yankel Perelmuter" בעמוד 12 של מנפסט הגירה הם אותו אדם, הארכיון הופך למשהו חדש: גרף של ישויות, תאריכים, מקומות ויחסים, השזורים בין מסמכים שייתכן שהיו מנותקים פיזית במשך מאה שנים.
שלוש השכבות
ארכיון מבוסס-AI מלא פועל בשלוש רמות:
- שכבת הפיקסל — הסריקה ברזולוציה גבוהה, שמטופלת כאובייקט הקנוני של השימור. זה מה שמצביעים עליו כשמישהו שואל "האם זה אמיתי?"
- שכבת הטקסט — פלט OCR או HTR, בתוספת תמלול מובנה. זה מה שהופך את הארכיון לנגיש לחיפוש.
- שכבת הידע — ישויות (אנשים, מקומות, ארגונים, אירועים), היחסים ביניהן, וקו ייחוס שלוקח אותך חזרה לקואורדינטות הפיקסל המדויקות שמהן כל עובדה חולצה.
כל שכבה דורשת כלים שונים ושיקול דעת שונה. שימור הפיקסל הוא בעיה של מטא-דאטה ואחסון. חילוץ הטקסט הוא בעיה של למידת מכונה. שכבת הידע היא המקום שבו למדנות ארכיונית והנדסת AI חייבות לשתף פעולה אמיתית — כי השאלה האם שתי וריאציות שם הן "אותו אדם" כמעט אף פעם אינה משהו שמודל יכול לענות עליו לבד.
דוגמה קונקרטית
קחו ספר זיכרון קהילתי — יזכור-בוך — שהופק בשנות ה-50 בידי ניצולים של קהילה יהודית מזרח-אירופית שנחרבה. הוא מכיל מאות שמות, לעיתים קרובות מאויתים בצורות לא עקביות, בתערובת של עברית, יידיש והשפה המקומית. דיגיטציה מסורתית נותנת לכם PDF יפה. דיגיטציה מבוססת-AI נותנת לכם את אותו PDF בתוספת:
- כל שם שחולץ, נורמל, וקושר לוריאציות שלו
- כל שם מקום שחובר לקואורדינטה מודרנית, היכן שאפשר
- הפניות-צולבות לארכיונים אחרים — דפי עד ביד ושם, מאגרי JewishGen, רישומי עיירות בארכיוני המדינה הפולנית או הליטאית — בכל מקום שבו אותם אנשים או מקומות מופיעים גם
התוצאה היא לא רק ספר נגיש לחיפוש. זו צומת ברשת שמאפשרת לנין-נכד שמחפש שם של אב-אבא יחיד לחשוף, בשניות, כל מסמך בעולם שמזכיר את אותו אדם.
למה זה חשוב עכשיו
החלון לעשות את זה נכון צר יותר ממה שאנשים חושבים. הרשומות בכתב יד והמוקלדות של המאה ה-19 ותחילת המאה ה-20 לא נעשות קלות יותר לקריאה; האנשים שעדיין יכולים לפענח כתב סופר רהוט או ראשי תיבות רבניים מזדקנים. בניית התשתית של ה-AI עכשיו — בזמן שעדיין יש ידע מומחה שאפשר לאמן עליו מודלים — היא העבודה של העשור הזה.
"העבר אינו מת. הוא אפילו לא עבר." — ויליאם פוקנר
אנחנו דואגים שהוא יישאר נגיש.
