25/03/2026

בינה מלאכותית במחקר השואה: שחזור קולות אבודים מהארכיונים

השואה הותירה אחריה מיליוני מסמכים הפזורים במאות ארכיונים בארבע יבשות. עדויות בעשרות שפות, רשומות מקוטעות וצילומים דוהים מכילים סיפורים העומדים בסכנת אבדון. במשך עשרות שנים עבדו חוקרים על חומרים אלה בעמל רב, מסמך אחר מסמך. כעת, הבינה המלאכותית משנה את כללי המשחק.

היקף האתגר

על פי הערכות שמרניות, ארכיוני השואה המרכזיים — יד ושם, מוזיאון השואה בוושינגטון, ארכיוני ארולסן ועשרות אוספים לאומיים — מכילים למעלה מ-300 מיליון עמודי מסמכים. רבים מהם טרם קוטלגו. חלקם לא נקראו מאז היום שבו תויקו.

האתגר אינו רק בהיקף. המסמכים משתרעים על פני:

  • שפות רבות: גרמנית, אידיש, פולנית, הונגרית, צרפתית, הולנדית, צ'כית, רומנית, עברית ועוד רבות
  • כתבים מגוונים: לטיני, עברי, קירילי — לעיתים קרובות בכתב יד שנכתב בתנאי לחץ
  • פורמטים מגוונים: רשימות שילוחים, תעודות זהות, מכתבים אישיים, עדויות משפטיות, פנקסי מחנות, צילומים עם הערות בכתב יד
  • מצב משומר ירוד: נזקי מים, נזקי אש, ניסיונות השמדה מכוונים, עשרות שנים של אחסון לקוי

אף צוות חוקרים אנושי, מסור ככל שיהיה, אינו מסוגל לעבד היקף זה בתוך דור אחד. הבינה המלאכותית משנה את המשוואה.

כיצד הבינה המלאכותית מחוללת שינוי

1. זיהוי תווים רב-לשוני וזיהוי כתב יד

OCR סטנדרטי נכשל ברוב מסמכי תקופת השואה. רשומות מחנות בכתב יד, מכתבים באידיש קורסיבית, טפסים בירוקרטיים בגרמנית גותית — כל אלה דורשים מודלים מותאמים.

מערכות HTR (זיהוי טקסט בכתב יד) מבוססות בינה מלאכותית ניתנות לאימון על סוגי מסמכים ספציפיים. מודל שאומן על כרטיסי רישום מאושוויץ לומד לקרוא את מוסכמות הכתיבה המיוחדות של פקידי המחנה. מודל אחר מתמחה בפענוח מכתבים באידיש שנכתבו בידי תושבי הגטאות.

ב-MF Smart Research אנו מפתחים צינורות זיהוי מותאמים אישית המתמודדים עם האתגרים הספציפיים של חומרי תקופת השואה: שפות מעורבות בתוך מסמך יחיד, דיו דהוי על נייר באיכות ירודה, וקיצורים ייחודיים ששימשו ברשומות בירוקרטיות.

2. הצלבת רשומות מקוטעות

אולי היישום החזק ביותר של AI במחקר השואה הוא חיבור שברים. שם המופיע ברשימת שילוח מדרנסי יכול להיות מקושר לכרטיס רישום באושוויץ, רשומת עקורים בבוואריה ותיק הגירה בישראל — באופן אוטומטי.

הצלבה זו פועלת גם כאשר:

  • שמות מאויתים בצורה שונה במסמכים שונים (וריאציות תעתיק)
  • תאריכים משתמשים במערכות לוח שנה שונות
  • גילאים הם משוערים או זויפו בכוונה
  • מסמכים כתובים בשפות שונות

אלגוריתמי זיהוי ישויות מבוססי AI מסוגלים לזהות ש"שמואל רייזמן", "Szmul Rajzman" ו-"Samuel Raizman" מתייחסים ככל הנראה לאותו אדם, ולאחר מכן לאסוף כל מסמך המזכיר אותו ממספר ארכיונים.

3. ניתוח עדויות בקנה מידה נרחב

ארכיון ההיסטוריה החזותית של קרן שואה USC מכיל למעלה מ-55,000 עדויות וידאו ב-43 שפות. עיבוד שפה טבעית מבוסס AI מאפשר כיום:

  • אינדוקס של תוכן מדובר בדיוק רב הרבה יותר מסיכומים ידניים
  • זיהוי מיקומים, אירועים ואנשים חוזרים על פני אלפי עדויות
  • איתור עדויות מאששות כאשר מספר ניצולים מתארים את אותו אירוע
  • סימון קשרים שלא היו ידועים בין עדויות שסוקרים אנושיים החמיצו

זה לא מחליף את המעשה האנושי העמוק של הקשבה לסיפור של ניצול. זה מבטיח שהפרטים הספציפיים הטמונים בכל עדות — שם כפר, תאריך, תיאור של אדם — יהפכו לחפישים וניתנים לקישור.

4. ניתוח צילומים וזיהוי

ניתוח תמונה מבוסס AI יכול לסייע בזיהוי אנשים בצילומים היסטוריים, התאמת פנים בין תמונות שונות ותקופות זמן שונות. בשילוב עם חילוץ מטאדטה וניתוח הקשרי, טכנולוגיה זו מסייעת לחבר צילומים אנונימיים לאנשים מתועדים.

חשוב מכך, AI מסוגל לשפר צילומים פגומים — חידוד פנים, שחזור טקסט על שלטים או מסמכים הנראים בתמונות, וחילוץ פרטים הבלתי נראים לעין.

שיקולים אתיים

עבודה עם חומרי שואה מחייבת את הסטנדרטים האתיים הגבוהים ביותר. AI חייב לשמש ככלי עבור חוקרים, לעולם לא כתחליף לשיקול דעת אנושי בנושאי זיהוי, פרשנות או הנצחה.

עקרונות מפתח:

  • דיוק לפני מהירות: התאמות שגויות בזיהוי זהויות עלולות לגרום נזק אמיתי למשפחות. כל קישור שנוצר ב-AI חייב להיות מאומת בידי חוקרים מוסמכים.
  • רגישות בהצגה: מערכות אוטומטיות חייבות להיות מתוכננות מתוך מודעות שמדובר ברשומות של סבל אנושי, לא בנקודות מידע מופשטות.
  • פרטיות ניצולים ומשפחות: לא כל מידע צריך להיות נגיש לציבור, גם כאשר הדבר אפשרי טכנולוגית.
  • שקיפות מתודולוגית: חוקרים והציבור חייבים להבין מה AI יכול ומה אינו יכול לקבוע מרשומות היסטוריות.

מנתונים לזיכרון

המטרה הסופית אינה לבנות מאגר מידע — אלא לשחזר זיכרון. כל מסמך שתומלל נכון, כל שם שקושר במדויק, כל עדות שאונדקסה כראוי מייצגים חיים שהרוצחים ביקשו למחוק.

AI מאפשר לנו לעבוד בקנה מידה של הפשע עצמו. השואה הייתה השמדה תעשייתית; תיעודה פוזר על פני יבשת שלמה. רק בעזרת כלים בעוצמה דומה נוכל לקוות לחבר מחדש את מה שנקרע בזדון.

התרומה של MF Smart Research

הצוות שלנו מתמחה באתגרים הטכניים הספציפיים של מסמכי תקופת השואה:

  • מודלי HTR מותאמים שאומנו על רשומות מחנות, מסמכי גטאות ועדויות מאוחרות
  • זיהוי ישויות רב-לשוני בעברית, אידיש, גרמנית, פולנית ושפות נוספות
  • כלי מחקר מבוססי RAG המאפשרים לחוקרים לבצע שאילתות על פני מספר אוספי ארכיון בו-זמנית
  • סוכני AI הסורקים באופן אוטונומי אוספים דיגיטליים לאיתור קשרים שחוקרים אנושיים עלולים להחמיץ

אנו עובדים עם ארכיונים, מוזיאונים, מוסדות הנצחה וחוקרים אקדמיים כדי להבטיח שהטכנולוגיה משרתת את הזיכרון — ושאף מסמך לא יישאר בלתי נקרא.


אם המוסד שלכם מחזיק חומרים מתקופת השואה הזקוקים לדיגיטציה, תמלול או הצלבה, צרו קשר עם MF Smart Research כדי לדון כיצד AI יכול לתמוך בעבודתכם.