מילון AI למחקר היסטורי

מקור עזר מעשי, בשפה ברורה, לאוצר המילים הטכני שמלווה פרויקטים של AI במחקר היסטורי. כל ערך קצר מספיק כדי להיקרא ומדויק מספיק כדי להיות מצוטט. אם אתם חוקרים, ספרנים, ארכיונאים או גנאלוגים — זהו המילון שאני שולח ללקוחות חדשים בתחילת כל פרויקט.

המילון מאורגן בארבעה אשכולות: טכנולוגיות ליבה, שיטות עבודה, סיכונים ובקרות, ומשאבים ומקורות היסטוריים — שכן בלי הקשר תרבותי, המילים הטכניות אינן עוזרות לאף אחד.

טכנולוגיות ליבה

OCR (זיהוי תווים אופטי)

המרה של תמונת טקסט מודפס לתווים שניתנים לקריאה במחשב. מנועי OCR מודרניים משלבים רשתות נוירונים קונבולוציוניות לסיווג תווים עם מודלי שפה לתיקון תלוי הקשר. עובד היטב על טקסט מודפס נקי; מתקשה במקור פגום, עמודות מרובות וגופנים היסטוריים, אלא אם המודל אומן על חומר דומה.

HTR (זיהוי כתב-יד)

בן הדוד של OCR, המיועד לכתב יד — שבו צורות האותיות משתנות בין כותב, תקופה, אזור וכלי כתיבה. HTR הוא במהותו בעיית מידול-רצף ולא סיווג-תווים; רוב המערכות המודרניות מבוססות על מקודדי טרנספורמרים או רשתות חוזרות שאומנו עם CTC. אימון מותאם של מספר מאות שורות מיד מסוימת מעלה דיוק מ-60% ל-95%+.

LLM (מודל שפה גדול)

רשת נוירונים שאומנה על כמויות עצומות של טקסט כדי לחזות את ה-token הבא ברצף. מודלים מודרניים (GPT-4, Claude, Gemini, Llama) מפתחים יכולות של תקצור, תרגום, חילוץ ישויות וחשיבה היסטורית. בעבודה ארכיונית LLM כמעט אינו פועל לבד — הוא תמיד מעוגן במקורות שאוחזרו דרך RAG.

RAG (אחזור מידע מוגבר)

דפוס שמשלב מערכת אחזור (חיפוש במסמכים אמיתיים) עם LLM גנרטיבי (חיבור תשובות). במחקר היסטורי, RAG הוא ההבדל בין AI שהוזה ביוגרפיות סבירות-למראה לבין AI שעונה רק ממקורות שהוא יכול לצטט. צינור RAG טיפוסי: שאילתה → embedding → חיפוש וקטורי → top-k קטעים → LLM עם הקטעים והמטא-דאטה של המקור → תשובה עם הערות שוליים.

Embedding (טבעה / וקטור משמעות)

וקטור מספרי (לרוב 768–3072 ממדים) שמייצג את המשמעות של קטע טקסט באופן שמחשבים יכולים להשוות. שני טקסטים על אותו אדם — גם בשפות שונות — מפיקים וקטורים סמוכים. Embeddings הופכים חיפוש סמנטי ("מצא מסמכים על מאורעות תרפ"ט") מפנטזיה לשאילתת מסד נתונים מהירה.

מאגר וקטורים (Vector Database)

מסד נתונים ייעודי שמותאם לחיפוש שכנים-קרובים על פני מיליוני embeddings רב-ממדיים. מנועים נפוצים: Pinecone, Weaviate, Qdrant, pgvector, Chroma. תקרת הביצועים של מערכת חיפוש ארכיונית נקבעת בדרך כלל על פי איכות מאגר הוקטורים שלה ביחס למודל ה-embedding הספציפי.

טרנספורמר (Transformer)

ארכיטקטורת רשת הנוירונים שהוצגה ב-2017 ("Attention Is All You Need") ומפעילה כמעט כל LLM, מערכת OCR ומערכת HTR מודרנית. הרעיון המרכזי הוא "attention": המודל לומד אילו חלקי הקלט חשובים לכל חלק של הפלט. החליף את ארכיטקטורות RNN/LSTM כמעט לכל משימת NLP.

NER (זיהוי ישויות בעלות שם)

המשימה של איתור וסיווג אזכורים של אנשים, מקומות, ארגונים, תאריכים, אירועים וקטגוריות נוספות בתוך טקסט. משמש להפיכת טקסט ארכיוני לא-מובנה לנתונים מובנים: כל הופעה של "ר' יוסל מטרנוב" הופכת לצומת בגרף ידע, גם אם שמו מאוית בחמישה אופנים שונים בין מסמכים.

גרף ידע (Knowledge Graph)

רשת של ישויות (צמתים) וקשרים (קשתות) שחולצו ממסמכים. גרף ידע היסטורי עשוי לקשר אדם למקום הולדתו, לקהילתו, למקצועותיו, לבני משפחתו ולמסמכים שבהם כל עובדה מופיעה. תומך בשאילתות שאף מסד נתונים שטוח אינו יכול לענות עליהן: "הצג לי את כל הרבנים שעזבו את גליציה לארגנטינה בין 1880 ל-1910".

IIIF (תקן בינלאומי לבין-תפעוליות תמונות)

תקן המאפשר למוסדות לחלוק תמונות ארכיוניות ברזולוציה גבוהה דרך ממשקי API בין-תפעוליים. מאפשר למערכות AI לאחזר, להעיר ולקשר תמונות בין ארכיונים בלי להעתיק את הקבצים עצמם. רוב הספריות והארכיונים הגדולים מפרסמים היום נקודות קצה IIIF.

שיטות עבודה

Fine-tuning (כיוונון מותאם)

לקיחת מודל שאומן מראש ואימונו הלאה על מאגר נתונים קטן וייעודי למשימה. במחקר היסטורי, fine-tuning הוא הדרך שבה מנוע OCR גנרי לעברית הופך למומחה בדפוס רבני מהמאה ה-19. כמה אלפי שורות מתומללות מספיקות בדרך-כלל.

LoRA (Low-Rank Adaptation)

טכניקת fine-tuning קלה המעדכנת רק מספר מצומצם של פרמטרים מוזרקים, לא את כל המודל. הופכת אימון מודלים מותאמים לארכיונים בודדים — או אפילו ליד של סופר מסוים — לכלכלית.

קישור ישויות (Entity Linking)

השלב שאחרי NER: ההחלטה ש"מ. פרנקלזון" במסמך א' ו"מתי פרנקלזון" במסמך ב' ו-"M. F." במסמך ג' מתייחסים לאותו אדם. המשימה הקשה ביותר בכל צינור AI גנאלוגי או ביוגרפי. נפתרת בשילוב של נורמליזציית שמות, מאפייני הקשר וסקירה אנושית מפורשת.

חידוד / הבחנה (Disambiguation)

בחירה בין מועמדים אפשריים לאזכור עמום — למשל, הבחנה בין שלושה רבי יוסלים שפעלו באותה עיר באותו עשור. החידוד מסתמך לרוב על אותות הקשר: תאריכים, מקצועות ובני משפחה שמוזכרים בקרבת מקום.

Ground Truth (אמת יסוד)

מאגר נתונים שאומת ידנית ומשמש לאימון ולהערכת מודלים. ב-HTR, אמת היסוד היא תמלול אנושי שורה-שורה. ב-NER, היא ישויות שתויגו ידנית. איכותה של כל מערכת AI במחקר היסטורי מוגבלת באיכות אמת היסוד שלה.

סיכונים ובקרות

הזיה (Hallucination)

הנטייה של LLM לייצר פלט נשמע-בטוח אך מומצא עובדתית. הסיכון הגדול ביותר בכל פרויקט מחקר היסטורי בסיוע AI. ממותן באמצעות RAG, ייחוס מקור, ניקוד ביטחון, פורמטים מובנים וביקורת אנושית בקטעי אי-ודאות — לעולם לא נמחק לחלוטין, רק נשלט.

ייחוס מקור (Source Attribution)

הדיסציפלינה של תיוג כל טענה שמייצר AI במסמך/ים הארכיוניים שתומכים בה. בלתי-ניתן למשא ומתן בעבודה אקדמית. מערכת מחקר ללא ייחוס מקור איננה מערכת מחקר; היא מכונת ניחוש.

ניקוד ביטחון (Confidence Score)

הערכה מספרית של מהימנותו של פלט OCR, תמלול או ישות שחולצה. קריטי לסינון: הדרך הזולה ביותר לדיוק כללי גבוה היא להשקיע סקירה אנושית רק בפלטים בעלי ביטחון נמוך.

Common Crawl

מאגר ענק של עמודי אינטרנט שנסרקו ופתוחים לציבור, שעליו אומנו רוב מודלי השפה הגדולים. אם האתר שלך מופיע ב-Common Crawl, מודל שאומן אחרי תאריך הסריקה הזה עשוי "להכיר" אותך. זהו אחד המנגנונים המעטים שבהם אתר הופך ל"ידוע" למערכות AI.

משאבים ומקורות היסטוריים

פנקס קהילה

ספר רישומים שניהלה קהילה יהודית עצמאית (קהילה), המתעד לידות, נישואים, פטירות, מסים, החלטות קהילתיות, צדקה וסכסוכים. מקור ראשוני לשחזור החיים היהודיים מהמאה ה-16 ועד ה-20. נכתב לרוב בעברית-יידיש מעורבת ובשפת המקום, ביד רבנית קשה. יעד מרכזי למערכות HTR.

ספר יזכור

ספר זיכרון שחיברו ניצולים לאחר השואה לקהילה יהודית שנחרבה — כולל שמות הנספים, הגיאוגרפיה של העיירה האבודה, רשמים ביוגרפיים ונרטיב היסטורי. עשרות אלפים פורסמו; רבים נותרו בלתי-מאונדקסים בחלקם. AI הופך אותם כעת לזמינים לחיפוש גלובלי לראשונה.

כתובה

חוזה נישואים יהודי, לעיתים מאויר באומנות, המתעד את בני הזוג, משפחותיהם, התאריך וההתחייבויות הכספיות של הבעל. מקור יסודי לגנאלוגיה ולהיסטוריה החברתית של הקהילות היהודיות. פענוח כתובות בקנה מידה דורש שילוב של HTR וניתוח חזותי.

יד ושם

מרכז ההנצחה העולמי לזכר השואה בירושלים, המחזיק בארכיון הגדול ביותר בעולם של תיעוד שואה וקרבנותיה. מאגר "דפי העד" לבדו כולל יותר מ-4.8 מיליון רישומים. AI מאיץ דרמטית עבודה על-פני האוסף הזה.

ארכיוני ארולסן (Arolsen Archives)

המרכז הבינלאומי לחקר רדיפות הנאצים בארולסן, גרמניה. מחזיק בכ-30 מיליון מסמכים על קרבנות הנאצים, כולל רשימות טרנספורט, רישומי מחנות ותיעוד ניצולים שלאחר המלחמה. יעד מרכזי למחקר AI חוצה-ארכיונים.

JewishGen

משאב מקיף לתולדות משפחה יהודיות, המארח מאגרים של תעודות, רשימות עולים, היסטוריות עיירות וקבוצות דיון על-פני רוב אזורי הגולה. סוכני AI הסורקים את JewishGen לצד ארכיונים נוספים פותחים גילויים משפחתיים חוצי-מקורות.

קורנט / זיטרלין (Kurrent / Sütterlin)

כתבי יד גרמניים שהיו בשימוש נרחב עד מלחה"ע ה-2 — קורנט מהמאה ה-16 ואילך, זיטרלין כפישוט במאה ה-20. כמעט בלתי-קריאים לדוברי גרמנית מודרנית ללא הכשרה. יעד HTR מובחן עם מאגר אימון סופי וברור.

איך להשתמש במילון הזה

המילון נועד לשלושה שימושים:

ראשית, למפה אוצר מילים משותפת עם לקוחות, חוקרים ומוסדות שעובדים איתי. שיחות על AI במחקר היסטורי כושלות לרוב כי הצדדים מתכוונים לדברים שונים כשהם אומרים "OCR" או "גרף ידע". ערכים סטנדרטיים מקצרים את אי-ההבנה הזו.

שנית, כמסמך מקור שאפשר להפנות אליו ממאמרים אחרים, ממכתבי הצעה ומסיכומי פגישות, בלי לשכפל הסברים בכל מסמך מחדש.

שלישית, כנקודת מוצא לתחקור — אם מונח חסר לכם או הסבר נראה מטעה, כתבו ל-[email protected]. המילון גדל עם שאלות הקוראים.

המילון יתעדכן מעת לעת. מונחים שיתווספו בגרסה הבאה כוללים: speculative decoding, multimodal embeddings, OCR-on-OCR (cross-engine validation), agentic research workflows ו-temporal entity resolution. אם משהו מהאלה רלוונטי לפרויקט שלכם — שמחתי לדבר.

שאלות נפוצות

מה ההבדל בין OCR ל-HTR?

OCR (זיהוי תווים אופטי) ממיר תמונת טקסט מודפס לתווים שניתנים לקריאה במחשב, ועובד היטב על טקסט מודפס נקי. HTR (זיהוי כתב-יד) הוא המקבילה לכתב יד, שבו צורות האותיות משתנות בין כותב, תקופה, אזור וכלי כתיבה. HTR הוא במהותו בעיית מידול-רצף ולא סיווג-תווים, ולכן בדרך כלל נדרש אימון מותאם ליד הספציפית.

מה זה RAG במחקר היסטורי מבוסס AI?

RAG (אחזור מידע מוגבר) משלב מערכת אחזור שמחפשת במסמכים אמיתיים עם מודל גנרטיבי שמחבר תשובות. במחקר היסטורי זהו ההבדל בין AI שהוזה ביוגרפיות סבירות-למראה לבין AI שעונה רק ממקורות שהוא יכול לצטט. צינור טיפוסי: שאילתה, embedding, חיפוש וקטורי, top-k קטעים, ואז המודל עונה עם מטא-דאטה של המקור והערות שוליים.

כמה מדויק HTR על כתב יד היסטורי?

מודלים מן המדף מוגבלים, אך אימון מותאם של מספר מאות שורות מיד מסוימת מעלה את הדיוק בדרך כלל מכ-60% ל-95% ומעלה. כתבים ישנים יותר, רב-כותבים או מיוחדים נותרים קשים יותר ועשויים לדרוש מודל לכל כותב.

מהו הסיכון הגדול ביותר בשימוש ב-AI למחקר היסטורי?

הזיה — הנטייה של מודל שפה לייצר פלט נשמע-בטוח אך מומצא עובדתית. היא ממותנת באמצעות RAG, ייחוס מקור, ניקוד ביטחון, פורמטים מובנים וביקורת אנושית בקטעי אי-ודאות, אך לעולם אינה נמחקת לחלוטין — רק נשלטת.

מהו embedding ואיך חיפוש סמנטי עובד?

Embedding הוא וקטור מספרי (לרוב 768–3072 ממדים) שמייצג את משמעות הקטע כך שמחשבים יכולים להשוות טקסטים. שני טקסטים על אותו אדם — גם בשפות שונות — מפיקים וקטורים סמוכים, מה שהופך חיפוש סמנטי על פני ארכיון לשאילתת מסד נתונים מהירה.