ממסמכים לגילויים: בניית גרפי ידע מארכיונים היסטוריים
מסמך בודד מספר לך עובדה. אלף מסמכים, מחוברים כראוי, מספרים לך סיפור. מיליון מסמכים מקושרים חושפים דפוסים שאף חוקר בודד לא היה יכול לתפוס אי פעם. זו ההבטחה של גרפי ידע במחקר היסטורי.
מהו גרף ידע?
גרף ידע הוא ייצוג מובנה של ישויות והקשרים ביניהן. בהקשר של מחקר היסטורי:
- ישויות הם אנשים, מקומות, ארגונים, אירועים, מסמכים ותאריכים
- קשרים מתארים כיצד ישויות מתחברות: "גר ב-", "עבד עבור", "נסע ל-", "מוזכר ב-", "נשוי/ה ל-", "חיבר"
- מאפיינים מוסיפים פרטים: תאריכים, תפקידים, תיאורים, הפניות למקורות
בשונה ממאגר מידע מסורתי, גרף ידע מתוכנן לגילוי. הוא עונה לא רק על "מה אנחנו יודעים על אדם X?" אלא גם "מי עוד היה מקושר לאדם X, וכיצד, ומתי?"
מדוע ארכיונים צריכים גרפי ידע
ארכיונים היסטוריים מאורגנים לפי פרובננס — מהיכן הגיעו המסמכים — ולא לפי נושא. חוקר העוסק בקהילה מסוימת עשוי להזדקק להתייעצות עם:
- רשומות עירוניות בארכיון אחד
- פנקסי קהילה דתית בארכיון אחר
- מסמכים אישיים שנתרמו לאוניברסיטה
- רשומות בית משפט בארכיון אזורי
- אוספי עיתונים בספרייה לאומית
- רשומות הגירה במדינה אחרת לחלוטין
לכל ארכיון מערכת קטלוג משלו, מפתחות חיפוש משלו, ממשק חיפוש משלו. הצלבה ביניהם היא ידנית, איטית ותלויה בידיעת החוקר היכן לחפש.
גרף ידע מפרק את המחיצות הללו. ברגע שישויות מחולצות ממסמכים ממספר ארכיונים, הגרף מחבר אותן אוטומטית. אדם המוזכר ברישום לידה, רשומת מס, מניפסט אונייה ותיק הגירה הופך לצומת יחיד בגרף — עם קשתות המקשרות לכל אדם, מקום ואירוע אחר שהוזכר לצידו.
כיצד אנו בונים גרפי ידע
שלב 1: חילוץ ישויות
זיהוי ישויות מונחה (NER) מבוסס AI מזהה אנשים, מקומות, תאריכים, ארגונים ואירועים בתוך מסמכים מתומללים. עבור חומרים היסטוריים, נדרשים מודלים מיוחדים המאומנים על שפה ומוסכמות שמות התואמות את התקופה.
אתגרים כוללים:
- וריאנטים של שמות: אותו אדם עשוי להופיע כ"יוהאן", "יוהאנס", "יאן" או "יאנקל" בהתאם לשפת המסמך והקשרו
- שמות מקומות עמומים: ערים ששמן השתנה, גבולות שנמתחו מחדש, כפרים שכבר אינם קיימים
- ארגונים היסטוריים: מוסדות שמוזגו, פורקו או שינו שם במהלך עשרות שנים
- פורמטי תאריכים: לוח יוליאני מול גרגוריאני, תאריכים עבריים, תאריכים יחסיים ("שלוש שנים אחרי המלחמה")
שלב 2: זיהוי ישויות
לאחר חילוץ הישויות, AI חייב לקבוע אילו אזכורים מתייחסים לאותה ישות בעולם האמיתי. זהו זיהוי ישויות (Entity Resolution) — אחת הבעיות הקשות ביותר בעיבוד נתונים היסטוריים.
הגישה שלנו משלבת:
- דמיון מחרוזות: התאמה מטושטשת של שמות על פני מערכות תעתיק
- רמזים הקשריים: התאמה על בסיס ישויות המופיעות יחד (אותם בני משפחה, אותה כתובת, אותו מקצוע)
- מגבלות זמניות: אדם שנולד ב-1850 אינו יכול להופיע במסמך מ-1720
- סבירות גיאוגרפית: חיבור רשומות ממקומות שבהם ידוע שאדם חי או נסע דרכם
- ניקוד הסתברותי: כל התאמה פוטנציאלית מקבלת ציון ביטחון, ורק קישורים בעלי ביטחון גבוה נוצרים אוטומטית
שלב 3: חילוץ קשרים
מעבר לזיהוי ישויות, AI מנתח את הטקסט כדי לקבוע קשרים. תעודת נישואין מבססת קשר זוגי. פנייה במכתב חושפת קשרי משפחה. רישום עבודה מקשר אדם לארגון.
מודלי NLP מתקדמים יכולים לחלץ גם קשרים מרומזים: אם שני אנשים מופיעים כעדים על אותו מסמך שוב ושוב, סביר שהכירו זה את זה, גם אם המסמך לעולם אינו מציין זאת במפורש.
שלב 4: בניית הגרף והעשרתו
ישויות וקשרים שחולצו מורכבים למאגר גרף. הגרף מועשר אז עם:
- מקורות נתונים חיצוניים: Wikidata, GeoNames ומאגרי עזר אחרים מספקים מזהים מתוקננים והקשר נוסף
- שכבות זמניות: ניתן לבצע שאילתות בגרף לפי תקופת זמן, ולהציג כיצד רשתות התפתחו
- מטאדטה של ביטחון: כל קשת נושאת מידע פרובננס — איזה מסמך, איזה אלגוריתם, איזו רמת ביטחון
שלב 5: ויזואליזציה ושאילתות
חוקרים מתקשרים עם הגרף באמצעות:
- חקירה ויזואלית של רשת: ראה את הקשרים של אדם מקרינים כלפי חוץ, סנן לפי סוג קשר או תקופת זמן
- שאילתות בשפה טבעית: "הראה לי את כל האנשים שגרו בווילנה ולאחר מכן היגרו לארגנטינה בין 1900 ל-1930"
- זיהוי דפוסים: זיהוי קהילות, מסלולי הגירה, רשתות מקצועיות ואשכולות משפחתיים
- זיהוי חריגות: איתור פערים ברשומות המרמזים על מסמכים חסרים או ישויות שזוהו בטעות
מה גרפי ידע חושפים
דפוסי הגירה
על ידי חיבור רשומות עזיבה, מסמכי מעבר ורשומות הגעה בין מדינות, גרפי ידע ממפים מסלולי הגירה בקנה מידה אוכלוסייתי. חוקרים יכולים לראות לא רק שאנשים עברו מנקודה א' לנקודה ב', אלא אילו קהילות היגרו יחד, באילו מסלולים נעו וכיצד עבדה הגירת שרשרת.
רשתות חברתיות
רשתות חברתיות היסטוריות — מי הכיר את מי, מי עבד עם מי, מי הופיע בבית המשפט עם מי — צומחות באופן טבעי ממסמכים מחוברים. רשתות אלה חושפות מבני קהילה, גילדות מקצועיות, תנועות פוליטיות וברתיות משפחתיות שאף מסמך בודד לא יכול היה להראות.
היסטוריות מוסדיות
ארגונים משאירים עקבות במספר ארכיונים: מסמכי ייסוד, רשימות חברים, התכתבויות, רשומות משפטיות, סיקור עיתונאי. גרף ידע מרכיב עקבות אלה להיסטוריה מוסדית מלאה, ומראה כיצד ארגונים התפתחו, התפצלו, מוזגו והשפיעו זה על זה.
קשרים נסתרים
אולי המרגשים ביותר הם הקשרים שמפתיעים חוקרים. גרף ידע עשוי לחשוף ששני אנשים שנראו לא קשורים חלקו שותף עסקי, או שמסמך בארכיון אחד סותר או משלים מסמך בארכיון אחר. תגליות מקריות אלה הן מהות המחקר — וגרפי ידע הופכים אותן משיטתיות ולא מקריות.
הפלטפורמה של MF Smart Research
צינור גרפי הידע שלנו מתוכנן במיוחד עבור ארכיונים היסטוריים:
- NER רב-לשוני המאומן על מסמכים היסטוריים בעברית, אידיש, גרמנית, פולנית, רוסית ושפות נוספות
- זיהוי ישויות מטושטש המתמודד עם אתגרי וריאציית השמות והתעתיק הייחודיים לרשומות היסטוריות
- תשתית גרף סקלבילית שיכולה לגדול מאלפים למיליוני ישויות
- כלי שאילתות מוכווני מחקר המיועדים להיסטוריונים, לא למהנדסי מאגרי מידע
- מעקב פרובננס מלא כך שניתן לעקוב אחר כל חיבור בחזרה למסמך המקור
אנו מאמינים שעתיד המחקר ההיסטורי הוא מחובר. לא רק דיגיטלי, לא רק חפיש — אלא מקושר לרשת ידע שגדלה וחזקה יותר עם כל מסמך שנוסף.
מוכנים להפוך את הארכיון שלכם למשאב ידע מחובר? צרו קשר עם MF Smart Research כדי לדון כיצד טכנולוגיית גרפי ידע יכולה לשרת את המוסד שלכם.
