05/03/2026

RAG לארכיונים: שאל 10,000 מסמכים, קבל תשובות מצוטטות

דמיינו שאתם יושבים מול ארכיון המכיל 50,000 מסמכים המשתרעים על פני שלוש מאות. אתם צריכים למצוא כל אזכור של נתיב מסחרי מסוים, לזהות את כל הסוחרים המעורבים ולעקוב אחר התפתחות יחסי המסחר לאורך זמן. בשיטות מסורתיות, פרויקט כזה היה גוזל שנים. עם טכנולוגיית RAG, זה לוקח ימים.

מהו RAG?

RAG (יצירה מוגברת באחזור - Retrieval Augmented Generation) היא ארכיטקטורת AI המשלבת שתי יכולות עוצמתיות:

  1. אחזור: חיפוש חכם באוספי מסמכים גדולים, מציאת קטעים רלוונטיים על בסיס משמעות ולא רק מילות מפתח
  2. יצירה: שימוש במודל שפה גדול (LLM) לסינתזה של מידע שנאחזר לתשובות קוהרנטיות ומדויקות עם ציטוט מקורות

בשונה מחיפוש מילות מפתח פשוט, RAG מבין מה אתם שואלים. כשאתם שואלים "מה הייתה ההשפעה הכלכלית של גל ההגירה של 1882?", המערכת לא רק מחפשת את המילים המדויקות האלו — היא מוצאת קטעים רלוונטיים על תעסוקה, דיור, מסחר ושירותים חברתיים הקשורים לתקופת הגירה זו.

מדוע RAG הוא שינוי כללי המשחק למחקר היסטורי

מעבר לחיפוש מילות מפתח

חיפוש ארכיוני מסורתי דורש מכם לדעת בדיוק אילו מונחים מופיעים במסמכים. אבל שפה היסטורית מתפתחת. מסמך מהמאה ה-19 עשוי להתייחס ל"שחפת" כ"מחלת הריאות", או ל"ארץ ישראל" כ"פלשתינה". ההבנה הסמנטית של RAG מגשרת על פערים לשוניים אלו אוטומטית.

סינתזה חוצת-מסמכים

התובנות ההיסטוריות היקרות ביותר צומחות לעיתים קרובות מחיבור מידע המפוזר במסמכים מרובים. RAG מצטיין בכך — הוא יכול לזהות שאדם המוזכר ברשומת בית משפט מ-1905 הוא אותו אדם הרשום במפקד אוכלוסין של 1898, רשימת נוסעי אוניה מ-1903 ומדריך עסקי מ-1910, גם כשהשמות מאוייתים שונה.

הבנה רב-לשונית

ארכיונים היסטוריים מכילים לעיתים קרובות מסמכים במספר שפות. אוסף אחד עשוי לכלול התכתבויות בגרמנית, רשומות רשמיות ברוסית, מסמכים קהילתיים בעברית והערות אישיות ביידיש. מערכות RAG יכולות לחפש בכל השפות האלו בו-זמנית, ולהחזיר תוצאות רלוונטיות ללא קשר לשפת השאילתה.

שימור ייחוס מקורות

בשונה מצ'אטבוטים גנריים של AI שמייצרים מידע שנשמע אמין אך עלול להיות לא מדויק, מערכות RAG מבססות כל תשובה על מסמכי מקור ספציפיים. כל טענה ניתנת לאיתור חזרה למסמך המקורי, לעמוד ולקטע — תוך שמירה על הקפדנות האקדמית שמחקר היסטורי דורש.

כיצד MF Smart Research מיישמת RAG

צינור קליטת מסמכים

התהליך שלנו מתחיל בהכנת מסמכים מקיפה:

  1. OCR באיכות גבוהה ממיר מסמכים סרוקים לטקסט בר-חיפוש
  2. סיווג מסמכים מזהה סוגי מסמכים (מכתבים, רשומות, דוחות וכו')
  3. חילוץ ישויות מזהה אנשים, מקומות, תאריכים וארגונים
  4. מיפוי יחסים מחבר ישויות בין מסמכים
  5. יצירת הטמעות יוצרת ייצוגים סמנטיים לאחזור חכם

בסיסי ידע מותאמים אישית

אנחנו בונים מערכות RAG מותאמות לכל ארכיון או פרויקט מחקר. זה אומר שה-AI מבין את הטרמינולוגיה הספציפית, מוסכמות השמות ומבני המסמכים של האוסף שלכם.

ממשק מחקר אינטראקטיבי

חוקרים מתקשרים עם המערכת באמצעות שאילתות בשפה טבעית:

  • "מי שימש כמנהיגי קהילה בקרקוב בין 1850 ל-1900?"
  • "אילו מוצרי מסחר יובאו דרך נמל יפו בתקופה העות'מנית?"
  • "מצא את כל ההתייחסויות למוסדות חינוך במסמכים הגליציאניים"

כל תשובה מגיעה עם ציטוטים ספציפיים, המאפשרים לחוקרים לאמת ולחקור הלאה.

ניהול ידע מוסדי

RAG אינו רק לארכיונים היסטוריים. ארגונים משתמשים במערכות שלנו כדי:

  • לפתוח זיכרון מוסדי: עובדים ותיקים פורשים, אבל הידע שלהם לא חייב לעזוב איתם
  • לייעל מחקר: חברי צוות חדשים יכולים לגשת מיד לעשורים של ידע ארגוני
  • ליידע קבלת החלטות: מקבלי מדיניות יכולים לשאול על תקדימים היסטוריים ותוצאותיהם
  • ציות וביקורת: איתור מהיר של מסמכים ספציפיים בארכיונים מוסדיים עצומים

היתרון האקדמי

לחוקרים אקדמיים, RAG מציע יכולות שמרחיבות מהותית את מה שאפשרי:

  • האצת סקירת ספרות: סקירה של אלפי מקורות ראשוניים בימים במקום בחודשים
  • בדיקת השערות: בדיקה מהירה האם ראיות תומכות או סותרות טיעון היסטורי
  • ניתוח השוואתי: זיהוי דפוסים בין תקופות זמן, אזורים או קהילות שונים
  • גילוי קשרים: מציאת יחסים בלתי צפויים בין אירועים, אנשים ומוסדות

איך מתחילים

בין אם אתם ארכיון שרוצה להנגיש את האוסף שלו, חוקר המתמודד עם שאלה היסטורית מורכבת, או מוסד שרוצה לפתוח את הידע הארגוני שלו, טכנולוגיית RAG יכולה לעזור.

הטכנולוגיה קיימת היום כדי לשנות את הדרך שבה אנו מתקשרים עם רשומות היסטוריות. השאלה היא לא האם לאמץ אותה, אלא כמה מהר תוכלו להתחיל.


מוכנים לפתוח את הארכיון שלכם עם טכנולוגיית RAG? צרו קשר עם MF Smart Research כדי לחקור את האפשרויות.

שאלות נפוצות

מה זה RAG ובמה הוא שונה מחיפוש רגיל?

RAG (Retrieval-Augmented Generation) משלב חיפוש וקטורי במסמכים שלך עם LLM שמסנתז תשובות מהקטעים שאוחזרו. שלא כמו חיפוש מילות מפתח, הוא מבין שאלות בשפה טבעית. שלא כמו צ׳אטבוט כללי, כל תשובה מבוססת במסמכים הספציפיים שלך עם ציטוטים.

האם RAG יכול לעשות הזיות? איך מאמתים תשובות?

RAG מפחית משמעותית הזיות כי ה-LLM מוגבל לקטעים שאוחזרו — אבל הוא עדיין יכול לפרש שגוי הקשר או לשלב מקורות לא נכון. ההגנה היא ציטוט מקורות: כל טענה מקושרת לקטע שממנו הגיעה, ומאפשרת לחוקרים לאמת תוך שניות במקום דקות.

כמה עולה להגדיר RAG ל-10,000 מסמכים היסטוריים?

עלויות embedding ואחסון הן בדרך כלל חד-פעמיות של 50-200$ ל-10,000 מסמכים. עלויות שאילתה שוטפות נעות בין 0.01-0.05$ לשאלה במודלים מובילים. הגדרה מותאמת, הכנת מסמכים, ובקרות גישה מוסיפות בדרך כלל 3,000-15,000$ בהתאם לסיבוכיות המסמכים ועומק האינטגרציה.

כמה זמן לוקח להכניס ארכיון גדול למערכת RAG?

למסמכי טקסט שנולדו דיגיטליים — שעות. לסריקות ארכיון שדורשות OCR קודם, תכנן 1-3 שבועות ל-10,000 עמודים כולל OCR, ניתוח פריסה, וחיתוך לחתיכות. ארכיונים רב-לשוניים או בכתב יד יכולים לקחת 2-3 פעמים יותר זמן בגלל בקרת איכות של ה-OCR.

אילו שאלות RAG מטפל בהן טוב ואילו פחות?

RAG מצטיין בחיפושי עובדות, זיהוי מקורות, ומציאת קטעים בנושאים ספציפיים. הוא מטפל פחות טוב ב: צבירת סטטיסטיקות על אלפי מסמכים, זיהוי אירוניה או סרקזם במקורות היסטוריים, ומענה על שאלות לגבי מה שלא קיים בארכיון. לצבירה, שלב RAG עם שאילתות מובנות; להעדרות, התייחס לתשובות כנקודות פתיחה לאימות אנושי.