כשהמודל לא בטוח: ניקוד ביטחון וקליברציה ב-OCR לכתב יד — מקרה בוחן
המשך מעשי למדריך ה-OCR שלנו, מתוך פרויקט שהסתיים החודש.
במדריך ה-OCR שלנו כתבנו ש"ספק שמדווח 96% דיוק בלי להראות לכם את מאגר הבדיקה — מבלף". הפוסט הזה הוא הצד השני של אותו מטבע: מה באמת עומד מאחורי מספר דיוק, ולמה ניקוד ביטחון מכויל שווה יותר מאחוז דיוק גבוה אבל עיוור. נעשה את זה דרך מקרה בוחן אמיתי מפרויקט שהסתיים החודש — קריאה אוטומטית של טפסי שדה בכתב יד עברי.
הבעיה: לא כל זיהוי שווה
נקודת המוצא הייתה ערכה של 32 תמונות סרוקות, כל אחת עם כתב יד עברי מעורב במספרים, קיצורים ומונחים מקצועיים. מודל ראייה יחיד החזיר 158 זיהויים. ברמת המאקרו, "דיוק" של 78% נשמע סביר. אבל 78% דיוק על 158 פריטים פירושו 35 טעויות מפוזרות — ואם אתה לא יודע אילו 35, אתה חייב לבדוק ידנית את כל ה-158. הדיוק הגלובלי לא חסך כלום בעבודת הסקירה.
הלקוח לא צריך "78% דיוק". הוא צריך לדעת על אילו פריטים אפשר לסמוך בלי בדיקה ואילו דורשים עין אנושית. זו לא שאלה של דיוק ממוצע — זו שאלה של ביטחון מכויל לכל פריט.
העיקרון: קריאה כפולה-עיוורת
הצעד הראשון היה להפסיק להסתמך על מודל אחד. הרצנו את אותה תמונה בשני מודלי ראייה עצמאיים — אחד ממשפחת Gemini, אחד ממשפחת Claude — בלי שאף אחד מהם רואה את פלט השני. זה מה שאנחנו מכנים קריאה כפולה-עיוורת (dual-blind).
הרעיון פשוט וחזק: כששני מודלים שאומנו על נתונים שונים, בארכיטקטורות שונות, קוראים את אותו שרבוט ומגיעים לאותה תוצאה — ההסכמה הזו היא אות עצמאי וחזק לנכונות. כששניהם נחלקים, יש לך דגל אדום אוטומטי בלי שאדם נגע בעמוד. הסכמה בין שני קוראים בלתי-תלויים היא בדיוק מה שארכיונאים עושים ידנית כבר מאה שנה — רק שעכשיו זה רץ בקנה מידה.
נוסחת הביטחון
ההסכמה לבדה לא מספיקה — שני מודלים יכולים לטעות באותה צורה. לכן בנינו ציון ביטחון מורכב לכל זיהוי, משלושה אותות בלתי-תלויים:
- ביטחון הראייה (≈50%) — כמה כל מודל בטוח בקריאה החזותית של התו עצמו.
- תמיכת מילון (≈40%) — האם המילה התקבלה מול אוצר מילים מובנה (במקרה הזה כ-2,200 מונחים מהתחום). מילה שקיימת במילון מקצועי מקבלת חיזוק; רצף אקראי של אותיות נענש.
- בונוס הסכמה — חיזוק כשהקריאה הכפולה-עיוורת מתכנסת לאותה תוצאה.
הפלט אינו "נכון/לא נכון" אלא ציון רציף, שמאפשר לחלק כל זיהוי לאחד משלושה דליים: ביטחון גבוה (≥80%), בינוני, ונמוך. בערכה שלנו זה התפלג ל-83 פריטים בביטחון גבוה, 52 בינוני ו-29 נמוך.
החלק שאף אחד לא עושה: קליברציה
כאן רוב הפרויקטים נעצרים — בונים ציון ביטחון, ומניחים שהוא אומר משהו. הוא לא, עד שמכיילים אותו מול אמת יסוד.
קליברציה פירושה: לקחת ערכה מתומללת ידנית, ולשאול — מבין הפריטים שהמודל סימן "ביטחון גבוה", כמה באמת נכונים? כשבדקנו, הקטגוריה ה"ודאית" ההתחלתית הייתה נכונה רק ב-56%. כלומר כמעט מחצית ממה שהמערכת הכריזה כ"בטוח" היה שגוי. ציון ביטחון לא מכויל גרוע מאין ציון — כי הוא מטעה.
הכיול עצמו לא דרש אימון מודל חדש. הוא דרש למצוא את הסף הנכון: באיזו רמת ביטחון, ובאילו תנאים, הקטגוריה "ודאי" באמת מחזיקה את ההבטחה? שתי החמרות עשו את ההבדל:
- דרישת הסכמה מלאה — רק פריטים ששני המודלים קראו זהה (מרחק עריכה אפס) נכנסים ל"ודאי".
- העלאת סף הראייה — לסנן את הפריטים שבהם אפילו מודל בודד היסס.
עם הסף המכויל, הדיוק של הקטגוריה ה"ודאית" עלה ל-90%, ובמסלול ביניים ל-84%. לא שינינו את המודל. שינינו רק את ההגדרה של "ודאי" — והפכנו מספר חסר-משמעות למספר שאפשר לבנות עליו תהליך עבודה.
למה זה משנה ללקוח
ההבדל המעשי הוא בעבודת הסקירה האנושית:
| גישה | מה הלקוח מקבל | סקירה ידנית נדרשת |
|---|---|---|
| מודל יחיד, 78% דיוק גלובלי | מספר אחד, בלי לדעת איפה הטעויות | כל 158 הפריטים |
| ביטחון מכויל, סף "ודאי" 90% | 3 דליים מתועדפים לפי ביטחון | בעיקר 29 הפריטים בביטחון נמוך |
זה הופך פרויקט מ"בדקו הכל כי אי אפשר לדעת" ל"בדקו את ה-18% שהמערכת עצמה מסמנת כספק". זה ההבדל בין AI שמייצר עבודה לבין AI שחוסך עבודה.
שלושה לקחים שאפשר לקחת לכל פרויקט OCR
- דיוק גלובלי הוא מדד שיווקי, לא מדד תפעולי. מה שקובע את העלות בפועל הוא כמה עמודים אדם צריך לסקור — וזה תלוי בביטחון מכויל, לא באחוז הממוצע.
- שני קוראים חלשים בלתי-תלויים שווים יותר מקורא חזק יחיד. הסכמה היא אות בחינם. אי-הסכמה היא דגל אדום בחינם. נצלו את שניהם.
- ציון ביטחון בלי קליברציה הוא קישוט. הכלל היחיד שחשוב: לפני שאתם מבטיחים ללקוח ש"ודאי" אומר משהו, הוכיחו את זה מול ערכה מתומללת ידנית — והזיזו את הסף עד שההבטחה מתקיימת.
מאיפה ממשיכים מכאן
אם יש לכם ערמת מסמכים והשאלה היא לא רק "האם AI יקרא את זה" אלא "באילו זיהויים נוכל לסמוך בלי לבדוק כל אחד" — זו בדיוק העבודה שאנחנו עושים. שיחת תיאום של 30 דקות, ערכה מייצגת, וקליברציה שקופה מול אמת יסוד — ונדע יחד אם, ובאיזה היקף, זה עובד אצלכם.
