איכות נתונים (Data Quality)
נתון איכותי הוא נתון שמתאים למטרה שלשמה נועד. מודדים זאת בששה ממדים.
מהי איכות נתונים
איכות נתונים נמדדת במידת ההתאמה של הנתון למטרה (Fit for Purpose) ובעמידתו בציפיות של צרכני המידע. במקום "טוב" או "רע", מודדים אותה בששה ממדים מוחשׁיים.
| ממד | מה הוא בודק | דוגמה |
|---|---|---|
| דיוק | המידה שבה הנתון משקף נכון את האובייקט או האירוע בעולם האמיתי. | כתובת המגורים של הלקוח נכונה ועדכנית. |
| שלמות | האם כל השדות הנדרשים קיימים, בלי חוסרים. | שדה חובה כמו 'מספר טלפון' מולא בטופס הרישום. |
| עקביות | אותו מידע מיוצג באופן אחיד בין מערכות ודוחות, בלי סתירות. | מזהה הלקוח זהה ב-CRM וב-ERP. |
| עדכניות | הנתון מעודכן וזמין בזמן הנדרש לקבלת ההחלטה. | מצב המלאי מתעדכן בכל שעה; נתוני בורסה בשבריר שנייה. |
| תקֵפות | התאמה לכללי הפורמט, הסוג והטווח שהוגדרו. | כתובת אימייל בפורמט תקין עם @ וסיומת הגיונית. |
| ייחודיות | כל ישות מיוצגת פעם אחת בלבד, בלי רשומות כפולות. | אין שתי רשומות לאותו לקוח במסד הנתונים. |
פרופיל נתונים: להכיר את הנתון לפני שמתקנים
פרופיל נתונים (Data Profiling) הוא ניתוח סטטיסטי שבוחן את המבנה, התוכן ורמת האיכות האמיתית של הנתונים. זה הצעד הראשון, עוד לפני כל ניקוי, כי אי אפשר לתקן מה שלא מבינים. פרופיל טוב בודק, בין היתר:
- ספירת ערכים חסרים (Nulls), כדי לדעת אם הם תקינים עסקית או מצביעים על חוסר.
- ערכי מינימום ומקסימום וחריגות באורך השדה (למשל טקסט ארוך מדי בשדה מוגבל).
- התפלגות תדירות של ערכים, לבדיקת הגיוניות (למשל התפלגות קידומות מדינה).
- סוג הנתון והפורמט, לאיתור חריגות כמו אותיות בשדה מספרי.
- קשרים ותלויות בין עמודות שונות.
איך משפרים: למנוע עדיף על לתקן
שיפור איכות מתחיל בטיפול בגורם השורש, לא בסימפטום. את הבקרות מחלקים לשני סוגים, ולכל אחד תפקיד אחר.
בקרה מונעת (Preventive)
חוסמת נתון שגוי כבר בכניסה, לפני שהוא מזהם את המערכת. זו הדרך היעילה והזולה ביותר. לדוגמה: רשימות נפתחות במקום שדות טקסט חופשי, כללי אימות בטופס, הדרכת מזיני הנתונים, ותהליכי בקרת שינויים מסודרים.
בקרה מגלה ומתקנת (Detective & Corrective)
פועלת אחרי שהבעיה כבר קרתה: פרופיל ותהליכי ניקוי (Cleansing) שמאתרים ומתקנים שגיאות קיימות. מכיוון שתיקון בדיעבד יקר, השאיפה היא לנתח את גורם השורש בכל תיקון, כדי להפוך אותו בעתיד לבקרה מונעת.
מדידה: Scorecard ומדדי איכות
מה שלא מודדים, לא משתפרים. כרטיס ניקוד לאיכות נתונים (Scorecard) מאגד את מדדי האיכות לתצוגה אחת שמאפשרת להנהלה לנטר מגמות. לכל חוק איכות מגדירים רף מינימלי לקבלה, ועוקבים אחר אחוז הרשומות שעוברות אותו. מדדים נפוצים:
- שיעור הדיוק (Accuracy rate)
- אחוז השלמות (Completeness)
- אחוז הרשומות הכפולות (Duplicate rate)
- שיעור שגיאות האימות (Validation error rate)
הערך האמיתי הוא במגמה לאורך זמן: האם האיכות משתפרת או נשחקת.
מי אחראי: נאמן הנתונים
נאמן הנתונים (Data Steward) הוא לרוב מומחה תוכן שמקבל אחריות יומיומית על האיכות בתחום העסקי שלו. הוא אוכף את המדיניות ופותר בעיות בזמן אמת, מגדיר את מילון המונחים ואת חוקי האיכות, ומנהל את החריגים: כשמתגלה נתון פגום, הוא מזהה את גורם השורש וממליץ על דרך תיקון.
המחיר של איכות ירודה
איכות נתונים ירודה היא לא מטרד טכני, אלא עלות עסקית. לפי הערכת גרטנר, היא עולה לארגון בממוצע בין 12 ל-15 מיליון דולר בשנה. מעבר למספרים, הנזק מתבטא ב:
- נזק תפעולי: חשבוניות שגויות, אובדן הכנסות מהזדמנויות שפוספסו, והחלטות שגויות על בסיס מידע פגום.
- חוסר יעילות: עבודת תיקון חוזרת (Rework) ועלייה בפניות לשירות הלקוחות.
- סיכון ומוניטין: פגיעה במותג וחשיפה לקנסות רגולטוריים.
איכות מסורתית מול Data Observability
איכות הנתונים הקלאסית פותחה לעידן של מחסני נתונים מרכזיים ועיבוד ETL. היא נשענת על "צילום מצב" סטטי של נתונים במנוחה, ותיקון בדיעבד. בסביבות מודרניות ומבוזרות (Data Lakes, ענן וסטרימינג) הגישה הזו לא מספיקה.
Data Observability היא גישה פרואקטיבית מעולם ה-DataOps, שמנטרת את הנתונים בתנועה תוך כדי זרימתם בצינורות (Pipelines), ומתריעה על כשלים בזמן אמת לפני שהם מגיעים לצרכן הקצה. במקום חוקים שנכתבים מראש, היא לומדת את ההתנהגות התקינה של הנתונים בעזרת ML ומזהה חריגות אוטומטית.
חמשת עמודי התצפיתיות
הניטור מתבסס על חמישה ממדים:
- טריות (Freshness): האם הנתון עדכני, או שהפסיק להתעדכן?
- נפח (Volume): האם כמות הרשומות תקינה, או שיש קפיצה או צניחה חריגה?
- סכמה (Schema): האם המבנה השתנה, למשל עמודה שנמחקה או סוג שהשתנה?
- התפלגות (Distribution): האם הערכים בטווח ההגיוני, או שיש סטייה?
- שושלת (Lineage): מאיפה הגיע הנתון, ואילו דוחות יושפעו מתקלה?
איכות נשענת על הגדרות מוסכמות שמגיעות מניהול מטא-דאטה, מוזנת לנתוני-אב כדי לייצר רשומת אמת אחת, ומיושמת בעזרת כלי איכות נתונים ייעודיים.