תחומי ידע

קטלוג נתונים ושושלת (Catalog & Lineage)

קטלוג עוזר למצוא נתונים. שושלת מראה מאיפה הגיעו ומה עברו בדרך.

מהו קטלוג נתונים

קטלוג נתונים הוא מאגר מטא-דאטה מרכזי ובר-חיפוש של כלל נכסי הנתונים בארגון. הוא מתעד איזה מידע קיים, היכן הוא מאוחסן, מה המבנה שלו ומה המשמעות העסקית שלו, ובכך מאפשר למשתמשים לגלות ולהבין נתונים. כמו חנות אונליין למידע, רק שמה ש"קונים" הוא גישה לנתון אמין.

מה קטלוג מודרני עושה

  • חיפוש וגילוי: איתור מהיר של נכסי נתונים, לעיתים במנוע חיפוש מבוסס שפה טבעית ו-AI.
  • פרופיל נתונים: תובנות אוטומטיות על איכות, מבנה ותוכן (התפלגות, כפילויות, חוסרים) כבר בשלב הגילוי.
  • תיוג וסיווג: סימון רגישות (למשל PII) ותיוג מטא-דאטה אוטומטי, שמאפשרים להחיל מדיניות בקרה.
  • שיתוף ידע: דירוג נתונים, הקצאת בעלות, מילון עסקי ושיתוף הקשרים בין צוותים.

שירות עצמי ודמוקרטיזציה של נתונים

היעד הוא לשבור ממגורות ולאפשר לעובדים, גם בלי רקע טכני, למצוא ולצרוך נתונים אמינים באופן עצמאי. גילוי בשירות עצמי (Self-Service Discovery) מוריד את התלות בצוותי IT מרכזיים, מקצר את הזמן להגעה לערך עסקי, ובונה תרבות נתונים בריאה. האיזון הנדרש: גישה רחבה לצד בקרה, כדי שדמוקרטיזציה לא תהפוך להפקרות.

מהי שושלת נתונים

שושלת (Lineage) היא תיעוד המסלול של הנתון: מנקודת האיסוף, דרך כל העיבודים והשינויים, ועד המערכות שצורכות אותו בפועל.

מקור עיבוד (ETL) מחסן נתונים דוח / מודל
שושלת מתעדת את מסלול הנתון מקצה לקצה, ומאפשרת לעקוב לאחור בכל נקודה.

רמת עמודה מול רמת טבלה

אפשר לתעד שושלת ברמות פירוט שונות. שושלת ברמת המערכת או הטבלה נותנת מבט-על על זרימת המידע בין מערכות. שושלת ברמת העמודה (Column-Level) יורדת לשדה הבודד: מאיפה בדיוק הגיעה העמודה הזו, אילו טרנספורמציות עברה, ואילו דוחות נשענים עליה. רמת הפירוט הזו קריטית להחלת בקרות נקודתיות ולהבנה מדויקת של השפעת שינויים.

שושלת אוטומטית מול ידנית

תיעוד ידני (קבצי אקסל, מסמכי אפיון) עתיר עבודה, מועד לטעויות אנוש ומתיישן מהר. פלטפורמות מודרניות מפיקות שושלת אוטומטית: הן סורקות לוגים ומנתחות שאילתות בזמן אמת, ומסיקות את המסלול מתוך השימוש בפועל. כך השושלת תמיד מעודכנת ומשקפת את המציאות, בלי תחזוקה ידנית.

למה שושלת קריטית: ארבעה תרחישים

  1. ניתוח השפעה (קדימה): לפני שמשנים עמודה במקור, רואים אילו דוחות ומודלים במורד הזרם ייפגעו, ומתאמים מראש.
  2. תחקור תקלות (אחורה): כשדוח נראה שגוי, עוקבים לאחור עד לנקודה המדויקת שבה נכנסה השגיאה, ומקצרים דרמטית את זמן הדיבוג.
  3. ציות וביקורת: מספקת לרגולטור ולמבקר ראיות מתועדות על מקור הנתונים ועל העיבודים שעבר (למשל לצורך רגולציה פיננסית).
  4. GDPR וזכות ההישכחות: כדי למחוק מידע אישי לפי דרישה, צריך לאתר את כל המערכות, מסדי הנתונים והגיבויים שאליהם המידע זלג. בלי שושלת, מחיקה מלאה היא ניחוש.
שתי השאלות שהן עונות עליהן: "איפה הנתון שאני צריך?" (קטלוג) ו"האם אפשר לסמוך עליו, ומאיפה הוא בא?" (שושלת).

שניהם בנויים על מטא-דאטה, ותומכים ישירות בדרישות הרגולציה ובניהול מחזור חיי הנתון.