CRISP-DM מייצג תהליך סטנדרטי חוצה תעשיות לכריית נתונים. מתודולוגיית CRISP-DM מספקת גישה מובנית לתכנון פרויקט כריית נתונים. זוהי מתודולוגיה חזקה ומוכחת היטב. אנחנו לא תובעים כל בעלות עליו. לא המצאנו את זה. אנו ממירים את המעשיות, הגמישות והשימושיות העוצמתיים שלה בעת שימוש באנליטיקה לפתרון בעיות עסקיות. זהו חוט הזהב שעובר כמעט בכל פגישת לקוח.
מודל זה הוא רצף אירועים אידיאלי. בפועל, משימות רבות יכולות לבצע בסדר שונה, ולרוב יהיה צורך לחזור למשימות קודמות ולחזור על פעולות מסוימות. המודל אינו מנסה ללכוד את כל המסלולים האפשריים בתהליך כריית הנתונים.
איך CRISP עוזר?
CRISP DM מספק מפת דרכים, היא נותנת לך שיטות עבודה מומלצות, והיא מספקת מבנים לתוצאות טובות יותר ומהירות יותר של שימוש בכריית נתונים, כך שכך היא עוזרת לעסק לעקוב בזמן תכנון וביצוע פרויקט כריית נתונים.
שלבים של CRISP-DM
CRISP-DM מספק סקירה כללית של מחזור החיים של כריית הנתונים כמודל תהליך. מודל מחזור החיים כולל שישה שלבים, עם חיצים המציינים את התלות החשובות והתכופות ביותר בין שלבים. רצף השלבים אינו קפדני. ורוב הפרויקטים נעים קדימה ואחורה בין שלבים לפי הצורך. דגם CRISP-DM גמיש וניתן להתאים אותו בקלות.
לדוגמה, אם הארגון שלך שואף לזהות הלבנת הון, סביר להניח שתסנן כמויות גדולות של נתונים ללא מטרת מודלים ספציפית. במקום מודלים, העבודה שלך תתמקד בחקר נתונים ובהדמיה כדי לחשוף דפוסים חשודים בנתונים פיננסיים. CRISP-DM מאפשר לך ליצור מודל כריית נתונים המתאים לצרכים שלך.
הוא כולל תיאורים של שלבים טיפוסיים של פרויקט, המשימות הכרוכות בכל שלב והסבר על היחסים בין המשימות הללו.
שלב 1: הבנה עסקית
השלב הראשון בתהליך CRISP-DM הוא להבין מה אתה רוצה להשיג מנקודת מבט עסקית. לארגון שלך עשויים להיות מטרות ואילוצים מתחרים שחייבים להיות מאוזנים כראוי. שלב תהליך זה נועד לחשוף גורמים חשובים המשפיעים על תוצאות הפרויקט. הזנחת שלב זה עשויה להיות מושקעת מאמץ רב ביצירת התשובות הנכונות לשאלות הלא נכונות.
מהן התפוקות הרצויות של הפרויקט?
להעריך את המצב הנוכחי
תור ב-java
זה כרוך במציאת עובדות מפורטת יותר לגבי המשאבים, האילוצים, ההנחות וגורמים אחרים שתצטרך לקחת בחשבון בעת קביעת יעד ניתוח הנתונים ותוכנית הפרויקט שלך.
- כוח אדם (מומחים עסקיים, מומחי נתונים, תמיכה טכנית, מומחי כריית נתונים)
- נתונים (תמציות קבועות, גישה לנתונים חיים, מאוחסנים או תפעוליים)
- משאבי מחשוב (פלטפורמות חומרה)
- תוכנה (כלי כריית נתונים, תוכנות רלוונטיות אחרות)
- מילון מונחים של מינוח עסקי רלוונטי מהווה חלק מההבנה העסקית העומדת לרשות הפרויקט. בניית מילון מונחים זה היא תרגיל שימושי של 'גיוס ידע' וחינוך.
- מילון מונחים של מינוח כריית נתונים מומחש עם דוגמאות רלוונטיות לבעיה העסקית.
קביעת יעדי כריית נתונים
יעד עסקי מציין יעדים בטרמינולוגיה עסקית. יעד כריית נתונים מציין את יעדי הפרויקט במונחים טכניים. לדוגמה, המטרה העסקית עשויה להיות הגדלת מכירות הקטלוג ללקוחות קיימים. יעד כריית נתונים עשוי להיות לחזות כמה ווידג'טים לקוח יקנה, בהתחשב ברכישות שלו בשלוש השנים האחרונות, מידע דמוגרפי (גיל, משכורת, עיר וכו') ומחיר הפריט.
הפקת תוכנית פרויקט
תאר את התוכנית המיועדת להשגת יעדי כריית הנתונים והיעדים העסקיים. התוכנית שלך צריכה לציין את השלבים שיש לבצע במהלך שאר הפרויקט, כולל הבחירה הראשונית של כלים וטכניקות.
1. תוכנית פרויקט: רשום את השלבים שיש לבצע בפרויקט, עם משך הזמן, המשאבים הנדרשים, התשומות, התפוקות והתלות שלהם. במידת האפשר, נסה להבהיר את האיטרציות בקנה מידה גדול בתהליך כריית הנתונים, למשל, חזרות על שלבי המודלים וההערכה.
כחלק מתוכנית הפרויקט, חשוב לנתח את התלות בין לוחות זמנים וסיכונים. סמן את תוצאות הניתוחים הללו במפורש בתוכנית הפרויקט, באופן אידיאלי עם פעולות והמלצות אם הסיכונים באים לידי ביטוי. החליטו באיזו אסטרטגיית הערכה תשמש בשלב ההערכה.
תוכנית הפרויקט שלך תהיה מסמך דינמי. בסוף כל שלב, תסקור את ההתקדמות וההישגים ותעדכן את תוכנית הפרויקט בהתאם. נקודות סקירה ספציפיות עבור עדכונים אלה צריכות להיות חלק מתוכנית הפרויקט.
שרוואננד
2. הערכה ראשונית של כלים וטכניקות: בסוף השלב הראשון, עליך לבצע הערכה ראשונית של כלים וטכניקות. לדוגמה, אתה בוחר בכלי כריית נתונים התומך בשיטות שונות לשלבים שונים של התהליך. חשוב להעריך כלים וטכניקות בשלב מוקדם של התהליך שכן בחירת הכלים והטכניקות עשויה להשפיע על הפרויקט כולו.
שלב 2: הבנת נתונים
השלב השני של תהליך CRISP-DM מחייב אותך לרכוש את הנתונים הרשומים במשאבי הפרויקט. איסוף ראשוני זה כולל טעינת נתונים אם הדבר נחוץ להבנת הנתונים. לדוגמה, אם אתה משתמש בכלי ספציפי להבנת נתונים, הגיוני לחלוטין לטעון את הנתונים שלך לכלי זה. אם אתה רוכש מספר מקורות נתונים, עליך לשקול כיצד ומתי תשלב אותם.
תאר נתונים
בחן את המאפיינים 'ברוטו' או 'פני השטח' של הנתונים הנרכשים ודווח על התוצאות.
חקור נתונים
במהלך שלב זה, תתייחס לשאלות כריית נתונים תוך שימוש בטכניקות שאילתות, הדמיית נתונים ודיווח. אלה עשויים לכלול:
אימוג'י אייפון באנדרואיד
- חלוקת תכונות מפתח
- קשרים בין זוגות או מספר קטן של תכונות
- תוצאות של צבירה פשוטה
- מאפיינים של תת אוכלוסיות משמעותיות
- ניתוחים סטטיסטיים פשוטים
ניתוחים אלה עשויים להתייחס ישירות ליעדי כריית הנתונים שלך. הם עשויים לתרום או לחדד את תיאור הנתונים ודוחות האיכות ולהיכנס לשלבי השינוי והכנת הנתונים האחרים הדרושים לניתוח נוסף.
בדוק את איכות הנתונים
בחן את איכות הנתונים תוך התייחסות לשאלות כגון:
- האם הנתונים מלאים, או שהם מכסים את כל המקרים הנדרשים?
- האם זה נכון, או שיש בו שגיאות, ואם יש שגיאות, עד כמה הן נפוצות?
- האם חסרים ערכים בנתונים? אם כן, כיצד הם מיוצגים, היכן הם מתרחשים ועד כמה הם נפוצים?
דוח איכות נתונים
רשום את התוצאות של אימות איכות הנתונים. אם קיימות בעיות איכות, הצע פתרונות אפשריים. פתרונות לבעיות איכות נתונים תלויים בדרך כלל בנתונים ובידע עסקי.
שלב 3: הכנת נתונים
בשלב הפרויקט הזה, אתה מחליט על הנתונים שבהם תשתמש לניתוח. הקריטריונים שבהם אתה עשוי להשתמש כדי לקבל החלטה זו כוללים את הרלוונטיות של הנתונים ליעדי כריית הנתונים שלך, איכות הנתונים ומגבלות טכניות כגון מגבלות על נפח נתונים או סוגי נתונים.
נקה את הנתונים שלך
משימה זו כוללת העלאת איכות הנתונים לרמה הנדרשת על ידי טכניקות הניתוח שבחרת. זה עשוי להיות כרוך בבחירת תת-קבוצות נקיות של הנתונים, הוספת ברירות מחדל מתאימות, או טכניקות שאפתניות יותר כמו הערכת נתונים חסרים על ידי מודלים.
בנה את הנתונים הנדרשים
משימה זו כוללת פעולות הכנת נתונים בונות כגון הפקת תכונות נגזרות, רשומות חדשות שלמות או ערכים שעברו טרנספורמציה עבור תכונות קיימות.
שילוב נתונים
שיטות אלו משלבות מידע ממספר מסדי נתונים, טבלאות או רשומות כדי ליצור רשומות או ערכים חדשים.
שלב 4: דוגמנות
בחר טכניקת דוגמנות: כשלב הראשון, תבחר את טכניקת הדוגמנות הבסיסית שבה תשתמש. למרות שאולי כבר בחרת כלי במהלך שלב ההבנה העסקית, בשלב זה, תבחר את טכניקת הדוגמנות הספציפית, למשל. בניית עץ החלטות עם C5.0 או יצירת רשתות עצביות עם התפשטות לאחור. אם מיושמות מספר טכניקות, בצע משימה זו בנפרד עבור כל טכניקה.
יצירת עיצוב בדיקה
מתג c#
לפני שאתה בונה מודל, עליך ליצור נוהל או מנגנון לבדיקת איכות המודל ותקפותו. לדוגמה, במשימות כריית נתונים מפוקחות כגון סיווג, מקובל להשתמש בשיעורי שגיאות כמדדי איכות עבור מודלים של כריית נתונים. לכן, בדרך כלל אתה מפריד את מערך הנתונים לקבוצות של רכבת ובדיקות, בונה את המודל על ערכת הרכבת, ומעריך את איכותו במערך הבדיקה הנפרד.
בניית דגם
הפעל את כלי הדוגמנות במערך הנתונים המוכן כדי ליצור מודל אחד או יותר.
הערכת מודל
פרש את המודלים לפי הידע שלך בתחום, קריטריוני ההצלחה של כריית נתונים ועיצוב הבדיקה הרצוי. שפוט את הצלחת היישום של טכניקות מידול וגילוי, ולאחר מכן צור קשר עם אנליסטים עסקיים ומומחי תחום מאוחר יותר כדי לדון בתוצאות כריית הנתונים בהקשר העסקי. משימה זו מתייחסת רק למודלים, בעוד ששלב ההערכה מתייחס גם לכל שאר התוצאות שהופקו במהלך הפרויקט.
בשלב זה יש לדרג את המודלים ולהעריך אותם לפי קריטריוני ההערכה. כדאי לשקול את היעדים העסקיים ואת קריטריוני ההצלחה ככל שתוכל כאן. ברוב הפרויקטים של כריית נתונים, טכניקה בודדת מיושמת יותר מפעם אחת, ותוצאות כריית נתונים נוצרות בכמה טכניקות שונות.
שלב 5: הערכה
העריכו את התוצאות שלכם: שלבי הערכה קודמים עסקו בגורמים כמו הדיוק והכלליות של המודל. במהלך שלב זה, תעריך את המידה שבה המודל עומד ביעדים העסקיים שלך ותבקש לקבוע אם יש סיבה עסקית כלשהי לכך שהמודל הזה לוקה בחסר. אפשרות נוספת היא לבדוק את המודל על יישומי בדיקה באפליקציה האמיתית אם מגבלות הזמן והתקציב מאפשרות זאת. שלב ההערכה כולל גם הערכת כל תוצאות כריית נתונים אחרות שיצרת. תוצאות כריית נתונים כוללות מודלים הקשורים בהכרח ליעדים העסקיים המקוריים ולכל שאר הממצאים שאינם קשורים בהכרח ליעדים העסקיים המקוריים, אך עשויים גם לחשוף אתגרים, מידע או רמזים נוספים לכיוונים עתידיים.
תהליך סקירה
בשלב זה, נראה שהמודלים המתקבלים משביעי רצון ומספקים את הצרכים העסקיים. כעת מתאים לך לעשות סקירה יסודית יותר של המעורבות בכריית נתונים כדי לקבוע אם יש גורם חשוב או משימה שאיכשהו התעלמו ממנו. סקירה זו מכסה גם בעיות של אבטחת איכות. לדוגמא: האם בנינו נכון את המודל? האם השתמשנו רק בתכונות שמותר לנו להשתמש בהן ושזמינות לניתוחים עתידיים?
קבע את השלבים הבאים
כעת אתה מחליט כיצד להמשיך בהתאם לתוצאות ההערכה ולסקירת התהליך. האם אתה מסיים את הפרויקט הזה ועובר לפריסה, ליזום איטרציות נוספות או להקים פרויקטים חדשים של כריית נתונים? כדאי גם לעשות חשבון נפש על המשאבים והתקציב הנותרים שלך, מה שעשוי להשפיע על ההחלטות שלך.
שלב 6: פריסה
תוכנית פריסה: בשלב הפריסה, תיקח את תוצאות ההערכה שלך ותקבע אסטרטגיה לפריסתן. אם זוהה הליך כללי ליצירת המודל/ים הרלוונטיים, הליך זה מתועד כאן לפריסה מאוחרת יותר. הגיוני לשקול את הדרכים והאמצעים לפריסה במהלך שלב ההבנה העסקית מכיוון שהפריסה היא קריטית להצלחת הפרויקט. זה המקום שבו ניתוח חזוי עוזר לשפר את הצד התפעולי של העסק שלך.
תכנון מעקב ותחזוקה
ניטור ותחזוקה הם נושאים חשובים אם תוצאת כריית הנתונים הופכת לחלק מהעסק השוטף וסביבתו. הכנה מדוקדקת של אסטרטגיית תחזוקה עוזרת למנוע תקופות ארוכות שלא לצורך של שימוש לא נכון בתוצאות כריית נתונים. הפרויקט זקוק לתוכנית תהליך ניטור מפורטת כדי לפקח על פריסת תוצאות כריית הנתונים. תוכנית זו לוקחת בחשבון את סוג הפריסה הספציפי.
הפקת דו'ח סופי
בסיום הפרויקט תכתוב דוח סופי. בהתאם לתוכנית הפריסה, דוח זה עשוי להיות רק סיכום של הפרויקט וחוויותיו (אם הם לא תועדו כבר כפעילות מתמשכת), או שהוא עשוי להיות הצגה סופית ומקיפה של תוצאת כריית הנתונים.
סקירת פרויקט
חינוך שלוקה מהטה
העריכו מה השתבש ומה השתבש, מה נעשה טוב ומה טעון שיפור.