logo

אלגוריתם סיווג בלמידת מכונה

כידוע, ניתן לסווג את אלגוריתם למידת מכונה מפוקחת לאלגוריתם רגרסיה וסיווג. באלגוריתמי רגרסיה, חזינו את הפלט עבור ערכים רציפים, אבל כדי לחזות את הערכים הקטגוריים, אנחנו צריכים אלגוריתמי סיווג.

מהו אלגוריתם הסיווג?

אלגוריתם הסיווג הוא טכניקת למידה מפוקחת המשמשת לזיהוי הקטגוריה של תצפיות חדשות על בסיס נתוני אימון. בסיווג, תוכנית לומדת ממערך הנתונים או מהתצפיות הנתונות ולאחר מכן מסווגת תצפית חדשה למספר כיתות או קבוצות. כמו, כן או לא, 0 או 1, דואר זבל או לא דואר זבל, חתול או כלב, וכו' ניתן לקרוא לשיעורים כמטרות/תוויות או קטגוריות.

תוכנית פיתון פשוטה

שלא כמו רגרסיה, משתנה הפלט של סיווג הוא קטגוריה, לא ערך, כגון 'ירוק או כחול', 'פרי או חיה' וכו'. מאחר שאלגוריתם הסיווג הוא טכניקת למידה מפוקחת, לכן הוא לוקח נתוני קלט מסומנים, אשר פירושו שהוא מכיל קלט עם הפלט המתאים.

באלגוריתם סיווג, פונקציית פלט בדיד (y) ממופה למשתנה קלט (x).

 y=f(x), where y = categorical output 

הדוגמה הטובה ביותר של אלגוריתם סיווג ML היא אימייל גלאי דואר זבל .

המטרה העיקרית של אלגוריתם הסיווג היא לזהות את הקטגוריה של מערך נתונים נתון, ואלגוריתמים אלו משמשים בעיקר כדי לחזות את הפלט עבור הנתונים הקטגוריים.

ניתן להבין טוב יותר אלגוריתמי סיווג באמצעות התרשים שלהלן. בתרשים שלהלן, ישנן שתי מחלקות, מחלקה A ומחלקה B. למחלקות אלו תכונות דומות זו לזו ואינן דומות למחלקות אחרות.

אלגוריתם סיווג בלמידת מכונה

האלגוריתם שמיישם את הסיווג על מערך נתונים ידוע כמסווג. ישנם שני סוגים של סיווגים:

    מסווג בינארי:אם לבעיית הסיווג יש רק שתי תוצאות אפשריות, היא נקראת כמסווג בינארי.
    דוגמאות: כן או לא, זכר או נקבה, דואר זבל או לא דואר זבל, חתול או כלב וכו'.מסווג רב-מעמדי:אם לבעיית סיווג יש יותר משתי תוצאות, היא נקראת Multi-classifier.
    דוגמא: סיווגים של סוגי גידולים, סיווג סוגי מוזיקה.

לומדים בבעיות סיווג:

בבעיות הסיווג ישנם שני סוגי לומדים:

    לומדים עצלנים:Lazy Learner מאחסן תחילה את מערך ההדרכה ומחכה עד שהוא יקבל את מערך הבדיקה. במקרה של לומד עצל, הסיווג נעשה על בסיס הנתונים הקשורים ביותר המאוחסנים במערך ההדרכה. זה לוקח פחות זמן באימון אבל יותר זמן לתחזיות.
    דוגמא: אלגוריתם K-NN, חשיבה מבוססת מקרהלומדים להוטים:לומדים להוטים מפתחים מודל סיווג המבוסס על מערך נתונים להדרכה לפני קבלת מערך נתונים לבדיקה. בניגוד ללומדים עצלנים, לומד להוט לוקח יותר זמן בלמידה ופחות זמן בחיזוי. דוגמא: Decision Trees, Nave Bayes, ANN.

סוגי אלגוריתמי סיווג ML:

ניתן לחלק את אלגוריתמי הסיווג לקטגוריה בעיקר שתיים:

    מודלים ליניאריים
    • רגרסיה לוגיסטית
    • תמיכה במכונות וקטור
    מודלים לא ליניאריים
    • K-השכנים הקרובים ביותר
    • ליבה SVM
    • נאווה בייס
    • סיווג עץ החלטה
    • סיווג יער אקראי

הערה: נלמד את האלגוריתמים לעיל בפרקים מאוחרים יותר.

הערכת מודל סיווג:

לאחר השלמת המודל שלנו, יש צורך להעריך את הביצועים שלו; או שזה מודל סיווג או רגרסיה. אז להערכת מודל סיווג, יש לנו את הדרכים הבאות:

1. אובדן יומן או אובדן חוצה אנטרופיה:

  • הוא משמש להערכת הביצועים של מסווג, שהפלט שלו הוא ערך הסתברות בין 0 ל-1.
  • עבור מודל סיווג בינארי טוב, הערך של אובדן יומן צריך להיות קרוב ל-0.
  • הערך של אובדן יומן גדל אם הערך החזוי חורג מהערך בפועל.
  • אובדן היומן הנמוך יותר מייצג את הדיוק הגבוה יותר של המודל.
  • עבור סיווג בינארי, ניתן לחשב אנטרופיה צולבת כך:
 ?(ylog(p)+(1?y)log(1?p)) 

כאשר y= פלט בפועל, p= פלט חזוי.

2. מטריצת בלבול:

  • מטריצת הבלבול מספקת לנו מטריצה/טבלה כפלט ומתארת ​​את הביצועים של המודל.
  • זה ידוע גם בתור מטריצת השגיאה.
  • המטריצה ​​מורכבת מתוצאה של תחזיות בצורה מסוכמת, הכוללת מספר כולל של תחזיות נכונות ותחזיות שגויות. המטריצה ​​נראית כמו הטבלה הבאה:
חיובי בפועל שלילי בפועל
חיזוי חיובי נכון חיובי חיובי כוזב
חיזוי שלילי שלילי כוזב שלילי אמיתי
אלגוריתם סיווג בלמידת מכונה

3. עקומת AUC-ROC:

יצוק לתוך מיתר
  • עקומת ROC מייצגת עקומת מאפייני הפעלה של מקלט ו-AUC מייצג אזור מתחת לעקומה .
  • זהו גרף המציג את הביצועים של מודל הסיווג בספים שונים.
  • כדי להמחיש את הביצועים של מודל הסיווג הרב-מעמדי, אנו משתמשים בעקומת AUC-ROC.
  • עקומת ה-ROC משורטטת עם TPR ו-FPR, כאשר TPR (שיעור חיובי אמיתי) על ציר Y ו-FPR (שיעור חיובי כוזב) על ציר X.

השתמש במקרים של אלגוריתמי סיווג

ניתן להשתמש באלגוריתמי סיווג במקומות שונים. להלן כמה מקרי שימוש פופולריים באלגוריתמי סיווג:

  • איתור דואר זבל
  • זיהוי דיבור
  • זיהוי תאי גידול סרטניים.
  • סיווג סמים
  • זיהוי ביומטרי וכו'.