Clustering או ניתוח אשכולות היא טכניקת למידת מכונה, המקבצת את מערך הנתונים ללא תווית. ניתן להגדיר זאת כ 'דרך לקבץ את נקודות הנתונים לאשכולות שונים, המורכבים מנקודות נתונים דומות. האובייקטים בעלי הדמיון האפשרי נשארים בקבוצה שיש לה פחות או אין דמיון עם קבוצה אחרת״.
הוא עושה זאת על ידי מציאת כמה דפוסים דומים במערך הנתונים ללא תווית כגון צורה, גודל, צבע, התנהגות וכו', ומחלק אותם לפי נוכחותם והעדרם של אותם דפוסים דומים.
זה למידה ללא פיקוח השיטה, ומכאן שלא מסופק פיקוח לאלגוריתם, והוא עוסק במערך הנתונים ללא תווית.
לאחר יישום טכניקת אשכול זו, כל אשכול או קבוצה מסופקים עם מזהה אשכול. מערכת ML יכולה להשתמש במזהה זה כדי לפשט את העיבוד של מערכי נתונים גדולים ומורכבים.
טכניקת האשכולות משמשת בדרך כלל עבור ניתוח נתונים סטטיסטי.
הערה: אשכול דומה למקום אלגוריתם סיווג , אבל ההבדל הוא בסוג מערך הנתונים שבו אנו משתמשים. בסיווג, אנו עובדים עם מערך הנתונים המסומן, בעוד שבאשכול, אנו עובדים עם מערך הנתונים ללא תווית.
דוגמא : בואו נבין את טכניקת האשכולות עם הדוגמה בעולם האמיתי של קניון: כאשר אנו מבקרים בקניון כלשהו, אנו יכולים לראות שהדברים בעלי שימוש דומה מקובצים יחדיו. כמו החולצות מקובצות בחלק אחד, והמכנסיים נמצאים בחלקים אחרים, באופן דומה, בחלקי הירקות, תפוחים, בננות, מנגו וכו', מקובצים בחלקים נפרדים, כדי שנוכל לברר את הדברים בקלות. גם טכניקת האשכולות פועלת באותו אופן. דוגמאות נוספות לאשכולות הן קיבוץ מסמכים לפי הנושא.
מעדכן java
ניתן להשתמש בטכניקת האשכולות באופן נרחב במשימות שונות. כמה מהשימושים הנפוצים ביותר בטכניקה זו הם:
- פילוח שוק
- ניתוח נתונים סטטיסטיים
- ניתוח רשתות חברתיות
- פילוח תמונה
- זיהוי אנומליות וכו'.
מלבד השימושים הכלליים הללו, הוא משמש את אֲמָזוֹנָה במערכת ההמלצות שלה לספק את ההמלצות לפי חיפוש מוצרים בעבר. נטפליקס גם משתמש בטכניקה זו כדי להמליץ למשתמשים על הסרטים וסדרות האינטרנט בהתאם להיסטוריית הצפייה.
התרשים שלהלן מסביר את פעולתו של אלגוריתם האשכולות. אנו יכולים לראות את הפירות השונים מחולקים למספר קבוצות בעלות תכונות דומות.
סוגי שיטות אשכולות
שיטות האשכול מחולקות באופן כללי ל מקבץ קשה (נקודת הנתונים שייכת לקבוצה אחת בלבד) ו מקבץ רך (נקודות נתונים יכולות להשתייך גם לקבוצה אחרת). אבל קיימות גם גישות שונות אחרות של Clustering. להלן שיטות האשכול העיקריות המשמשות למידת מכונה:
ddl לעומת dml
חלוקה באשכולות
זהו סוג של אשכול המחלק את הנתונים לקבוצות לא היררכיות. זה ידוע גם בשם שיטה מבוססת מרכז . הדוגמה הנפוצה ביותר לאשכולות מחיצות היא אלגוריתם K-Means Clustering .
בסוג זה, מערך הנתונים מחולק לקבוצה של k קבוצות, כאשר K משמש להגדרת מספר הקבוצות המוגדרות מראש. מרכז האשכול נוצר בצורה כזו שהמרחק בין נקודות הנתונים של אשכול אחד הוא מינימלי בהשוואה למרכז אשכול אחר.
אשכול מבוסס צפיפות
שיטת האשכולות מבוססת הצפיפות מחברת את האזורים הצפופים מאוד לאשכולות, וההפצות בצורת שרירותית נוצרות כל עוד ניתן לחבר את האזור הצפוף. אלגוריתם זה עושה זאת על ידי זיהוי אשכולות שונים במערך הנתונים ומחבר את אזורי הצפיפות הגבוהה לאשכולות. האזורים הצפופים במרחב הנתונים מחולקים זה מזה על ידי אזורים דלילים יותר.
אלגוריתמים אלו עלולים להיתקל בקושי בקיבוץ של נקודות הנתונים אם למערך הנתונים יש צפיפויות משתנות וממדים גבוהים.
אשכול מבוסס מודל הפצה
בשיטת האשכול מבוססת מודל הפצה, הנתונים מחולקים על סמך ההסתברות לאופן שבו מערך נתונים שייך להתפלגות מסוימת. הקיבוץ נעשה על ידי הנחה של כמה התפלגויות בדרך כלל תפוצה גאוסית .
הדוגמה לסוג זה היא אלגוריתם ציפיות-מקסום אשכול שמשתמש במודלים של תערובת גאוסית (GMM).
אשכול היררכי
ניתן להשתמש באשכולות היררכית כחלופה לאשכולות המחולקת מכיוון שאין דרישה לציון מראש של מספר האשכולות שייווצרו. בטכניקה זו, מערך הנתונים מחולק לאשכולות ליצירת מבנה דמוי עץ, הנקרא גם a דנדרוגרמה . ניתן לבחור את התצפיות או כל מספר של אשכולות על ידי כריתת העץ ברמה הנכונה. הדוגמה הנפוצה ביותר לשיטה זו היא אלגוריתם היררכי אגלומרטיבי .
c code abs
אשכול מטושטש
אשכול מטושטש הוא סוג של שיטה רכה שבה אובייקט נתונים עשוי להשתייך ליותר מקבוצה או אשכול אחד. לכל מערך נתונים יש קבוצה של מקדמי חברות, התלויים במידת החברות להיות באשכול. אלגוריתם C-אמצעי מטושטש היא הדוגמה לסוג זה של מקבץ; לפעמים הוא ידוע גם בשם אלגוריתם ה-Fuzy k-means.
אלגוריתמי אשכולות
ניתן לחלק את האלגוריתמים של Clustering על סמך המודלים שלהם שהוסברו לעיל. ישנם סוגים שונים של אלגוריתמי אשכולות שפורסמו, אך רק מעטים נמצאים בשימוש נפוץ. אלגוריתם האשכולות מבוסס על סוג הנתונים שבהם אנו משתמשים. כמו למשל, אלגוריתמים מסוימים צריכים לנחש את מספר האשכולות במערך הנתונים הנתון, בעוד שחלקם נדרשים למצוא את המרחק המינימלי בין התצפית על מערך הנתונים.
כאן אנו דנים בעיקר באלגוריתמים פופולריים של Clustering שנמצאים בשימוש נרחב בלמידת מכונה:
יישומים של אשכולות
להלן כמה יישומים ידועים של טכניקת אשכולות בלמידה חישובית: