logo

אשכולות בלימוד מכונה

Clustering או ניתוח אשכולות היא טכניקת למידת מכונה, המקבצת את מערך הנתונים ללא תווית. ניתן להגדיר זאת כ 'דרך לקבץ את נקודות הנתונים לאשכולות שונים, המורכבים מנקודות נתונים דומות. האובייקטים בעלי הדמיון האפשרי נשארים בקבוצה שיש לה פחות או אין דמיון עם קבוצה אחרת״.

הוא עושה זאת על ידי מציאת כמה דפוסים דומים במערך הנתונים ללא תווית כגון צורה, גודל, צבע, התנהגות וכו', ומחלק אותם לפי נוכחותם והעדרם של אותם דפוסים דומים.

זה למידה ללא פיקוח השיטה, ומכאן שלא מסופק פיקוח לאלגוריתם, והוא עוסק במערך הנתונים ללא תווית.

לאחר יישום טכניקת אשכול זו, כל אשכול או קבוצה מסופקים עם מזהה אשכול. מערכת ML יכולה להשתמש במזהה זה כדי לפשט את העיבוד של מערכי נתונים גדולים ומורכבים.

טכניקת האשכולות משמשת בדרך כלל עבור ניתוח נתונים סטטיסטי.

הערה: אשכול דומה למקום אלגוריתם סיווג , אבל ההבדל הוא בסוג מערך הנתונים שבו אנו משתמשים. בסיווג, אנו עובדים עם מערך הנתונים המסומן, בעוד שבאשכול, אנו עובדים עם מערך הנתונים ללא תווית.

דוגמא : בואו נבין את טכניקת האשכולות עם הדוגמה בעולם האמיתי של קניון: כאשר אנו מבקרים בקניון כלשהו, ​​אנו יכולים לראות שהדברים בעלי שימוש דומה מקובצים יחדיו. כמו החולצות מקובצות בחלק אחד, והמכנסיים נמצאים בחלקים אחרים, באופן דומה, בחלקי הירקות, תפוחים, בננות, מנגו וכו', מקובצים בחלקים נפרדים, כדי שנוכל לברר את הדברים בקלות. גם טכניקת האשכולות פועלת באותו אופן. דוגמאות נוספות לאשכולות הן קיבוץ מסמכים לפי הנושא.

מעדכן java

ניתן להשתמש בטכניקת האשכולות באופן נרחב במשימות שונות. כמה מהשימושים הנפוצים ביותר בטכניקה זו הם:

  • פילוח שוק
  • ניתוח נתונים סטטיסטיים
  • ניתוח רשתות חברתיות
  • פילוח תמונה
  • זיהוי אנומליות וכו'.

מלבד השימושים הכלליים הללו, הוא משמש את אֲמָזוֹנָה במערכת ההמלצות שלה לספק את ההמלצות לפי חיפוש מוצרים בעבר. נטפליקס גם משתמש בטכניקה זו כדי להמליץ ​​למשתמשים על הסרטים וסדרות האינטרנט בהתאם להיסטוריית הצפייה.

התרשים שלהלן מסביר את פעולתו של אלגוריתם האשכולות. אנו יכולים לראות את הפירות השונים מחולקים למספר קבוצות בעלות תכונות דומות.

אשכולות בלימוד מכונה

סוגי שיטות אשכולות

שיטות האשכול מחולקות באופן כללי ל מקבץ קשה (נקודת הנתונים שייכת לקבוצה אחת בלבד) ו מקבץ רך (נקודות נתונים יכולות להשתייך גם לקבוצה אחרת). אבל קיימות גם גישות שונות אחרות של Clustering. להלן שיטות האשכול העיקריות המשמשות למידת מכונה:

ddl לעומת dml
    חלוקה באשכולות אשכול מבוסס צפיפות אשכול מבוסס מודל הפצה אשכול היררכי אשכול מטושטש

חלוקה באשכולות

זהו סוג של אשכול המחלק את הנתונים לקבוצות לא היררכיות. זה ידוע גם בשם שיטה מבוססת מרכז . הדוגמה הנפוצה ביותר לאשכולות מחיצות היא אלגוריתם K-Means Clustering .

בסוג זה, מערך הנתונים מחולק לקבוצה של k קבוצות, כאשר K משמש להגדרת מספר הקבוצות המוגדרות מראש. מרכז האשכול נוצר בצורה כזו שהמרחק בין נקודות הנתונים של אשכול אחד הוא מינימלי בהשוואה למרכז אשכול אחר.

אשכולות בלימוד מכונה

אשכול מבוסס צפיפות

שיטת האשכולות מבוססת הצפיפות מחברת את האזורים הצפופים מאוד לאשכולות, וההפצות בצורת שרירותית נוצרות כל עוד ניתן לחבר את האזור הצפוף. אלגוריתם זה עושה זאת על ידי זיהוי אשכולות שונים במערך הנתונים ומחבר את אזורי הצפיפות הגבוהה לאשכולות. האזורים הצפופים במרחב הנתונים מחולקים זה מזה על ידי אזורים דלילים יותר.

אלגוריתמים אלו עלולים להיתקל בקושי בקיבוץ של נקודות הנתונים אם למערך הנתונים יש צפיפויות משתנות וממדים גבוהים.

אשכולות בלימוד מכונה

אשכול מבוסס מודל הפצה

בשיטת האשכול מבוססת מודל הפצה, הנתונים מחולקים על סמך ההסתברות לאופן שבו מערך נתונים שייך להתפלגות מסוימת. הקיבוץ נעשה על ידי הנחה של כמה התפלגויות בדרך כלל תפוצה גאוסית .

הדוגמה לסוג זה היא אלגוריתם ציפיות-מקסום אשכול שמשתמש במודלים של תערובת גאוסית (GMM).

אשכולות בלימוד מכונה

אשכול היררכי

ניתן להשתמש באשכולות היררכית כחלופה לאשכולות המחולקת מכיוון שאין דרישה לציון מראש של מספר האשכולות שייווצרו. בטכניקה זו, מערך הנתונים מחולק לאשכולות ליצירת מבנה דמוי עץ, הנקרא גם a דנדרוגרמה . ניתן לבחור את התצפיות או כל מספר של אשכולות על ידי כריתת העץ ברמה הנכונה. הדוגמה הנפוצה ביותר לשיטה זו היא אלגוריתם היררכי אגלומרטיבי .

c code abs
אשכולות בלימוד מכונה

אשכול מטושטש

אשכול מטושטש הוא סוג של שיטה רכה שבה אובייקט נתונים עשוי להשתייך ליותר מקבוצה או אשכול אחד. לכל מערך נתונים יש קבוצה של מקדמי חברות, התלויים במידת החברות להיות באשכול. אלגוריתם C-אמצעי מטושטש היא הדוגמה לסוג זה של מקבץ; לפעמים הוא ידוע גם בשם אלגוריתם ה-Fuzy k-means.

אלגוריתמי אשכולות

ניתן לחלק את האלגוריתמים של Clustering על סמך המודלים שלהם שהוסברו לעיל. ישנם סוגים שונים של אלגוריתמי אשכולות שפורסמו, אך רק מעטים נמצאים בשימוש נפוץ. אלגוריתם האשכולות מבוסס על סוג הנתונים שבהם אנו משתמשים. כמו למשל, אלגוריתמים מסוימים צריכים לנחש את מספר האשכולות במערך הנתונים הנתון, בעוד שחלקם נדרשים למצוא את המרחק המינימלי בין התצפית על מערך הנתונים.

כאן אנו דנים בעיקר באלגוריתמים פופולריים של Clustering שנמצאים בשימוש נרחב בלמידת מכונה:

    אלגוריתם K-Means:אלגוריתם k-means הוא אחד מאלגוריתמי האשכולות הפופולריים ביותר. הוא מסווג את מערך הנתונים על ידי חלוקת הדגימות לאשכולות שונים של שונות שוות. יש לציין את מספר האשכולות באלגוריתם זה. זה מהיר עם פחות חישובים נדרשים, עם המורכבות הליניארית של עַל). אלגוריתם משמרת ממוצעת:אלגוריתם משמרת ממוצעת מנסה למצוא את האזורים הצפופים בצפיפות החלקה של נקודות נתונים. זוהי דוגמה למודל מבוסס מרכז, שעובד על עדכון המועמדים למרכז להיות מרכז הנקודות בתוך אזור נתון.אלגוריתם DBSCAN:זה עומד לאשכול מרחבי מבוסס צפיפות של יישומים עם רעש . זוהי דוגמה למודל מבוסס צפיפות הדומה לשינוי הממוצע, אך עם כמה יתרונות בולטים. באלגוריתם זה, אזורי צפיפות גבוהה מופרדים על ידי אזורי צפיפות נמוכה. בשל כך, ניתן למצוא את האשכולות בכל צורה שרירותית.אשכול ציפיות-מקסום באמצעות GMM:אלגוריתם זה יכול לשמש כחלופה עבור אלגוריתם k-means או עבור אותם מקרים שבהם ניתן להיכשל ב-K-means. ב-GMM, ההנחה היא שנקודות הנתונים הן בחלוקה גאוסית.אלגוריתם היררכי אגלומרטיבי:האלגוריתם ההיררכי האגלומרטיבי מבצע את האשכול ההיררכי מלמטה למעלה. בכך, כל נקודת נתונים מטופלת כאשכול בודד בהתחלה ולאחר מכן מתמזגת ברציפות. ניתן לייצג את היררכיית האשכולות כמבנה עץ.הפצת זיקה:זה שונה מאלגוריתמי אשכולות אחרים מכיוון שהוא לא מצריך לציין את מספר האשכולות. בכך, כל נקודת נתונים שולחת הודעה בין צמד נקודות הנתונים עד להתכנסות. יש לו O(N2ט) מורכבות זמן, שהיא החיסרון העיקרי של אלגוריתם זה.

יישומים של אשכולות

להלן כמה יישומים ידועים של טכניקת אשכולות בלמידה חישובית:

    בזיהוי תאי סרטן:האלגוריתמים המקבצים נמצאים בשימוש נרחב לזיהוי תאים סרטניים. הוא מחלק את מערכי הנתונים הסרטניים והלא סרטניים לקבוצות שונות.במנועי חיפוש:מנועי החיפוש עובדים גם על טכניקת האשכולות. תוצאת החיפוש מופיעה על סמך האובייקט הקרוב ביותר לשאילתת החיפוש. הוא עושה זאת על ידי קיבוץ של אובייקטי נתונים דומים בקבוצה אחת הרחוקה מהאובייקטים השונים האחרים. התוצאה המדויקת של שאילתה תלויה באיכות האלגוריתם של האשכולות בשימוש.פילוח לקוחות:הוא משמש במחקר שוק כדי לפלח את הלקוחות על סמך בחירתם והעדפותיהם.בביולוגיה:הוא משמש בזרם הביולוגיה כדי לסווג מינים שונים של צמחים ובעלי חיים באמצעות טכניקת זיהוי תמונה.בשימוש קרקע:טכניקת האשכול משמשת בזיהוי השטח של שימוש בקרקעות דומות במסד הנתונים של GIS. זה יכול להיות מאוד שימושי כדי לגלות שלאיזו מטרה יש להשתמש בקרקע המסוימת, כלומר לאיזו מטרה היא מתאימה יותר.