logo

היפרפרמטרים בלמידת מכונה

היפרפרמטרים בלמידת מכונה הם אותם פרמטרים המוגדרים במפורש על ידי המשתמש כדי לשלוט בתהליך הלמידה. היפרפרמטרים אלו משמשים לשיפור הלמידה של המודל, והערכים שלהם נקבעים לפני תחילת תהליך הלמידה של המודל.

היפרפרמטרים בלמידת מכונה

בנושא זה, אנו הולכים לדון באחד המושגים החשובים ביותר של למידת מכונה, כלומר היפרפרמטרים, הדוגמאות שלהם, כוונון היפרפרמטרים, קטגוריות של היפרפרמטרים, במה ההיפרפרמטר שונה מפרמטר בלמידת מכונה? אבל לפני שמתחילים, בואו נבין תחילה את ההיפרפרמטר.

מהם היפרפרמטרים?

ב- Machine Learning/Deep Learning, מודל מיוצג על ידי הפרמטרים שלו. לעומת זאת, תהליך אימון כרוך בבחירת ההיפרפרמטרים הטובים/אופטימליים המשמשים על ידי לימוד אלגוריתמים כדי לספק את התוצאה הטובה ביותר. אז מה הם ההיפרפרמטרים האלה? התשובה היא, ' היפרפרמטרים מוגדרים כפרמטרים המוגדרים במפורש על ידי המשתמש כדי לשלוט בתהליך הלמידה.'

כאן הקידומת 'היפר' מרמזת שהפרמטרים הם פרמטרים ברמה העליונה המשמשים בשליטה על תהליך הלמידה. הערך של ההיפרפרמטר נבחר ונקבע על ידי מהנדס למידת מכונה לפני שאלגוריתם הלמידה מתחיל לאמן את המודל. לפיכך, אלה חיצוניים למודל, ולא ניתן לשנות את ערכיהם במהלך תהליך האימון .

מספר ראשוני java

כמה דוגמאות של היפרפרמטרים בלמידת מכונה

  • ה-k באלגוריתם kNN או K-Nearest Neighbor
  • קצב למידה לאימון רשת עצבית
  • יחס פיצול רכבת-מבחן
  • גודל אצווה
  • מספר תקופות
  • סניפים בעץ ההחלטה
  • מספר אשכולות באלגוריתם אשכולות

ההבדל בין פרמטר להיפרפרמטר?

תמיד יש בלבול גדול בין פרמטרים להיפרפרמטרים או היפרפרמטרים של מודל. אז, כדי לנקות את הבלבול הזה, בואו נבין את ההבדל בין שניהם וכיצד הם קשורים זה לזה.

פרמטרים של דגם:

פרמטרים של מודל הם משתני תצורה שהם פנימיים למודל, ומודל לומד אותם בעצמו. לדוגמה , W משקלים או מקדמים של משתנים בלתי תלויים במודל הרגרסיה הלינארית . אוֹ משקלים או מקדמים של משתנים בלתי תלויים ב-SVM, משקל והטיות של רשת עצבית, מרכז אשכול ב-Clustering. כמה נקודות מפתח לפרמטרים של המודל הן כדלקמן:

  • הם משמשים את המודל לביצוע תחזיות.
  • הם נלמדים על ידי המודל מהנתונים עצמם
  • אלה בדרך כלל אינם מוגדרים ידנית.
  • אלו הם החלק של המודל והמפתח לאלגוריתם למידת מכונה.

היפרפרמטרים של דגם:

היפרפרמטרים הם אותם פרמטרים המוגדרים במפורש על ידי המשתמש כדי לשלוט בתהליך הלמידה. כמה נקודות מפתח לפרמטרים של המודל הן כדלקמן:

  • אלה מוגדרים בדרך כלל באופן ידני על ידי מהנדס למידת מכונה.
  • לא ניתן לדעת את הערך הטוב ביותר עבור הפרמטרים המדויקים עבור הבעיה הנתונה. הערך הטוב ביותר יכול להיקבע על ידי כלל האצבע או על ידי ניסוי וטעייה.
  • כמה דוגמאות של היפרפרמטרים הם קצב הלמידה לאימון רשת עצבית, K באלגוריתם KNN,

קטגוריות של היפרפרמטרים

באופן כללי ניתן לחלק היפרפרמטרים לשתי קטגוריות, המפורטות להלן:

    היפרפרמטר לאופטימיזציה היפרפרמטר לדגמים ספציפיים

היפרפרמטר לאופטימיזציה

תהליך בחירת הפרמטרים הטובים ביותר לשימוש מכונה כוונון היפרפרמטרים, ותהליך הכוונון ידוע גם כאופטימיזציה של היפרפרמטרים. פרמטרי אופטימיזציה משמשים לאופטימיזציה של המודל.

היפרפרמטרים בלמידת מכונה

כמה מפרמטרי האופטימיזציה הפופולריים ניתנים להלן:

    קצב למידה:קצב הלמידה הוא ההיפרפרמטר באלגוריתמי אופטימיזציה השולט כמה המודל צריך להשתנות בתגובה לשגיאה המשוערת בכל פעם בה מתעדכנים משקלי המודל. זהו אחד הפרמטרים המכריעים בעת בניית רשת עצבית, והוא גם קובע את תדירות ההצלבה עם פרמטרי מודל. בחירת קצב הלמידה האופטימלי היא משימה מאתגרת מכיוון שאם קצב הלמידה נמוך מאוד, זה עלול להאט את תהליך האימון. מצד שני, אם קצב הלמידה גדול מדי, אז זה עלול לא לייעל את המודל כראוי.

הערה: קצב למידה הוא היפרפרמטר קריטי לאופטימיזציה של המודל, כך שאם ישנה דרישה לכוונון היפרפרמטר בודד בלבד, מומלץ לכוון את קצב הלמידה.

    גודל אצווה:כדי להגביר את מהירות תהליך הלמידה, מערך ההדרכה מחולק לתת-קבוצות שונות, הידועות בשם אצווה. מספר תקופות: ניתן להגדיר עידן כמחזור השלם לאימון מודל למידת המכונה. עידן מייצג תהליך למידה איטרטיבי. מספר העידנים משתנה מדגם לדגם, ודגמים שונים נוצרים עם יותר מעידן אחד. כדי לקבוע את המספר הנכון של עידנים, נלקחת בחשבון שגיאת אימות. מספר העידנים גדל עד שיש הפחתה בשגיאת אימות. אם אין שיפור בטעות ההפחתה בתקופות עוקבות, אז זה מצביע על הפסקת הגדלת מספר העידנים.

היפרפרמטר לדגמים ספציפיים

היפרפרמטרים המעורבים במבנה המודל ידועים כהיפרפרמטרים עבור מודלים ספציפיים. אלה ניתנים להלן:

    מספר יחידות נסתרות:יחידות נסתרות הן חלק מרשתות עצביות, המתייחסות לרכיבים המרכיבים את שכבות המעבדים בין יחידות הקלט והפלט ברשת עצבית.

חשוב לציין את מספר היפרפרמטר היחידות הנסתרות עבור הרשת העצבית. זה צריך להיות בין גודל שכבת הקלט לגודל שכבת הפלט. ליתר דיוק, מספר היחידות הנסתרות צריך להיות 2/3 מגודל שכבת הקלט, בתוספת גודל שכבת הפלט.

עבור פונקציות מורכבות, יש צורך לציין את מספר היחידות הנסתרות, אבל זה לא צריך להתאים את המודל.

    מספר שכבות:רשת עצבית מורכבת ממרכיבים מסודרים אנכית, הנקראים שכבות. יש בעיקר שכבות קלט, שכבות נסתרות ושכבות פלט . רשת עצבית 3-שכבתית נותנת ביצועים טובים יותר מאשר רשת 2-שכבתית. עבור רשת עצבית Convolutional, מספר רב יותר של שכבות מהוות מודל טוב יותר.

סיכום

היפרפרמטרים הם הפרמטרים המוגדרים במפורש לשלוט בתהליך הלמידה לפני החלת אלגוריתם למידת מכונה על מערך נתונים. אלה משמשים לציון יכולת הלמידה והמורכבות של המודל. חלק מפרמטרי ההיפר משמשים לאופטימיזציה של המודלים, כמו גודל אצווה, קצב למידה וכו', וחלקם ספציפיים למודלים, כמו מספר שכבות נסתרות וכו'.