HASHING במבנה הנתונים

מבוא ל-Hash במבנה הנתונים:

Hashing היא טכניקה פופולרית במדעי המחשב הכוללת מיפוי מערכי נתונים גדולים לערכים באורך קבוע. זהו תהליך של המרת מערך נתונים בגודל משתנה למערך נתונים בגודל קבוע. היכולת לבצע פעולות חיפוש יעילות הופכת את הגיבוב למושג חיוני במבני נתונים.

מה זה האשינג?

אלגוריתם גיבוב משמש להמרת קלט (כגון מחרוזת או מספר שלם) לפלט בגודל קבוע (המכונה קוד גיבוב או ערך גיבוב). לאחר מכן הנתונים מאוחסנים ומאוחזרים באמצעות ערך hash זה כאינדקס במערך או בטבלת hash. פונקציית ה-hash חייבת להיות דטרמיניסטית, מה שמבטיח שהיא תמיד תניב את אותה תוצאה עבור קלט נתון.

שימוש נפוץ ב-Hashינג ליצירת מזהה ייחודי עבור נתון, שניתן להשתמש בו כדי לחפש במהירות את הנתונים במערך נתונים גדול. לדוגמה, דפדפן אינטרנט עשוי להשתמש בגיבוב כדי לאחסן סיסמאות לאתר בצורה מאובטחת. כאשר משתמש מזין את הסיסמה שלו, הדפדפן ממיר אותה לערך Hash ומשווה אותה לערך Hash המאוחסן כדי לאמת את המשתמש.

מהו מפתח hash?

בהקשר של hashing, מפתח hash (הידוע גם כ-hash value או hash code) הוא ייצוג מספרי או אלפאנומרי בגודל קבוע שנוצר על ידי אלגוריתם hashing. הוא נגזר מנתוני הקלט, כגון מחרוזת טקסט או קובץ, באמצעות תהליך המכונה hashing.

Hash כרוך בהחלת פונקציה מתמטית ספציפית על נתוני הקלט, אשר מייצרת מפתח Hash ייחודי שהוא בדרך כלל באורך קבוע, ללא קשר לגודל הקלט. מפתח ה-hash המתקבל הוא בעצם טביעת אצבע דיגיטלית של הנתונים המקוריים.

מפתח הגיבוב משרת מספר מטרות. הוא משמש בדרך כלל לבדיקות שלמות הנתונים, שכן אפילו שינוי קטן בנתוני הקלט ייצור מפתח hash שונה באופן משמעותי. מפתחות Hash משמשים גם לאחזור ואחסון נתונים יעילים בטבלאות Hash או במבני נתונים, מכיוון שהם מאפשרים פעולות חיפוש והשוואה מהירים.

איך עובד Hashing?

ניתן לחלק את תהליך הגיבוב לשלושה שלבים:

css מודגש

קלט: הנתונים שיש לבצע גיבוב מוזנים לאלגוריתם הגיבוב.
פונקציית Hash: אלגוריתם הגיבוב לוקח את נתוני הקלט ומחיל פונקציה מתמטית כדי ליצור ערך Hash בגודל קבוע. יש לתכנן את פונקציית הגיבוב כך שערכי קלט שונים יפיקו ערכי גיבוב שונים, ושינויים קטנים בקלט מייצרים שינויים גדולים בפלט.
פלט: ערך הגיבוב מוחזר, המשמש כאינדקס לאחסון או אחזור נתונים במבנה נתונים.

אלגוריתמי גיבוב:

ישנם אלגוריתמי גיבוב רבים, לכל אחד מהם יתרונות וחסרונות ברורים. האלגוריתמים הפופולריים ביותר כוללים את הדברים הבאים:

MD5: אלגוריתם גיבוב בשימוש נרחב המייצר ערך גיבוב של 128 סיביות.
SHA-1: אלגוריתם גיבוב פופולרי המייצר ערך גיבוב של 160 סיביות.
SHA-256: אלגוריתם גיבוב מאובטח יותר המייצר ערך גיבוב של 256 סיביות.

פונקציית Hash:

פונקציית Hash: פונקציית Hash היא סוג של פעולה מתמטית שלוקחת קלט (או מפתח) ומוציאה תוצאה בגודל קבוע המכונה קוד Hash או Hash. פונקציית ה-hash חייבת תמיד להניב את אותו קוד hash עבור אותו קלט כדי להיות דטרמיניסטית. בנוסף, פונקציית ה-hash צריכה לייצר קוד hash ייחודי עבור כל קלט, המכונה מאפיין hash.

ישנם סוגים שונים של פונקציות גיבוב, כולל:

שיטת חלוקה:

שיטה זו כוללת חלוקת המפתח בגודל הטבלה ולקחת את היתרה כערך ה-hash. לדוגמה, אם גודל הטבלה הוא 10 והמפתח הוא 23, ערך הגיבוב יהיה 3 (23% 10 = 3).

שיטת הכפל:

שיטה זו כוללת הכפלת המפתח בקבוע ולקחת את החלק השברי של המוצר כערך ה-hash. לדוגמה, אם המפתח הוא 23 והקבוע הוא 0.618, ערך הגיבוב יהיה 2 (floor(10*(0.61823 - floor(0.61823))) = floor(2.236) = 2).

גיבוב אוניברסלי:

שיטה זו כוללת שימוש בפונקציית Hash אקראית ממשפחה של פונקציות Hash. זה מבטיח שפונקציית ה-hash אינה מוטה לשום קלט מסוים והיא עמידה בפני התקפות.

מכיל שיטת java

רזולוציית התנגשות

אחד האתגרים העיקריים ב-hash הוא טיפול בהתנגשויות, המתרחשות כאשר שני ערכי קלט או יותר מייצרים את אותו ערך hash. ישנן טכניקות שונות המשמשות לפתרון התנגשויות, כולל:

שרשור: בטכניקה זו, כל משבצת טבלת Hash מכילה רשימה מקושרת של כל הערכים בעלי אותו ערך Hash. טכניקה זו פשוטה וקלה ליישום, אך היא עלולה להוביל לביצועים גרועים כאשר הרשימות המקושרות הופכות ארוכות מדי.
כתובת פתוחה: בטכניקה זו, כאשר מתרחשת התנגשות, האלגוריתם מחפש משבצת ריקה בטבלת הגיבוב על ידי בדיקה של משבצות עוקבות עד שנמצא משבצת ריקה. טכניקה זו יכולה להיות יעילה יותר משרשור כאשר מקדם העומס נמוך, אך היא עלולה להוביל להתקבצות וביצועים גרועים כאשר מקדם העומס גבוה.
גיבוב כפול: זוהי וריאציה של כתובת פתוחה המשתמשת בפונקציית גיבוב שנייה כדי לקבוע את המשבצת הבאה לבדיקה כאשר מתרחשת התנגשות. טכניקה זו יכולה לסייע בהפחתת אשכולות ולשפר את הביצועים.

דוגמה לרזולוציית התנגשות

נמשיך עם הדוגמה שלנו לטבלת גיבוב בגודל 5. אנו רוצים לאחסן את צמדי המפתח-ערך 'ג'ון: 123456' ו'מרי: 987654' בטבלת הגיבוב. שני המפתחות מייצרים את אותו קוד hash של 4, כך שמתרחשת התנגשות.

אנחנו יכולים להשתמש בשרשור כדי לפתור את ההתנגשות. אנו יוצרים רשימה מקושרת באינדקס 4 ומוסיפים את צמדי המפתח-ערך לרשימה. טבלת הגיבוב נראית כעת כך:

מרחף ב-CSS

4: ג'ון: 123456 -> מרי: 987654

טבלת גיבוב:

טבלת גיבוב היא מבנה נתונים המאחסן נתונים במערך. בדרך כלל, נבחר גודל עבור המערך הגדול ממספר האלמנטים שיכולים להתאים בטבלת ה-hash. מפתח ממופה לאינדקס במערך באמצעות פונקציית ה-hash.

פונקציית ה-hash משמשת לאיתור האינדקס שבו יש צורך להכניס אלמנט בטבלת ה-hash על מנת להוסיף אלמנט חדש. האלמנט יתווסף לאינדקס הזה אם אין התנגשות. אם יש התנגשות, נעשה שימוש בשיטת רזולוציית ההתנגשות כדי למצוא את החריץ הזמין הבא במערך.

פונקציית ה-hash משמשת לאיתור האינדקס שהרכיב מאוחסן על מנת לשלוף אותו מטבלת ה-hash. אם האלמנט לא נמצא באותו אינדקס, שיטת רזולוציית ההתנגשות משמשת לחיפוש האלמנט ברשימה המקושרת (אם נעשה שימוש בשרשור) או במשבצת הפנויה הבאה (אם נעשה שימוש בכתובת פתוחה).

Hash Table Operations

ישנן מספר פעולות שניתן לבצע בטבלת גיבוב, כולל:

הכנסה: הוספת זוג מפתח-ערך חדש לטבלת ה-hash.
מחיקה: הסרת זוג מפתח-ערך מטבלת ה-hash.
חיפוש: חיפוש אחר צמד מפתח-ערך בטבלת ה-hash.

יצירת טבלת Hash:

גיבוב משמש לעתים קרובות לבניית טבלאות גיבוב, שהן מבני נתונים המאפשרים הכנסת נתונים, מחיקה ואחזור מהירים. ניתן לאחסן זוג מפתח-ערך אחד או יותר בכל אחד ממערכי הדליים המרכיבים טבלת גיבוב.

כדי ליצור טבלת גיבוב, ראשית עלינו להגדיר פונקציית גיבוב שממפה כל מפתח לאינדקס ייחודי במערך. פונקציית Hash פשוטה יכולה להיות לקחת את סכום ערכי ה-ASCII של התווים במפתח ולהשתמש בשאר כאשר מחלקים בגודל המערך. עם זאת, פונקציית Hash זו אינה יעילה ועלולה להוביל להתנגשויות (שני מפתחות הממפים לאותו אינדקס).

כדי למנוע התנגשויות, אנו יכולים להשתמש בפונקציות גיבוב מתקדמות יותר המייצרות חלוקה אחידה יותר של ערכי גיבוב על פני המערך. אלגוריתם פופולרי אחד הוא פונקציית ה-hash djb2, המשתמשת בפעולות סיביות כדי ליצור ערך hash:

 unsigned long hash(char* str) { unsigned long hash = 5381; int c; while (c = *str++) { hash = ((hash &lt;&lt; 5) + hash) + c; } return hash; }

פונקציית hash זו לוקחת מחרוזת כקלט ומחזירה ערך hash ארוך ללא סימן. הפונקציה מאתחלת ערך hash של 5381 ולאחר מכן חוזרת על כל תו במחרוזת, תוך שימוש בפעולות סיביות ליצירת ערך hash חדש. ערך הגיבוב הסופי מוחזר.

טבלאות Hash ב-C++

ב-C++, הספרייה הסטנדרטית מספקת מחלקת מיכל טבלת hash בשם unordered_map. מיכל unordered_map מיושם באמצעות טבלת hash ומספק גישה מהירה לצמדי מפתח-ערך. מיכל unordered_map משתמש בפונקציית hash כדי לחשב את קוד הגיבוב של המפתחות ולאחר מכן משתמש בכתובת פתוחה כדי לפתור התנגשויות.

כדי להשתמש במיכל unordered_map ב-C++, עליך לכלול את קובץ הכותרת. הנה דוגמה כיצד ליצור מיכל unordered_map ב-C++:

 #include #include int main() { // create an unordered_map container std::unordered_map my_map; // insert some key-value pairs into the map my_map[&apos;apple&apos;] = 10; my_map[&apos;banana&apos;] = 20; my_map[&apos;orange&apos;] = 30; // print the value associated with the &apos;banana&apos; key std::cout &lt;&lt; my_map[&apos;banana&apos;] &lt;&lt; std::endl; return 0; }

הֶסבֵּר:

תוכנית זו מדגימה את השימוש במיכל unordered_map ב-C++, אשר מיושם באמצעות טבלת hash ומספקת גישה מהירה לצמדי מפתח-ערך.
ראשית, התוכנית כוללת את קבצי הכותרת הדרושים: ו.
לאחר מכן, התוכנית יוצרת מיכל unordered_map ריק בשם my_map, הכולל מפתחות מחרוזת וערכי מספר שלמים. זה נעשה באמצעות התחביר std::unordered_map my_map;
לאחר מכן, התוכנה מכניסה שלושה זוגות מפתח-ערך לתוך מיכל my_map באמצעות האופרטור []: 'apple' עם ערך של 10, 'בננה' עם ערך של 20 ו-'orange' עם ערך של 30.
זה נעשה באמצעות התחביר my_map['apple'] = 10;, my_map['banana'] = 20;, ו-my_map['orange'] = 30; בהתאמה.
לבסוף, התוכנה מדפיסה את הערך המשויך למפתח 'בננה' באמצעות האופרטור [] ואובייקט std::cout.

פלט תוכנית:

להחליף את המחרוזת ב-java

הוספת נתונים לטבלת Hash

כדי להכניס זוג מפתח-ערך לטבלת Hash, תחילה עלינו להוסיף אינדקס למערך כדי לאחסן את צמד המפתח-ערך. אם מפתח אחר ממפה לאותו אינדקס, יש לנו התנגשות וצריך לטפל בה כראוי. שיטה נפוצה אחת היא שימוש ב-chaining, כאשר כל דלי במערך מכיל רשימה מקושרת של צמדי מפתח-ערך בעלי אותו ערך hash.

להלן דוגמה כיצד להכניס זוג מפתח-ערך לטבלת hash באמצעות שרשור:

 typedef struct node { char* key; int value; struct node* next; } node; node* hash_table[100]; void insert(char* key, int value) { unsigned long hash_value = hash(key) % 100; node* new_node = (node*) malloc(sizeof(node)); new_node-&gt;key = key; new_node-&gt;value = value; new_node-&gt;next = NULL; if (hash_table[hash_value] == NULL) { hash_table[hash_value] = new_node; } else { node* curr_node = hash_table[hash_value]; while (curr_node-&gt;next != NULL) { curr_node = curr_node-&gt;next; } curr_node-&gt;next = new_node; } }