logo

מה זה HIVE

Hive היא מערכת מחסן נתונים המשמשת לניתוח נתונים מובנים. הוא בנוי על החלק העליון של Hadoop. זה פותח על ידי פייסבוק.

Hive מספקת את הפונקציונליות של קריאה, כתיבה וניהול מערכי נתונים גדולים השוכנים באחסון מבוזר. הוא מריץ SQL כמו שאילתות שנקראות HQL (שפת שאילתות של כוורת) אשר עוברת המרה פנימית לעבודות MapReduce.

באמצעות Hive, נוכל לדלג על הדרישה של הגישה המסורתית של כתיבת תוכניות MapReduce מורכבות. Hive תומך בשפת הגדרת נתונים (DDL), שפת מניפולציה של נתונים (DML) ופונקציות בהגדרת משתמש (UDF).

תכונות של Hive

אלו הן התכונות הבאות של Hive:

  • כוורת מהירה וניתנת להרחבה.
  • הוא מספק שאילתות דמויות SQL (כלומר, HQL) המומרות באופן מרומז למשימות MapReduce או Spark.
  • הוא מסוגל לנתח מערכי נתונים גדולים המאוחסנים ב-HDFS.
  • זה מאפשר סוגי אחסון שונים כגון טקסט רגיל, RCFile ו-HBase.
  • הוא משתמש באינדקס כדי להאיץ שאילתות.
  • זה יכול לפעול על נתונים דחוסים המאוחסנים במערכת האקולוגית של Hadoop.
  • זה תומך בפונקציות מוגדרות על ידי משתמש (UDFs) שבהן המשתמש יכול לספק את הפונקציונליות שלו.

מגבלות של Hive

  • Hive אינה מסוגלת לטפל בנתונים בזמן אמת.
  • זה לא מיועד לעיבוד עסקאות מקוון.
  • שאילתות כוורת מכילות זמן אחזור גבוה.

הבדלים בין כוורת לחזיר

כוורת חֲזִיר
Hive נמצא בשימוש נפוץ על ידי מנתחי נתונים. חזיר נמצא בשימוש נפוץ על ידי מתכנתים.
הוא עוקב אחר שאילתות דמויות SQL. זה עוקב אחר שפת זרימת הנתונים.
זה יכול להתמודד עם נתונים מובנים. זה יכול להתמודד עם נתונים חצי מובנים.
זה עובד בצד השרת של אשכול HDFS. זה עובד בצד הלקוח של אשכול HDFS.
כוורת איטית יותר מחזיר. חזיר מהיר יחסית מכוורת.