היסטוגרמה

היסטוגרמה היא צורת הצגה גרפית של נתונים. הנתונים בהיסטוגרמה מוצגים כמלבנים המייצגים מחלקות שונות (הקרויות גם קטגוריות), שאין ביניהן חפיפה, באוכלוסיית הנתונים לפי שכיחותן היחסית. בהצגה זו שטח כל מלבן מייצג את השכיחות היחסית המתאימה לו. בדרך כלל, הציר האופקי (ציר X) מייצג את הקטגוריות של הנתונים. הציר המאונך לו (ציר Y) מתאר את השכיחות. גובה המלבן, מבטא את שכיחות או צפיפות המקרים, ליחידה אחת של המשתנה הנחקר. את אותו מידע ניתן להציג גם בטבלת שכיחות, אך ההצגה הגרפית מאפשרת תפישה אינטואיטיבית ומהירה יותר של הנתונים. המחלקות בהיסטוגרמה אינן חייבות להיות בעלות אותו הגודל, ובלבד שלא תהיה חפיפה ביניהן.

ההיסטוגרמה שימושית לתיאור משתנה רציף מסולם מדידה מרווחי או מנה.

השימוש המוקדם ביותר במונח היסטוגרמה מיוחס לסטטיסטיקאי קרל פירסון בשנת 1895.[1]

מקור השם

בעקבות מגנלו, אחת מהעוסקות בביוגרפיה של פירסון, מקובל לומר שמקור שמה של ההיסטוגרמה הוא בצירוף הקידומת "היסטו-" (כקיצור של היסטוריה) לסיומת -γράμμα ('-גְרָמֳה'), שמשמעותה דבר כתוב או מאויר. אלא שפירסון הגה שמות לסוגים רבים של דיאגרמות, ששמן מתאר אותן באופן ברור, לדעתו. מתוך כך, מתברר כי השם נובע מצירוף המילה היוונית לתורן, ἱστός (הִיסְטוֹס), במשמעות של עמודות זקופות כתורן.[2]

הגדרה פורמלית

היסטוגרמה היא טרנספורמציה הממפה משתנים מסולם מדידה אחד (מרווחי או מנה), המהווים את המקור, ל-k משתני מחלקות (הקטגוריות). משתנה המחלקה ה-i מונה את מספר המופעים של משתנה המקור במחלקה עיבוד הנוסחה נכשל (MathML עם גיבוי SVG או PNG (מומלץ לדפדפנים מודרניים ולכלי נגישות): תגובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://en.wikipedia.org/api/rest_v1/":): {\displaystyle m_i} . לאמור, בהינתן n משתנים ו-k מחלקות, ההיסטוגרמה מקיימת את התנאי הבא:

הייצוג הגרפי הוא דרך אחת לייצג היסטוגרמה, דרך נוספת היא טבלת שכיחות.

היסטוגרמה מצטברת

היסטוגרמה מצטברת מורכבת ממשתנים המונים את המספר המצטבר של המופעים במחלקה נוכחית, בתוספת כל המחלקות הקודמות.

לאמור, משתנה היסטוגרמה מצטברת המורכבת מההיסטוגרמה עיבוד הנוסחה נכשל (MathML עם גיבוי SVG או PNG (מומלץ לדפדפנים מודרניים ולכלי נגישות): תגובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://en.wikipedia.org/api/rest_v1/":): {\displaystyle m_i} מקיים: עיבוד הנוסחה נכשל (MathML עם גיבוי SVG או PNG (מומלץ לדפדפנים מודרניים ולכלי נגישות): תגובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://en.wikipedia.org/api/rest_v1/":): {\displaystyle M_i = \sum_{j=1}^i{m_j}}

בחירת גודל המחלקות ומספרן

ההיסטוגרמה רגישה לגודלן של המחלקות, לכן ברורה החשיבות בבחירתן הנכונה. עם זאת, אין הסכמה בקרב הסטטיסטיקאים בדבר הגודל האופטימלי של כל מחלקה. מקובלים מספר כללים מנחים, אך לא מוחלטים.

כללי אד-הוק

אלה כללים (שרירותיים) מקובלים המבוססים על ניסיון בלבד ועל טיבם של הנתונים. לדוגמה: ציוני מבחן בטווח 0–100 יחולקו למחלקות בגודל 10 ציונים כל אחת. נתוני שכר יחולקו למחלקות בגודל 1,000 ש"ח כל אחת, או בהתאם למדרגות המיסוי על ההכנסה וכדומה.

בחלוקה גסה, מקובל לחלק את הנתונים ללא פחות מ-5 ולא יותר מ-15 מחלקות בדרך כלל, בהתאם לנסיבות. ככל שעולה מספרם הכללי של הנתונים כך גם יחולקו ליותר מחלקות.

משנקבע רוחבה/גודלה של מחלקה - h, ניתן לחשב את מספר המחלקות k על ידי חלוקת טווח הנתונים (המרחק בין הערך הגדול ביותר לבין הערך הקטן ביותר) למקטעים שווים, לפי הנוסחה

עיבוד הנוסחה נכשל (MathML עם גיבוי SVG או PNG (מומלץ לדפדפנים מודרניים ולכלי נגישות): תגובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://en.wikipedia.org/api/rest_v1/":): {\displaystyle k = \left \lceil \frac{\max x - \min x}{h} \right \rceil}

הערה: הסוגריים לעיל מציינות את פונקציית התקרה.

כללים תאורטיים

קיימים כמה כללים המתבססים על התאוריה הסטטיסטית. שני הכללים הנפוצים ביותר מסתמכים על מספרם הכולל של הנתונים בלבד, והם:

  • הכלל של סטורג'ס (Sturges) לקביעת מספר הקטגוריות
עיבוד הנוסחה נכשל (MathML עם גיבוי SVG או PNG (מומלץ לדפדפנים מודרניים ולכלי נגישות): תגובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://en.wikipedia.org/api/rest_v1/":): {\displaystyle k = 1 + \lceil \log_{2}n\rceil}

n - מספר התצפיות/נתונים הכולל.

  • הכלל של טרל וסקוט (Terrell & Scott) לקביעת מספר הקטגוריות
עיבוד הנוסחה נכשל (MathML עם גיבוי SVG או PNG (מומלץ לדפדפנים מודרניים ולכלי נגישות): תגובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://en.wikipedia.org/api/rest_v1/":): {\displaystyle k = \lceil (2n)^{1/3}\rceil}

בשני הכללים נדרש שמספר הנתונים יהיה גדול מ-30 (ישנם מקורות שמסתפקים גם במינימום של 15 נתונים). לקבוצת נתונים קטנה הכלל של טרל וסקוט מחמיר מהכלל של סטורג'ס, אך מעל כ-500 נתונים מתהפכות היוצרות והכלל של סטורג'ס הוא המחמיר מבין השניים. הכלל של סטורג'ס נפוץ יותר בשימוש בשל היותו הוותיק מבין השניים.

שני כללים מתוחכמים יותר לקביעת גודל קטגוריה:

  • הכלל של סקוט (Scott)
עיבוד הנוסחה נכשל (שגיאת המרה. השרת ("https://en.wikipedia.org/api/rest_") השיב: "Cannot get mml. Server problem."): {\displaystyle h={\frac {3.5\cdot s}{n^{1/3}}}}

s - סטיית התקן המדגמית.

  • הכלל של פרידמן (או פרידמן-דיאקוניס) (Freedman-Diaconis)
עיבוד הנוסחה נכשל (שגיאת המרה. השרת ("https://en.wikipedia.org/api/rest_") השיב: "Cannot get mml. Server problem."): {\displaystyle h={\frac {2\cdot IQR}{n^{1/3}}}}

IQR - הטווח הבין-רבעוני.

ראו גם

קישורים חיצוניים

הערות שוליים

  1. Dodge, Yadolah. "The Concise Encyclopedia of Statistics". Springer, 2008
  2. Daniel Riaño Rufilanchas, On the origin of Karl Pearson’s term “histogram”, Estadística Española 59 (192), 2017, עמ' 29–35 (באנגלית)
הערך באדיבות ויקיפדיה העברית, קרדיט,
רישיון cc-by-sa 3.0
This article is issued from Hamichlol. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.