שונות בנתונים מקובצים. פיזור, סוגי ומאפיינים של פיזור

דף זה מתאר דוגמה סטנדרטית למציאת שונות, אתה יכול גם להסתכל על בעיות אחרות כדי למצוא אותה

דוגמה 1. קביעת קבוצה, ממוצע קבוצתי, בין קבוצה ושונות כוללת

דוגמה 2. מציאת השונות ומקדם השונות בטבלת קיבוץ

דוגמה 3. מציאת שונות בסדרה בדידה

דוגמה 4. הנתונים הבאים זמינים עבור קבוצה של 20 סטודנטים להתכתבות. יש צורך לבנות סדרת מרווחים של התפלגות המאפיין, לחשב את הערך הממוצע של המאפיין וללמוד את פיזורו

בואו נבנה קיבוץ אינטרוולים. בואו נקבע את טווח המרווח באמצעות הנוסחה:

כאשר X max הוא הערך המרבי של מאפיין הקיבוץ;
X min - ערך מינימלי של מאפיין הקיבוץ;
n - מספר מרווחים:

אנו מקבלים n=5. הצעד הוא: h = (192 - 159)/ 5 = 6.6

בואו ניצור קיבוץ מרווחים

לחישובים נוספים, נבנה טבלת עזר:

X"i – אמצע המרווח. (לדוגמה, אמצע המרווח 159 – 165.6 = 162.3)

אנו קובעים את הגובה הממוצע של תלמידים באמצעות נוסחת הממוצע האריתמטי המשוקלל:

בואו נקבע את השונות באמצעות הנוסחה:

ניתן לשנות את הנוסחה כך:

מהנוסחה הזו נובע מכך השונות שווה ל ההפרש בין ממוצע הריבועים של האופציות לבין הריבוע והממוצע.

פיזור בסדרות וריאציותעם מרווחים שווים בשיטת המומנטים ניתן לחשב בדרך הבאה באמצעות התכונה השנייה של פיזור (חלוקת כל האפשרויות בערך המרווח). קביעת שונות, מחושב בשיטת הרגעים, השימוש בנוסחה הבאה הוא פחות אינטנסיבי בעבודה:

כאשר i הוא הערך של המרווח;
A הוא אפס קונבנציונלי, שעבורו נוח להשתמש באמצע המרווח בתדירות הגבוהה ביותר;
m1 הוא הריבוע של רגע הסדר הראשון;
m2 - רגע מסדר שני

שונות תכונה חלופית (אם באוכלוסייה סטטיסטית מאפיין משתנה בצורה כזו שיש רק שתי אפשרויות סותרות זו את זו, אז שונות כזו נקראת אלטרנטיבה) ניתן לחשב באמצעות הנוסחה:

החלפת q = 1- p בנוסחת הפיזור הזו, נקבל:

סוגי שונות

שונות מוחלטתמודד את השונות של מאפיין על פני כל האוכלוסייה כולה בהשפעת כל הגורמים הגורמים לשונות זו. זה שווה לריבוע הממוצע של הסטיות של ערכים בודדים של מאפיין x מהערך הממוצע הכולל של x וניתן להגדיר אותו כשונות פשוטה או שונות משוקללת.

שונות בתוך הקבוצה מאפיין וריאציה אקראית, כלומר. חלק מהשוני הנובע מהשפעתם של גורמים לא מטופלים ואינו תלוי בתכונת הגורם המהווה את הבסיס לקבוצה. פיזור כזה שווה לריבוע הממוצע של הסטיות של ערכים בודדים של התכונה בתוך קבוצה X מהממוצע האריתמטי של הקבוצה וניתן לחשב אותו כפיזור פשוט או כפיזור משוקלל.



כָּך, מדדי שונות בתוך הקבוצהוריאציה של תכונה בתוך קבוצה והיא נקבעת על ידי הנוסחה:

כאשר xi הוא ממוצע הקבוצה;
ni הוא מספר היחידות בקבוצה.

לדוגמה, שונות תוך-קבוצתית שיש לקבוע במשימת לימוד השפעת כישורי העובדים על רמת פריון העבודה בסדנה מראות שונות בתפוקה בכל קבוצה הנגרמת על ידי כל הגורמים האפשריים (מצב טכני של ציוד, זמינות של כלים וחומרים, גיל העובדים, עוצמת העבודה וכו' .), למעט הבדלים בקטגוריית ההסמכה (בתוך קבוצה לכל העובדים יש את אותן הכישורים).

האינדיקטורים ההכללים העיקריים לשונות בסטטיסטיקה הם פיזור וסטיות תקן.

פְּזִירָה זה ממוצע אריתמטי בריבוע סטיות של כל ערך מאפיין מהממוצע הכולל. השונות נקראת בדרך כלל ריבוע הסטיות הממוצע והיא מסומנת ב-  2. בהתאם לנתוני המקור, ניתן לחשב את השונות באמצעות הממוצע האריתמטי הפשוט או המשוקלל:

 שונות לא משוקללת (פשוטה);

 השונות משוקללת.

סטיית תקן זהו מאפיין הכללה של גדלים מוחלטים וריאציות סימנים במצטבר. הוא מתבטא באותן יחידות מדידה כמו התכונה (במטרים, טונות, אחוזים, הקטרים ​​וכו').

סטיית התקן היא השורש הריבועי של השונות ומסומנת ב- :

 סטיית תקן ללא משקל;

 סטיית תקן משוקללת.

סטיית התקן היא מדד לאמינות הממוצע. ככל שסטיית התקן קטנה יותר, כך הממוצע האריתמטי משקף טוב יותר את כל האוכלוסייה המיוצגת.

לחישוב סטיית התקן קודם חישוב השונות.

ההליך לחישוב השונות המשוקלל הוא כדלקמן:

1) קבע את הממוצע האריתמטי המשוקלל:

2) חשב את הסטיות של האופציות מהממוצע:

3) בריבוע הסטייה של כל אפשרות מהממוצע:

4) הכפל את ריבועי הסטיות במשקלים (תדרים):

5) סכמו את המוצרים שהתקבלו:

6) הכמות המתקבלת מחולקת בסכום המשקולות:

דוגמה 2.1

בוא נחשב את הממוצע האריתמטי המשוקלל:

ערכי הסטיות מהממוצע והריבועים שלהם מוצגים בטבלה. בוא נגדיר את השונות:

סטיית התקן תהיה שווה ל:

אם נתוני המקור מוצגים בצורה של מרווח סדרת הפצה , אז תחילה עליך לקבוע את הערך הבדיד של התכונה, ולאחר מכן ליישם את השיטה המתוארת.

דוגמה 2.2

הבה נראה את חישוב השונות לסדרת מרווחים תוך שימוש בנתונים על התפלגות השטח הנזרע של משק קיבוצי לפי יבול החיטה.

הממוצע האריתמטי הוא:

בוא נחשב את השונות:

6.3. חישוב השונות באמצעות נוסחה המבוססת על נתונים בודדים

טכניקת חישוב שונות מורכב, ועם ערכים גדולים של אפשרויות ותדרים זה יכול להיות מסורבל. ניתן לפשט את החישובים באמצעות תכונות הפיזור.

לפיזור יש את המאפיינים הבאים.

1. הפחתה או הגדלת משקלים (תדרים) של מאפיין משתנה במספר מסוים של פעמים אינה משנה את הפיזור.

2. הקטן או הגדל כל ערך של מאפיין באותה כמות קבועה אלא משנה את הפיזור.

3. הקטן או הגדל כל ערך תכונה במספר מסוים של פעמים קבהתאמה מפחית או מגדיל את השונות ב ק 2 פעמים ו סטיית תקן  פנימה קפַּעַם.

4. הפיזור של מאפיין ביחס לערך שרירותי תמיד גדול מהפיזור ביחס לממוצע האריתמטי לריבוע של ההפרש בין הערך הממוצע והשרירותי:

אִם א 0, אז נגיע לשוויון הבא:

כלומר השונות של המאפיין שווה להפרש בין הריבוע הממוצע של הערכים האופייניים לריבוע הממוצע.

ניתן להשתמש בכל מאפיין באופן עצמאי או בשילוב עם אחרים בעת חישוב השונות.

ההליך לחישוב השונות הוא פשוט:

1) לקבוע ממוצע אריתמטי :

2) בריבוע הממוצע האריתמטי:

3) בריבוע הסטייה של כל וריאנט של הסדרה:

X אֲנִי 2 .

4) מצא את סכום הריבועים של האפשרויות:

5) חלקו את סכום הריבועים של האפשרויות במספרם, כלומר קבעו את הריבוע הממוצע:

6) קבע את ההבדל בין הריבוע הממוצע של המאפיין לריבוע הממוצע:

דוגמה 3.1הנתונים הבאים זמינים על פרודוקטיביות עובדים:

בואו נעשה את החישובים הבאים:

פיזור בסטטיסטיקה מוגדר כסטיית התקן של ערכים בודדים של מאפיין בריבוע מהממוצע האריתמטי. שיטה נפוצה לחישוב הסטיות בריבוע של אופציות מהממוצע ולאחר מכן ממוצע שלהן.

בניתוח סטטיסטי כלכלי, נהוג להעריך את השונות של מאפיין לרוב באמצעות סטיית התקן היא השורש הריבועי של השונות.

(3)

מאפיין את התנודה המוחלטת של הערכים של מאפיין משתנה ומתבטא באותן יחידות מדידה כמו האפשרויות. בסטטיסטיקה, לעתים קרובות יש צורך להשוות את השונות של מאפיינים שונים. עבור השוואות כאלה, נעשה שימוש במדד יחסי של שונות, מקדם השונות.

תכונות פיזור:

1) אם תפחית מספר כלשהו מכל האפשרויות, השונות לא תשתנה;

2) אם כל ערכי האופציה מחולקים במספר b כלשהו, ​​השונות תקטן פי b^2, כלומר.

3) אם תחשב את הריבוע הממוצע של סטיות ממספר כלשהו עם ממוצע אריתמטי לא שווה, אז הוא יהיה גדול מהשונות. יחד עם זאת, לפי ערך מוגדר היטב לריבוע של ההפרש בין הערך הממוצע ג.

ניתן להגדיר פיזור כהבדל בין הממוצע בריבוע לממוצע בריבוע.

17. וריאציות קבוצתיות ובין קבוצות. כלל הוספת שונות

אם אוכלוסייה סטטיסטית מחולקת לקבוצות או לחלקים לפי המאפיין הנחקר, אזי ניתן לחשב את סוגי הפיזור הבאים עבור אוכלוסייה כזו: קבוצה (פרטית), ממוצע קבוצתי (פרטי) ובינקבוצתי.

שונות מוחלטת– משקף את השונות של מאפיין עקב כל התנאים והגורמים הפועלים באוכלוסייה סטטיסטית נתונה.

שונות קבוצתית- שווה לריבוע הממוצע של סטיות של ערכים בודדים של מאפיין בתוך קבוצה מהממוצע האריתמטי של קבוצה זו, הנקרא ממוצע הקבוצה. עם זאת, ממוצע הקבוצה אינו עולה בקנה אחד עם הממוצע הכולל של כלל האוכלוסייה.

שונות קבוצתית משקפת את השונות של תכונה רק עקב תנאים וגורמים הפועלים בתוך הקבוצה.

ממוצע של שונות קבוצתית- מוגדר כממוצע האריתמטי המשוקלל של שונות הקבוצה, כאשר המשקולות הן נפחי הקבוצה.

שונות בין קבוצות- שווה לריבוע הממוצע של סטיות של ממוצעי הקבוצה מהממוצע הכולל.

פיזור בין קבוצות מאפיין את השונות של המאפיין המתקבל עקב מאפיין הקיבוץ.

קיים קשר מסוים בין סוגי הפיזור הנחשבים: סך הפיזור שווה לסכום הממוצע של הקבוצה והפיזור הבין-קבוצתי.

קשר זה נקרא כלל הוספת השונות.

18. סדרה דינמית ומרכיביה. סוגי סדרות זמן.

שורה בסטטיסטיקה- מדובר בנתונים דיגיטליים המציגים את השינוי של תופעה בזמן או במרחב ומאפשרים לבצע השוואה סטטיסטית של תופעות הן בתהליך התפתחותן בזמן והן בצורות וסוגים שונים של תהליכים. הודות לכך, ניתן לזהות את התלות ההדדית של תופעות.

בסטטיסטיקה, תהליך התפתחות התנועה של תופעות חברתיות לאורך זמן נקרא בדרך כלל דינמיקה. כדי להציג דינמיקה, נבנות סדרות דינמיות (כרונולוגיות, זמן), שהן סדרות של ערכים משתנים בזמן של אינדיקטור סטטיסטי (לדוגמה, מספר המורשעים מעל 10 שנים), מסודרים בסדר כרונולוגי. המרכיבים המרכיבים שלהם הם הערכים הדיגיטליים של אינדיקטור נתון והתקופות או נקודות הזמן שאליהן הם מתייחסים.

המאפיין החשוב ביותר של סדרות דינמיקה- גודלם (נפח, גודל) של תופעה מסוימת שהושגה בתקופה מסוימת או ברגע מסוים. בהתאם, גודל המונחים של סדרת הדינמיקה הוא רמתה. לְהַבחִיןהרמות הראשוניות, האמצעיות והאחרונות של הסדרה הדינמית. רמת כניסהמציג את הערך של הראשון, הסופי - הערך של האיבר האחרון של הסדרה. רמת בינייםמייצג את טווח השונות הכרונולוגי הממוצע ומחושב בהתאם אם הסדרה הדינמית היא מרווח או רגעי.

מאפיין חשוב נוסף של הסדרה הדינמית- הזמן שחלף מהתצפית הראשונית ועד התצפית האחרונה, או מספר התצפיות הללו.

ישנם סוגים שונים של סדרות זמן שניתן לסווג אותם לפי הקריטריונים הבאים.

1) בהתאם לשיטת הביטוי של הרמות, סדרות הדינמיקה מחולקות לסדרות של אינדיקטורים מוחלטים ונגזרת (ערכים יחסיים וממוצעים).

2) תלוי איך רמות הסדרה מבטאות את מצב התופעה בנקודות זמן מסוימות (בתחילת חודש, רבעון, שנה וכו') או ערכה על פני מרווחי זמן מסוימים (למשל, ליום, חודש, שנה וכו') וכו'), להבחין בין סדרות דינמיקה של רגע ואינטרוול, בהתאמה. סדרות רגעים משמשות לעתים רחוקות יחסית בעבודה האנליטית של רשויות אכיפת החוק.

בתיאוריה הסטטיסטית דינמיקה מובחנת על פי מספר קריטריונים לסיווג נוספים: בהתאם למרחק בין רמות - עם רמות שוות ורמות לא שוות בזמן; בהתאם לנוכחות הנטייה העיקרית של התהליך הנלמד - נייח ולא נייח. כאשר מנתחים סדרות זמן, הם יוצאים מהשלבים הבאים הרמות של הסדרה מוצגות בצורה של רכיבים:

Y t = TP + E (t)

כאשר TP הוא מרכיב דטרמיניסטי שקובע את הנטייה הכללית לשינוי לאורך זמן או מגמה.

E (t) הוא מרכיב אקראי הגורם לתנודות ברמות.

בין האינדיקטורים הרבים המשמשים בסטטיסטיקה, יש צורך להדגיש את חישוב השונות. יש לציין כי ביצוע חישוב זה באופן ידני הוא משימה מייגעת למדי. למרבה המזל, לאקסל יש פונקציות המאפשרות לך להפוך את הליך החישוב לאוטומטי. בואו לגלות את האלגוריתם לעבודה עם הכלים האלה.

פיזור הוא אינדיקטור לשונות, שהוא הריבוע הממוצע של סטיות מהציפייה המתמטית. לפיכך, הוא מבטא את התפשטות המספרים סביב הערך הממוצע. חישוב השונות יכול להתבצע הן עבור האוכלוסייה הכללית והן עבור המדגם.

שיטה 1: חישוב על בסיס האוכלוסייה

כדי לחשב מחוון זה ב-Excel עבור האוכלוסייה הכללית, השתמש בפונקציה DISP.G. התחביר של ביטוי זה הוא כדלקמן:

DISP.G(Number1;Number2;...)

בסך הכל, ניתן להשתמש ב-1 עד 255 ארגומנטים. הארגומנטים יכולים להיות ערכים מספריים או הפניות לתאים שבהם הם כלולים.

בואו נראה כיצד לחשב את הערך הזה עבור טווח עם נתונים מספריים.


שיטה 2: חישוב לפי מדגם

בניגוד לחישוב ערך המבוסס על אוכלוסייה, בחישוב מדגם, המכנה אינו מציין את סך המספרים, אלא אחד פחות. זה נעשה למטרת תיקון שגיאות. אקסל לוקח בחשבון את הניואנס הזה בפונקציה מיוחדת המיועדת לסוג זה של חישוב - DISP.V. התחביר שלו מיוצג על ידי הנוסחה הבאה:

DISP.B(מספר1;מספר2;...)

גם מספר הארגומנטים, כמו בפונקציה הקודמת, יכול לנוע בין 1 ל-255.


כפי שאתה יכול לראות, תוכנית Excel יכולה להקל מאוד על חישוב השונות. נתון זה יכול להיות מחושב על ידי האפליקציה, בין אם מתוך האוכלוסייה או מהמדגם. במקרה זה, כל פעולות המשתמש מסתכמות למעשה בציון טווח המספרים שיש לעבד, ואקסל עושה את העבודה העיקרית בעצמו. כמובן, זה יחסוך כמות משמעותית של זמן למשתמש.

.

לעומת זאת, אם הוא לא שלילי א.ה. לתפקד כך , אז יש מדד הסתברות רציף לחלוטין על כך שהוא הצפיפות שלו.

    החלפת המידה באינטגרל לבסג:

,

היכן נמצאת כל פונקציית Borel הניתנת לאינטגרציה ביחס למדד ההסתברות.

פיזור, סוגי ומאפיינים של פיזור מושג הפיזור

פיזור בסטטיסטיקהנמצא כסטיית התקן של הערכים האישיים של המאפיין בריבוע מהממוצע האריתמטי. בהתאם לנתונים הראשוניים, הוא נקבע באמצעות נוסחאות השונות הפשוטות והמשוקללות:

1. שונות פשוטה(עבור נתונים לא מקובצים) מחושב באמצעות הנוסחה:

2. שונות משוקללת (עבור סדרות וריאציות):

כאשר n הוא תדירות (החזרה של גורם X)

דוגמה למציאת שונות

דף זה מתאר דוגמה סטנדרטית למציאת שונות, אתה יכול גם להסתכל על בעיות אחרות כדי למצוא אותה

דוגמה 1. קביעת קבוצה, ממוצע קבוצתי, בין קבוצה ושונות כוללת

דוגמה 2. מציאת השונות ומקדם השונות בטבלת קיבוץ

דוגמה 3. מציאת שונות בסדרה בדידה

דוגמה 4. הנתונים הבאים זמינים עבור קבוצה של 20 סטודנטים להתכתבות. יש צורך לבנות סדרת מרווחים של התפלגות המאפיין, לחשב את הערך הממוצע של המאפיין וללמוד את פיזורו

בואו נבנה קיבוץ אינטרוולים. בואו נקבע את טווח המרווח באמצעות הנוסחה:

כאשר X max הוא הערך המרבי של מאפיין הקיבוץ; X min - ערך מינימלי של מאפיין הקיבוץ; n - מספר מרווחים:

אנו מקבלים n=5. הצעד הוא: h = (192 - 159)/ 5 = 6.6

בואו ניצור קיבוץ מרווחים

לחישובים נוספים, נבנה טבלת עזר:

X"i – אמצע המרווח. (לדוגמה, אמצע המרווח 159 – 165.6 = 162.3)

אנו קובעים את הגובה הממוצע של תלמידים באמצעות נוסחת הממוצע האריתמטי המשוקלל:

בואו נקבע את השונות באמצעות הנוסחה:

ניתן לשנות את הנוסחה כך:

מהנוסחה הזו נובע מכך השונות שווה ל ההפרש בין ממוצע הריבועים של האופציות לבין הריבוע והממוצע.

פיזור בסדרות וריאציותעם מרווחים שווים בשיטת המומנטים ניתן לחשב בדרך הבאה באמצעות התכונה השנייה של פיזור (חלוקת כל האפשרויות בערך המרווח). קביעת שונות, מחושב בשיטת הרגעים, השימוש בנוסחה הבאה הוא פחות אינטנסיבי בעבודה:

כאשר i הוא הערך של המרווח; A הוא אפס קונבנציונלי, שעבורו נוח להשתמש באמצע המרווח בתדירות הגבוהה ביותר; m1 הוא הריבוע של רגע הסדר הראשון; m2 - רגע מסדר שני

שונות תכונה חלופית (אם באוכלוסייה סטטיסטית מאפיין משתנה בצורה כזו שיש רק שתי אפשרויות סותרות זו את זו, אז שונות כזו נקראת אלטרנטיבה) ניתן לחשב באמצעות הנוסחה:

החלפת q = 1- p בנוסחת הפיזור הזו, נקבל:

סוגי שונות

שונות מוחלטתמודד את השונות של מאפיין על פני כל האוכלוסייה כולה בהשפעת כל הגורמים הגורמים לשונות זו. זה שווה לריבוע הממוצע של הסטיות של ערכים בודדים של מאפיין x מהערך הממוצע הכולל של x וניתן להגדיר אותו כשונות פשוטה או שונות משוקללת.

שונות בתוך הקבוצה מאפיין וריאציה אקראית, כלומר. חלק מהשוני הנובע מהשפעתם של גורמים לא מטופלים ואינו תלוי בתכונת הגורם המהווה את הבסיס לקבוצה. פיזור כזה שווה לריבוע הממוצע של הסטיות של ערכים בודדים של התכונה בתוך קבוצה X מהממוצע האריתמטי של הקבוצה וניתן לחשב אותו כפיזור פשוט או כפיזור משוקלל.

כָּך, מדדי שונות בתוך הקבוצהוריאציה של תכונה בתוך קבוצה והיא נקבעת על ידי הנוסחה:

כאשר xi הוא ממוצע הקבוצה; ni הוא מספר היחידות בקבוצה.

לדוגמה, שונות תוך-קבוצתית שיש לקבוע במשימת לימוד השפעת כישורי העובדים על רמת פריון העבודה בסדנה מראות שונות בתפוקה בכל קבוצה הנגרמת על ידי כל הגורמים האפשריים (מצב טכני של ציוד, זמינות של כלים וחומרים, גיל העובדים, עוצמת העבודה וכו' .), למעט הבדלים בקטגוריית ההסמכה (בתוך קבוצה לכל העובדים יש את אותן הכישורים).

הממוצע של השונות בתוך הקבוצה משקף שונות אקראית, כלומר, אותו חלק מהשונות שהתרחש בהשפעת כל הגורמים האחרים, למעט גורם הקיבוץ. זה מחושב באמצעות הנוסחה:

שונות בין קבוצותמאפיין את השונות השיטתית של המאפיין המתקבל, הנובעת מהשפעת סימן הגורם, המהווה את הבסיס לקבוצה. זה שווה לריבוע הממוצע של הסטיות של ממוצע הקבוצה מהממוצע הכולל. השונות בין קבוצות מחושבת באמצעות הנוסחה:



אהבתם את הכתבה? שתף אותו
רֹאשׁ