Zoskupovanie údajov a vytváranie distribučných radov. Algoritmus na zostavenie intervalových variačných radov s rovnakými intervalmi

2. Koncept distribučnej série. Diskrétne a intervalové distribučné rady

Distribučné riadky sa nazývajú zoskupenia osobitného typu, v ktorých je pre každú charakteristiku, skupinu charakteristík alebo triedu charakteristík známy počet jednotiek v skupine alebo podiel tohto počtu na celkovom súčte. Tie. distribučná séria– usporiadaná množina hodnôt atribútov usporiadaná vzostupne alebo zostupne s ich zodpovedajúcimi váhami. Distribučné rady môžu byť konštruované buď podľa kvantitatívnych alebo atribútových charakteristík.

Distribučné rady zostavené na kvantitatívnom základe sa nazývajú variačné série. Oni sú diskrétne a intervalové. Distribučný rad môže byť zostavený na základe kontinuálne sa meniacej charakteristiky (keď charakteristika môže nadobúdať ľubovoľné hodnoty v rámci akéhokoľvek intervalu) a na diskrétne sa meniacej charakteristike (nadobúda presne definované celočíselné hodnoty).

Diskrétne Séria variácií distribúcie je zoradený súbor možností s ich zodpovedajúcimi frekvenciami alebo podrobnosťami. Varianty diskrétnej série sú diskrétne nepretržite sa meniace hodnoty charakteristiky, zvyčajne výsledkom počítania.

Diskrétne

Variačné série sa zvyčajne konštruujú, ak sa hodnoty študovanej charakteristiky môžu navzájom líšiť nie menej ako o určitú konečnú hodnotu. V diskrétnych sériách sú špecifikované bodové hodnoty charakteristiky. Príklad : Distribúcia pánskych oblekov predávaných predajňami za mesiac podľa veľkosti.

Interval

Séria variácií je usporiadaná množina intervalov meniacich sa hodnôt náhodnej premennej so zodpovedajúcimi frekvenciami alebo frekvenciami hodnôt premennej, ktoré spadajú do každej z nich. Intervalové rady sú určené na analýzu rozloženia plynule sa meniacej charakteristiky, ktorej hodnota sa najčastejšie zaznamenáva meraním alebo vážením. Varianty takejto série sú zoskupenia.

Príklad : Rozdelenie nákupov v obchode s potravinami podľa sumy.

Ak sa v diskrétnych variačných sériách frekvenčná odozva vzťahuje priamo na variant série, potom v intervalových sériách sa vzťahuje na skupinu variantov.

Je vhodné analyzovať distribučné rady pomocou ich grafického znázornenia, ktoré umožňuje posúdiť tvar distribúcie a vzory. Samostatná séria je na grafe znázornená prerušovanou čiarou - distribučný polygón. Aby sa to vytvorilo, v pravouhlom súradnicovom systéme sa zoradené (usporiadané) hodnoty meniacej sa charakteristiky vynesú pozdĺž osi x v rovnakej mierke a mierka na vyjadrenie frekvencií sa vynesie pozdĺž osi y.

Intervalové série sú znázornené ako distribučné histogramy(čiže stĺpcové grafy).

Pri konštrukcii histogramu sú hodnoty intervalov vynesené na osi x a frekvencie sú znázornené obdĺžnikmi vytvorenými na zodpovedajúcich intervaloch. Výška stĺpcov v prípade rovnakých intervalov by mala byť úmerná frekvenciám.

Akýkoľvek histogram je možné previesť na distribučný polygón, na to je potrebné spojiť vrcholy jeho obdĺžnikov s rovnými segmentmi.

2. Indexová metóda na analýzu vplyvu priemerného výkonu a priemerného počtu zamestnancov na zmeny objemu výroby

Indexová metóda slúžia na analýzu dynamiky a porovnávanie všeobecných ukazovateľov, ako aj faktorov ovplyvňujúcich zmeny úrovní týchto ukazovateľov. Pomocou indexov je možné identifikovať vplyv priemerného výkonu a priemerného počtu zamestnancov na zmeny objemu výroby. Tento problém je vyriešený vytvorením systému analytických indexov.

Index objemu výroby súvisí s priemerným počtom zamestnancov a index priemernej produkcie rovnako ako objem produkcie (Q) súvisí s produkciou ( w) a čísla ( r) .

Môžeme konštatovať, že objem výroby sa bude rovnať súčinu priemerného výkonu a priemerného počtu zamestnancov:

Q = w r, kde Q je objem výroby,

w - priemerný výkon,

r – priemerný počet zamestnancov.

Ako vidíte, hovoríme o vzťahu javov v statike: súčin dvoch faktorov dáva celkový objem výsledného javu. Je tiež zrejmé, že toto spojenie je funkčné, preto sa dynamika tohto spojenia študuje pomocou indexov. Pre uvedený príklad je to nasledujúci systém:

Jw × Jr = Jwr.

Napríklad index objemu výroby Jwr, ako index produktívneho javu, možno rozložiť na dva faktorové indexy: index priemernej produkcie (Jw) a index priemerného počtu zamestnancov (Jr):

Index Index Index

objem priemernej mzdy

výrobné výstupné číslo

Kde J w- index produktivity práce vypočítaný pomocou Laspeyresovho vzorca;

ml- index počtu zamestnancov vypočítaný pomocou Paascheho vzorca.

Indexové systémy slúžia na zisťovanie vplyvu jednotlivých faktorov na tvorbu úrovne výkonnostného ukazovateľa, umožňujú určiť hodnotu neznámej z 2 známych hodnôt indexu.

Na základe vyššie uvedenej sústavy indexov možno nájsť aj absolútny nárast objemu produkcie, rozložený na vplyv faktorov.

1. Všeobecné zvýšenie objemu výroby:

∆wr = ∑w 1 r 1 - ∑w 0 r 0 .

2. Zvýšenie v dôsledku pôsobenia ukazovateľa priemerného výstupu:

∆wr/w = ∑w 1 r 1 - ∑w 0 r 1 .

3. Zvýšenie v dôsledku pôsobenia ukazovateľa priemerného počtu zamestnancov:

∆wr/r = ∑w 0 r 1 - ∑w 0 r 0

∆wr = ∆wr/w + ∆wr/r.

Príklad. Nasledujúce údaje sú známe

Môžeme určiť, ako sa zmenil objem výroby v relatívnom a absolútnom vyjadrení a ako jednotlivé faktory ovplyvnili túto zmenu.

Objem výroby bol:

v základnom období

w 0 * r 0 = 2 000 * 90 = 180 000,

a v prehľadoch

w 1 * r 1 = 2100 * 100 = 210 000.

V dôsledku toho sa objem výroby zvýšil o 30 000 alebo 1,16%.

∆wr=∑w 1 r 1 - ∑w 0 r 0= (210000-180000)=30000

alebo (210000:180000)*100%=1,16%.

Táto zmena v objeme výroby bola spôsobená:

1) zvýšenie priemerného počtu zamestnancov o 10 ľudí alebo 111,1 %

r1/r0 = 100/90 = 1,11 alebo 111,1 %.

V absolútnom vyjadrení sa vďaka tomuto faktoru objem výroby zvýšil o 20 000:

w 0 r 1 – w 0 r 0 = w 0 (r 1 -r 0) = 2000 (100-90) = 20 000.

2) zvýšenie priemernej produkcie o 105 % alebo 10 000:

w 1 r 1 /w 0 r 1 = 2100*100/2000*100 = 1,05 alebo 105 %.

V absolútnom vyjadrení je nárast:

w 1 r 1 – w 0 r 1 = (w 1 -w 0) r 1 = (2100-2000)*100 = 10 000.

Kombinovaný vplyv faktorov bol teda:

1. V absolútnom vyjadrení

10000 + 20000 = 30000

2. V relatívnom vyjadrení

1,11 * 1,05 = 1,16 (116%)

Nárast je teda 1,16 %. Oba výsledky boli získané skôr.

Slovo „index“ v preklade znamená ukazovateľ, ukazovateľ. V štatistike sa index interpretuje ako relatívny ukazovateľ, ktorý charakterizuje zmenu javu v čase, priestore alebo v porovnaní s plánom. Keďže index je relatívna hodnota, názvy indexov sú v súlade s názvami relatívnych hodnôt.

V prípadoch, keď analyzujeme zmeny v porovnávaných produktoch v čase, môžeme si položiť otázku, ako sa menia zložky indexu (cena, fyzický objem, štruktúra výroby alebo predaja jednotlivých druhov produktov) za rôznych podmienok (v rôznych oblastiach) . V tomto ohľade sú konštruované indexy konštantného zloženia, variabilného zloženia a štrukturálnych zmien.

Index trvalého (pevného) zloženia – Ide o index, ktorý charakterizuje dynamiku priemernej hodnoty pre rovnakú fixnú štruktúru obyvateľstva.

Princípom konštrukcie indexu konštantného zloženia je eliminovať vplyv zmien v štruktúre váh na indexovanú hodnotu výpočtom úrovne váženého priemeru indexovaného ukazovateľa s rovnakými váhami.

Konštantný index zloženia je vo forme identický s indexom agregátu. Súhrnná forma je najbežnejšia.

Index konštantného zloženia sa počíta s váhami fixnými na úrovni jedného obdobia a zobrazuje zmenu len indexovanej hodnoty. Index konštantného zloženia eliminuje vplyv zmien v štruktúre váh na indexovanú hodnotu výpočtom váženej priemernej úrovne indexovaného ukazovateľa s rovnakými váhami. Indexy konštantného zloženia porovnávajú ukazovatele vypočítané na základe nezmenenej štruktúry javov.

Príklad riešenia testu z matematickej štatistiky

Problém 1

Počiatočné údaje : študenti určitej skupiny pozostávajúcej z 30 ľudí zložili skúšku z kurzu „Informatika“. Známky, ktoré študenti dostanú, tvoria nasledujúci rad čísel:

I. Vytvorme variačný rad

m X

w X

m X nak

w X nak

Celkom:

II. Grafické znázornenie štatistických informácií.

III. Číselné charakteristiky vzorky.

1. Aritmetický priemer

2. Geometrický priemer

3. Móda

4. Medián

222222333333333 | 3 34444444445555

5. Rozptyl vzorky

7. Variačný koeficient

8. Asymetria

9. Koeficient asymetrie

10. Prebytok

11. Kurtózny koeficient

Problém 2

Počiatočné údaje : Študenti niektorej skupiny písali záverečný test. Skupinu tvorí 30 ľudí. Body dosiahnuté študentmi tvoria nasledujúci rad čísel

Riešenie

I. Keďže charakteristika nadobúda veľa rôznych hodnôt, zostrojíme pre ňu intervalový variačný rad. Najprv nastavte hodnotu intervalu h. Použime Stangerov vzorec

Vytvorme intervalovú stupnicu. V tomto prípade budeme brať ako hornú hranicu prvého intervalu hodnotu určenú vzorcom:

Horné hranice nasledujúcich intervalov určujeme pomocou nasledujúceho opakujúceho sa vzorca:

, Potom

Dokončujeme konštrukciu intervalovej stupnice, pretože horná hranica nasledujúceho intervalu je väčšia alebo rovná maximálnej hodnote vzorky
.

II. Grafické zobrazenie intervalových variačných sérií

III. Číselné charakteristiky vzorky

Na zistenie číselných charakteristík vzorky zostavíme pomocnú tabuľku

Sum:

1. Aritmetický priemer

2. Geometrický priemer

3. Móda

4. Medián

10 11 12 12 13 13 13 13 14 14 14 14 15 15 15 |15 15 15 16 16 16 16 16 17 17 18 19 19 20 20

5. Rozptyl vzorky

6. Štandardná odchýlka vzorky

7. Variačný koeficient

8. Asymetria

9. Koeficient asymetrie

10. Prebytok

11. Kurtózny koeficient

Problém 3

Podmienka : hodnota dielika ampérmetra je 0,1 A. Hodnoty sú zaokrúhlené na najbližší celý dielik. Nájdite pravdepodobnosť, že počas čítania dôjde k chybe, ktorá prekročí 0,02 A.

Riešenie.

Chybu zaokrúhľovania vzorky možno považovať za náhodnú premennú X, ktorá je rozložená rovnomerne v intervale medzi dvoma susednými celočíselnými dielikmi. Rovnomerná hustota distribúcie

Kde
- dĺžka intervalu obsahujúceho možné hodnoty X; mimo tohto intervalu
V tomto probléme je dĺžka intervalu obsahujúceho možné hodnoty X, sa rovná 0,1, takže

Chyba čítania presiahne 0,02, ak je v intervale (0,02; 0,08). Potom

odpoveď: R=0,6

Problém 4

Počiatočné údaje: matematické očakávanie a smerodajná odchýlka normálne rozloženej charakteristiky X rovná 10 a 2. Nájdite pravdepodobnosť, že ako výsledok testu X bude mať hodnotu obsiahnutú v intervale (12, 14).

Riešenie.

Použime vzorec

A teoretické frekvencie

Riešenie

Pre X je jeho matematické očakávanie M(X) a rozptyl D(X). Riešenie. Nájdite distribučnú funkciu F(x) náhodnej premennej... výberová chyba). Poďme skladať variačný riadokŠírka intervalu bude: Pre každú hodnotu riadok Poďme si spočítať, koľko...

  • Riešenie: separovateľná rovnica

    Riešenie

    Vo forme Ak chcete nájsť kvocient riešenia nehomogénna rovnica poďme sa nalíčiť sústava Vyriešme výslednú sústavu... ; +47; +61; +10; -8. Interval zostavenia variačný riadok. Uveďte štatistické odhady priemernej hodnoty...

  • Riešenie: Vypočítajme reťazové a základné absolútne prírastky, miery rastu, miery rastu. Získané hodnoty zhrnieme v tabuľke 1

    Riešenie

    Objem výroby. Riešenie: Aritmetický priemer intervalu variačný riadok sa vypočíta takto: pre... Hraničná výberová chyba s pravdepodobnosťou 0,954 (t=2) bude: Δ w = t*μ = 2*0,0146 = 0,02927 Definujme hranice...

  • Riešenie. Podpísať

    Riešenie

    O koho pracovných skúsenostiach a vymyslené vzorka. Vzorová priemerná pracovná skúsenosť... týchto zamestnancov a vymyslené vzorka. Priemerná dĺžka trvania vzorky... 1,16, hladina významnosti α = 0,05. Riešenie. Variačné riadok z tejto vzorky vyzerá takto: 0,71 ...

  • Pracovný učebný plán z biológie pre ročníky 10-11 Zostavila: Polikarpova S.V.

    Pracovný učebný plán

    Najjednoduchšie schémy kríženia“ 5 L.r. " Riešenie elementárne genetické problémy“ 6 L.b. " Riešenie elementárne genetické problémy“ 7 L.b. "..., 110, 115, 112, 110." Skladať variačný riadok, kresliť variačný krivky, nájdite priemernú hodnotu charakteristiky...

  • Laboratórna práca č.1. Primárne spracovanie štatistických údajov

    Konštrukcia distribučných sérií

    Usporiadané rozdelenie populačných jednotiek do skupín podľa ktorejkoľvek charakteristiky sa nazýva blízko distribúcie . V tomto prípade môže byť charakteristika buď kvantitatívna, potom sa nazýva séria variačný , a kvalitatívne, potom sa séria nazýva prívlastkový . Takže napríklad obyvateľstvo mesta môže byť rozdelené podľa vekových skupín vo variačnom rade alebo podľa profesijnej príslušnosti v atribútovom rade (samozrejme, na zostavenie distribučných radov možno navrhnúť oveľa viac kvalitatívnych a kvantitatívnych charakteristík; výber charakteristika je určená úlohou štatistického výskumu).

    Každá distribučná séria sa vyznačuje dvoma prvkami:

    - možnosť(x i) – ide o jednotlivé hodnoty charakteristiky jednotiek vo výberovej populácii. Pre variačný rad má možnosť číselné hodnoty, pre atribútový rad kvalitatívny (napríklad x = „štátny zamestnanec“);

    - frekvencia(n i) – číslo, ktoré ukazuje, koľkokrát sa konkrétna hodnota atribútu vyskytuje. Ak je frekvencia vyjadrená ako relatívne číslo (t. j. podiel prvkov populácie zodpovedajúci danej hodnote možností na celkovom objeme populácie), ide o tzv. relatívna frekvencia alebo frekvencia.

    Séria variácií môže byť:

    - diskrétne, keď je študovaná charakteristika charakterizovaná určitým číslom (zvyčajne celým číslom).

    - interval, keď sú hranice „od“ a „do“ definované pre neustále sa meniacu charakteristiku. Intervalový rad sa skonštruuje aj vtedy, ak je množina hodnôt diskrétne meniacej sa charakteristiky veľká.

    Intervalový rad možno zostrojiť s rovnako dlhými intervalmi (rovnaký intervalový rad), ako aj s nerovnakými intervalmi, ak si to vyžadujú podmienky štatistickej štúdie. Napríklad možno zvážiť sériu rozdelenia príjmov s nasledujúcimi intervalmi:<5тыс р., 5-10 тыс р., 10-20 тыс.р., 20-50 тыс р., и т.д. Если цель исследования не определяет способ построения интервального ряда, то строится равноинтервальный ряд, число интервалов в котором определяется по формуле Стерджесса:



    kde k je počet intervalov, n je veľkosť vzorky. (Samozrejme, vzorec zvyčajne udáva zlomkové číslo a ako počet intervalov sa volí najbližšie celé číslo k výslednému číslu.) Dĺžka intervalu je v tomto prípade určená vzorcom

    .

    Graficky môžu byť variačné série prezentované vo forme histogramy(nad každým intervalom intervalového radu je vybudovaný „stĺpec“ výšky zodpovedajúci frekvencii v tomto intervale), distribučný polygón(prerušovaná čiara spájajúca body ( x i;n i) alebo kumuluje(postavená na akumulovaných frekvenciách, t.j. pre každú hodnotu atribútu sa berie frekvencia výskytu v množine objektov s hodnotou atribútu menšou ako je daná).

    Pri práci v Exceli je možné použiť nasledujúce funkcie na vytvorenie sérií variácií:

    KONTROLA( dátové pole) – na určenie veľkosti vzorky. Argumentom je rozsah buniek, v ktorých sa vzorové údaje nachádzajú.

    COUNTIF( rozsah; kritérium) – možno použiť na zostavenie atribútu alebo variačného radu. Argumenty sú rozsah poľa vzorových hodnôt atribútu a kritérium - číselná alebo textová hodnota atribútu alebo číslo bunky, v ktorej sa nachádza. Výsledkom je frekvencia výskytu tejto hodnoty vo vzorke.

    FREQUENCY( dátové pole; pole intervalov) – na zostavenie série variácií. Argumenty sú rozsah poľa vzorových údajov a stĺpec intervalu. Ak potrebujete vytvoriť diskrétnu sériu, potom sú tu uvedené hodnoty možností; ak ide o intervalovú sériu, potom horné hranice intervalov (nazývajú sa tiež „vrecká“). Keďže výsledkom je stĺpec frekvencií, zadanie funkcie musíte dokončiť stlačením CTRL+SHIFT+ENTER. Všimnite si, že pri zadávaní poľa intervalov pri zavádzaní funkcie nemusíte zadať poslednú hodnotu - všetky hodnoty, ktoré neboli zahrnuté v predchádzajúcich „vreckách“, budú umiestnené do zodpovedajúceho „vrecka“. To môže niekedy pomôcť vyhnúť sa chybe, keď sa najväčšia hodnota vzorky automaticky neumiestni do posledného vrecka.

    Okrem toho pre zložité zoskupenia (na základe niekoľkých charakteristík) použite nástroj „kontingenčných tabuliek“. Možno ich použiť aj na konštrukciu radov atribútov a variácií, ale to zbytočne komplikuje úlohu. Na zostavenie série variácií a histogramu je k dispozícii aj postup „histogram“ z doplnku „Analysis Package“ (ak chcete použiť doplnky v Exceli, musíte si ich najskôr stiahnuť, predvolene nie sú nainštalované)

    Ukážme si proces primárneho spracovania údajov na nasledujúcich príkladoch.

    Príklad 1.1. Existujú údaje o kvantitatívnom zložení 60 rodín.

    Zostrojte sériu variácií a distribučný polygón

    Riešenie.

    Otvorme si excelové tabuľky. Zadajte dátové pole do rozsahu A1:L5. Ak študujete dokument v elektronickej forme (napríklad vo formáte Word), stačí vybrať tabuľku s údajmi a skopírovať ju do schránky, potom vybrať bunku A1 a vložiť údaje - automaticky obsadia vhodný rozsah. Vypočítajme objem vzorky n - počet údajov vzorky; za týmto účelom zadajte do bunky B7 vzorec =POČET(A1:L5). Upozorňujeme, že na zadanie požadovaného rozsahu do vzorca nie je potrebné zadávať jeho označenie z klávesnice, stačí ho vybrať. Určme minimálne a maximálne hodnoty vo vzorke zadaním vzorca =MIN(A1:L5) do bunky B8 a =MAX(A1:L5) do bunky B9.

    Obr.1.1 Príklad 1. Primárne spracovanie štatistických údajov v tabuľkách Excel

    Ďalej si pripravíme tabuľku na zostavenie variačného radu zadaním názvov pre stĺpec interval (hodnoty variantov) a stĺpec frekvencie. V stĺpci interval zadajte charakteristické hodnoty od minima (1) po maximum (6) v rozsahu B12:B17. Vyberte stĺpec frekvencie, zadajte vzorec =FREQUENCY(A1:L5,B12:B17) a stlačte kombináciu klávesov CTRL+SHIFT+ENTER

    Obr. 1.2 Príklad 1. Konštrukcia série variácií

    Na kontrolu vypočítajme súčet frekvencií pomocou funkcie SUM (ikona funkcie S v skupine „Úpravy“ na karte „Domov“), vypočítaný súčet by sa mal zhodovať s predtým vypočítaným objemom vzorky v bunke B7.

    Teraz zostavme polygón: po výbere výsledného frekvenčného rozsahu vyberte príkaz „Graf“ na karte „Vložiť“. V predvolenom nastavení budú hodnoty na vodorovnej osi poradové čísla - v našom prípade od 1 do 6, čo sa zhoduje s hodnotami možností (čísla tarifných kategórií).

    Názov série grafov „séria 1“ je možné zmeniť pomocou rovnakej možnosti „vybrať údaje“ na karte „Návrh“ alebo jednoducho odstrániť.

    Obr.1.3. Príklad 1. Konštrukcia frekvenčného mnohouholníka

    Príklad 1.2. Existujú údaje o emisiách znečisťujúcich látok z 50 zdrojov:

    10,4 18,6 10,3 26,0 45,0 18,2 17,3 19,2 25,8 18,7
    28,2 25,2 18,4 17,5 41,8 14,6 10,0 37,8 10,5 16,0
    18,1 16,8 38,5 37,7 17,9 29,0 10,1 28,0 12,0 14,0
    14,2 20,8 13,5 42,4 15,5 17,9 19, 10,8 12,1 12,4
    12,9 12,6 16,8 19,7 18,3 36,8 15,0 37,0 13,0 19,5

    Zostavte sériu s rovnakým intervalom, vytvorte histogram

    Riešenie

    Zadajte dátové pole do hárku Excelu, bude zaberať rozsah A1:J5 Rovnako ako v predchádzajúcej úlohe určíme veľkosť vzorky n, minimálne a maximálne hodnoty vo vzorke. Keďže teraz nepotrebujeme diskrétny rad, ale intervalový rad a počet intervalov v úlohe nie je zadaný, vypočítame počet intervalov k pomocou Sturgessovho vzorca. Ak to chcete urobiť, zadajte do bunky B10 vzorec =1+3,322*LOG10(B7).

    Obr.1.4. Príklad 2. Konštrukcia radu s rovnakým intervalom

    Výsledná hodnota nie je celé číslo, je to približne 6,64. Keďže pri k=7 bude dĺžka intervalov vyjadrená ako celé číslo (na rozdiel od k=6), zvolíme k=7 zadaním tejto hodnoty do bunky C10. Dĺžku intervalu d v bunke B11 vypočítame zadaním vzorca =(B9-B8)/C10.

    Definujme pole intervalov, označujúce horný limit pre každý zo 7 intervalov. Aby sme to dosiahli, v bunke E8 vypočítame hornú hranicu prvého intervalu zadaním vzorca =B8+B11; v bunke E9 hornú hranicu druhého intervalu zadaním vzorca =E8+B11. Na výpočet zostávajúcich hodnôt horných hraníc intervalov fixujeme počet bunky B11 v zadanom vzorci pomocou znaku $, takže vzorec v bunke E9 má tvar =E8+B$11 a skopírujeme obsah bunky E9 do buniek E10-E14. Posledná získaná hodnota sa rovná maximálnej hodnote vo vzorke vypočítanej skôr v bunke B9.

    Obr.1.5. Príklad 2. Konštrukcia radu s rovnakým intervalom


    Teraz vyplňte pole „vreciek“ pomocou funkcie FREQUENCY, ako to bolo urobené v príklade 1.

    Obr.1.6. Príklad 2. Konštrukcia radu s rovnakým intervalom

    Pomocou výsledného radu variácií vytvoríme histogram: vyberte stĺpec frekvencie a na karte „Vložiť“ vyberte „Histogram“. Po prijatí histogramu zmeňme označenia horizontálnej osi v ňom na hodnoty v rozsahu intervalov; na to vyberte možnosť „Vybrať údaje“ na karte „Návrhár“. V zobrazenom okne vyberte príkaz „Zmeniť“ pre časť „Štítky horizontálnej osi“ a zadajte rozsah hodnôt možností a vyberte ho myšou.

    Obr.1.7. Príklad 2. Zostrojenie histogramu

    Obr.1.8. Príklad 2. Zostrojenie histogramu

    V mnohých prípadoch, keď štatistická populácia zahŕňa veľké alebo ešte viac nekonečné množstvo variantov, čo sa najčastejšie vyskytuje s kontinuálnou variáciou, je prakticky nemožné a nepraktické vytvoriť skupinu jednotiek pre každý variant. V takýchto prípadoch je spájanie štatistických jednotiek do skupín možné len na základe intervalu, t.j. taká skupina, ktorá má určité limity pre hodnoty rôznej charakteristiky. Tieto limity sú označené dvomi číslami označujúcimi horný a dolný limit každej skupiny. Použitie intervalov vedie k vytvoreniu intervalového distribučného radu.

    Interval rad je variačný rad, ktorého varianty sú prezentované vo forme intervalov.

    Intervalový rad možno tvoriť s rovnakými a nerovnakými intervalmi, pričom výber princípu konštrukcie tohto radu závisí najmä od stupňa reprezentatívnosti a vhodnosti štatistickej populácie. Ak je populácia dostatočne veľká (reprezentatívna) čo do počtu jednotiek a je svojím zložením úplne homogénna, potom je vhodné založiť tvorbu intervalového radu na rovnosti intervalov. Zvyčajne sa pomocou tohto princípu vytvorí intervalový rad pre tie populácie, kde je rozsah variácie relatívne malý, t.j. maximálna a minimálna možnosť sa od seba zvyčajne niekoľkokrát líšia. V tomto prípade sa hodnota rovnakých intervalov vypočíta ako pomer rozsahu variácie charakteristiky k danému počtu vytvorených intervalov. Na určenie rovného A interval, možno použiť Sturgessov vzorec (zvyčajne s malou variáciou intervalových charakteristík a veľkým počtom jednotiek v štatistickej populácii):

    kde x i - hodnota rovnakého intervalu; X max, X min - maximálne a minimálne možnosti v štatistickom agregáte; n . - počet jednotiek v súhrne.

    Príklad. Odporúča sa vypočítať veľkosť rovnakého intervalu podľa hustoty rádioaktívnej kontaminácie céziom - 137 v 100 osadách Krasnopolského okresu v regióne Mogilev, ak je známe, že počiatočná (minimálna) možnosť sa rovná 1 km / km 2, konečná ( maximum) - 65 ki/km 2. Použitie vzorca 5.1. dostaneme:

    V dôsledku toho, aby sa vytvoril intervalový rad s rovnakými intervalmi z hľadiska hustoty kontaminácie céziou - 137 sídiel v Krasnopolskom kraji, veľkosť rovnakého intervalu môže byť 8 ki/km 2 .

    Za podmienok nerovnomerného rozdelenia, t.j. keď sú maximálne a minimálne možnosti stonásobné, pri vytváraní intervalových radov môžete použiť princíp nerovný intervaloch. Nerovnaké intervaly sa zvyčajne zväčšujú, keď prechádzame k väčším hodnotám charakteristiky.

    Tvar intervalov môže byť uzavretý alebo otvorený. ZATVORENÉ Je zvykom volať intervaly, ktoré majú spodnú aj hornú hranicu. OTVORENÉ intervaly majú len jednu hranicu: v prvom intervale je horná hranica, v poslednom je dolná hranica.

    Je vhodné hodnotiť intervalové série, najmä pri nerovnakých intervaloch, s prihliadnutím hustota distribúcie, najjednoduchší spôsob, ako vypočítať, aký je pomer lokálnej frekvencie (alebo frekvencie) k veľkosti intervalu.

    Na praktické vytvorenie intervalovej série môžete použiť rozloženie tabuľky. 5.3.

    Tabuľka 5.3. Postup pri vytváraní intervalového radu sídiel v Krasnopolskom kraji podľa hustoty rádioaktívnej kontaminácie céziom –137

    Hlavnou výhodou intervalového radu je jeho maximum kompaktnosť. zároveň sú v intervalových distribučných radoch jednotlivé varianty charakteristiky skryté v zodpovedajúcich intervaloch

    Pri grafickom znázornení intervalového radu v systéme pravouhlých súradníc sú horné hranice intervalov vynesené na osi x a lokálne frekvencie radu sú vynesené na zvislú os. Grafická konštrukcia intervalového radu sa líši od konštrukcie distribučného mnohouholníka v tom, že každý interval má dolnú a hornú hranicu a dve osi x zodpovedajú jednej ordinátnej hodnote. Preto na grafe intervalového radu nie je vyznačený bod ako v mnohouholníku, ale priamka spájajúca dva body. Tieto vodorovné čiary sú navzájom spojené zvislými čiarami a získa sa obrazec stupňovitého mnohouholníka, ktorý sa bežne nazýva histogram rozdelenie (obr. 5.3).

    Pri grafickom zostrojení intervalového radu pre dostatočne veľkú štatistickú populáciu sa približuje histogram symetrické forma distribúcie. V prípadoch, keď je štatistický súbor spravidla malý, asymetrické stĺpcový graf.

    V niektorých prípadoch je vhodné vytvoriť sériu akumulovaných frekvencií, t.j. kumulatívne riadok. Kumulatívna séria môže byť vytvorená na základe diskrétnej alebo intervalovej distribučnej série. Pri grafickom znázornení kumulatívneho radu v systéme pravouhlých súradníc sa varianty vynesú na vodorovnú os a akumulované frekvencie (frekvencie) sa vynesú na zvislú os. Výsledná zakrivená čiara sa zvyčajne nazýva kumulatívne rozdelenie (obr. 5.4).

    Tvorba a grafické znázornenie rôznych typov variačných radov prispieva k zjednodušenému výpočtu hlavných štatistických charakteristík, ktoré sú podrobne rozobraté v téme 6, a pomáha lepšie pochopiť podstatu distribučných zákonov štatistickej populácie. Analýza radu variácií nadobúda osobitný význam v prípadoch, keď je potrebné identifikovať a sledovať vzťah medzi možnosťami a frekvenciami (frekvenciami). Táto závislosť sa prejavuje v tom, že počet prípadov na opciu určitým spôsobom súvisí s veľkosťou tejto opcie, t.j. s rastúcimi hodnotami meniacej sa charakteristiky, frekvencie (frekvencie) týchto hodnôt zažívajú určité, systematické zmeny. To znamená, že čísla v stĺpci frekvencia (frekvencia) nekolísajú chaoticky, ale menia sa v určitom smere, v určitom poradí a postupnosti.

    Ak frekvencie vykazujú určitú systematickosť vo svojich zmenách, potom to znamená, že sme na ceste k identifikácii vzoru. Systém, poriadok, postupnosť zmien vo frekvenciách je odrazom všeobecných príčin, všeobecných podmienok charakteristických pre celú populáciu.

    Nemalo by sa predpokladať, že distribučný vzor je vždy uvedený v hotovej forme. Existuje pomerne veľa variačných sérií, v ktorých frekvencie bizarne skáču, niekedy sa zvyšujú, inokedy klesajú. V takýchto prípadoch je vhodné zistiť, s akým druhom distribúcie sa výskumník zaoberá: buď táto distribúcia nemá vôbec žiadne inherentné vzorce, alebo jej povaha ešte nebola odhalená: Prvý prípad je zriedkavý, ale druhý prípad je pomerne častým a veľmi rozšíreným javom.

    Takže pri vytváraní intervalového radu môže byť celkový počet štatistických jednotiek malý a každý interval obsahuje malý počet variantov (napríklad 1-3 jednotky). V takýchto prípadoch nemožno počítať s prejavom akéhokoľvek vzoru. Aby sa na základe náhodných pozorovaní dosiahol prirodzený výsledok, musí vstúpiť do platnosti zákon veľkých čísel, t.j. aby pre každý interval nebolo niekoľko, ale desiatky a stovky štatistických jednotiek. Na tento účel sa musíme snažiť čo najviac zvýšiť počet pozorovaní. Toto je najistejší spôsob, ako odhaliť vzory v hromadných procesoch. Ak neexistuje reálna príležitosť na zvýšenie počtu pozorovaní, identifikáciu vzoru možno dosiahnuť znížením počtu intervalov v distribučnom rade. Znížením počtu intervalov v sérii variácií sa tým zvýši počet frekvencií v každom intervale. To znamená, že náhodné fluktuácie každej štatistickej jednotky sa navzájom prekrývajú, „vyhladzujú“ a menia sa na vzor.

    Tvorba a konštrukcia variačných radov nám umožňuje získať len všeobecný, približný obraz o rozložení štatistickej populácie. Napríklad histogram len v hrubej forme vyjadruje vzťah medzi hodnotami charakteristiky a jej frekvenciami (frekvenciami). Variačné rady sú preto v podstate len základom pre ďalšie, hĺbkové štúdium vnútornej zákonitosti statického distribúcia.

    TESTOVACIE OTÁZKY K TÉME 5

    1. Čo je variácia? Čo spôsobuje variáciu vlastnosti v štatistickej populácii?

    2. Aké typy rôznych charakteristík sa môžu vyskytnúť v štatistike?

    3. Čo je to variačná séria? Aké typy variačných sérií môžu existovať?

    4. Čo je to hodnotená séria? Aké sú jeho výhody a nevýhody?

    5. Čo je to diskrétny rad a aké sú jeho výhody a nevýhody?

    6. Aký je postup pri tvorbe intervalového radu, aké sú jeho výhody a nevýhody?

    7. Čo je to grafické znázornenie zoradených, diskrétnych, intervalových distribučných radov?

    8. Čo je to kumulácia distribúcie a čo charakterizuje?

    Najdôležitejšou etapou pri skúmaní sociálno-ekonomických javov a procesov je systematizácia primárnych údajov a na tomto základe získanie súhrnnej charakteristiky celého objektu pomocou všeobecných ukazovateľov, čo sa dosiahne sumarizáciou a zoskupením primárneho štatistického materiálu.

    Štatistické zhrnutie - ide o komplex sekvenčných operácií na zovšeobecnenie konkrétnych individuálnych faktov, ktoré tvoria súbor s cieľom identifikovať typické znaky a vzorce vlastné skúmanému javu ako celku. Vykonanie štatistického súhrnu zahŕňa nasledujúce kroky :

    • výber charakteristík zoskupenia;
    • určenie poradia formovania skupiny;
    • vývoj systému štatistických ukazovateľov na charakterizáciu skupín a objektu ako celku;
    • vývoj rozložení štatistických tabuliek na prezentáciu súhrnných výsledkov.

    Štatistické zoskupenie sa nazýva rozdelenie skúmaných jednotiek populácie do homogénnych skupín podľa určitých pre ne podstatných vlastností. Zoskupenia sú najdôležitejšou štatistickou metódou na sumarizáciu štatistických údajov, základom pre správny výpočet štatistických ukazovateľov.

    Rozlišujú sa tieto typy zoskupení: typologické, štrukturálne, analytické. Všetky tieto zoskupenia spája skutočnosť, že jednotky objektu sú rozdelené do skupín podľa nejakej charakteristiky.

    Funkcia zoskupovania je charakteristika, podľa ktorej sa jednotky populácie delia do samostatných skupín. Závery štatistickej štúdie závisia od správneho výberu charakteristiky zoskupenia. Ako základ pre zoskupovanie je potrebné použiť významné, teoreticky podložené charakteristiky (kvantitatívne alebo kvalitatívne).

    Kvantitatívne charakteristiky zoskupovania mať číselné vyjadrenie (objem obchodov, vek osoby, rodinný príjem atď.) a kvalitatívne znaky zoskupenia odráža stav jednotky obyvateľstva (pohlavie, rodinný stav, odvetvie podniku, jeho forma vlastníctva atď.).

    Po určení základu zoskupenia je potrebné rozhodnúť o počte skupín, do ktorých by sa mala skúmaná populácia rozdeliť. Počet skupín závisí od cieľov štúdie a typu ukazovateľa, ktorý je základom zoskupenia, od objemu populácie a od stupňa variácie charakteristiky.

    Napríklad zoskupenie podnikov podľa druhu vlastníctva zohľadňuje obecný, federálny a federálny subjektový majetok. Ak sa zoskupovanie vykonáva podľa kvantitatívneho kritéria, potom je potrebné venovať osobitnú pozornosť počtu jednotiek skúmaného objektu a stupňu kolísania charakteristiky zoskupenia.

    Po určení počtu skupín sa musia určiť intervaly zoskupovania. Interval - to sú hodnoty rôznych charakteristík, ktoré ležia v určitých hraniciach. Každý interval má svoju hodnotu, hornú a dolnú hranicu alebo aspoň jednu z nich.

    Dolná hranica intervalu sa nazýva najmenšia hodnota charakteristiky v intervale, a Horná hranica - najvyššia hodnota charakteristiky v intervale. Hodnota intervalu je rozdiel medzi hornou a dolnou hranicou.

    Intervaly zoskupovania v závislosti od ich veľkosti sú: rovnaké a nerovnaké. Ak sa variácia charakteristiky prejavuje v relatívne úzkych hraniciach a distribúcia je rovnomerná, potom sa skupina vytvára v rovnakých intervaloch. Hodnota rovnakého intervalu je určená nasledujúcim vzorcom :

    kde Xmax, Xmin sú maximálne a minimálne hodnoty charakteristiky v súhrne; n - počet skupín.

    Najjednoduchšie zoskupenie, v ktorom je každá vybraná skupina charakterizovaná jedným ukazovateľom, predstavuje distribučný rad.

    Štatistické distribučné rady - ide o usporiadané rozdelenie jednotiek obyvateľstva do skupín podľa určitej charakteristiky. V závislosti od charakteristiky, ktorá je základom tvorby distribučných radov, sa rozlišujú atribútové a variačné distribučné rady.

    Prívlastkový sa nazývajú distribučné rady zostavené podľa kvalitatívnych charakteristík, teda charakteristík, ktoré nemajú číselné vyjadrenie (rozdelenie podľa druhu práce, podľa pohlavia, profesie atď.). Atributívne distribučné rady charakterizujú zloženie populácie podľa určitých podstatných charakteristík. Tieto údaje získané z niekoľkých období umožňujú študovať zmeny v štruktúre.

    Variačné série sa nazývajú distribučné série konštruované na kvantitatívnom základe. Každá séria variácií pozostáva z dvoch prvkov: možností a frekvencií. možnosti nazývajú sa jednotlivé hodnoty charakteristiky, ktorú má vo variačnom rade, to znamená špecifická hodnota premennej charakteristiky.

    Frekvencie sa nazývajú čísla jednotlivých variantov alebo každej skupiny variačného radu, to znamená, že ide o čísla, ktoré ukazujú, ako často sa určité varianty vyskytujú v distribučnom rade. Súčet všetkých frekvencií určuje veľkosť celej populácie, jej objem. Frekvencie sa nazývajú frekvencie vyjadrené v zlomkoch jednotky alebo ako percento z celku. V súlade s tým sa súčet frekvencií rovná 1 alebo 100 %.

    V závislosti od povahy variácie charakteristiky sa rozlišujú tri formy variačných radov: radový rad, diskrétny rad a intervalový rad.

    Hodnotené série variácií - ide o rozloženie jednotlivých jednotiek populácie vo vzostupnom alebo zostupnom poradí podľa skúmanej charakteristiky. Hodnotenie umožňuje jednoducho rozdeliť kvantitatívne údaje do skupín, okamžite zistiť najmenšie a najväčšie hodnoty charakteristiky a zvýrazniť hodnoty, ktoré sa najčastejšie opakujú.

    Séria diskrétnych variácií charakterizuje rozdelenie jednotiek populácie podľa diskrétnej charakteristiky, ktorá nadobúda iba celočíselné hodnoty. Napríklad tarifná kategória, počet detí v rodine, počet zamestnancov v podniku atď.

    Ak má charakteristika kontinuálnu zmenu, ktorá v rámci určitých limitov môže nadobúdať ľubovoľné hodnoty („od - do“), potom je pre túto charakteristiku potrebné postaviť intervalové variačné série . Napríklad výška príjmu, dĺžka služby, cena dlhodobého majetku podniku atď.

    Príklady riešenia problémov na tému „Štatistický súhrn a zoskupovanie“

    Problém 1 . Existujú informácie o počte kníh, ktoré študenti dostali prostredníctvom predplatného za posledný akademický rok.

    Zostavte zoradené a diskrétne série distribúcie variácií, ktoré označujú prvky série.

    Riešenie

    Táto sada predstavuje veľa možností pre počet kníh, ktoré študenti dostanú. Spočítajme počet takýchto možností a usporiadame ich vo forme variačných zoradených a variačných diskrétnych distribučných radov.

    Problém 2 . Existujú údaje o nákladoch na fixné aktíva pre 50 podnikov, tisíc rubľov.

    Vytvorte distribučný rad, zvýraznite 5 skupín podnikov (v rovnakých intervaloch).

    Riešenie

    Na riešenie vyberieme najväčšiu a najmenšiu hodnotu hodnoty fixných aktív podnikov. Ide o 30,0 a 10,2 tisíc rubľov.

    Zistime veľkosť intervalu: h = (30,0-10,2):5= 3,96 tisíc rubľov.

    Potom prvá skupina bude zahŕňať podniky, ktorých fixný majetok je od 10,2 tisíc rubľov. až 10,2 + 3,96 = 14,16 tisíc rubľov. Takýchto podnikov bude 9. Druhá skupina bude zahŕňať podniky, ktorých fixné aktíva sú od 14,16 tisíc rubľov. až 14,16 + 3,96 = 18,12 tisíc rubľov. Takýchto podnikov bude 16. Podobne zistíme počet podnikov zaradených do tretej, štvrtej a piatej skupiny.

    Výsledný distribučný rad umiestnime do tabuľky.

    Problém 3 . Nasledujúce údaje boli získané pre niekoľko podnikov ľahkého priemyslu:

    Zoskupte podniky podľa počtu pracovníkov a vytvorte 6 skupín v rovnakých intervaloch. Vypočítajte pre každú skupinu:

    1. počet podnikov
    2. počet pracovníkov
    3. objem vyrobených produktov za rok
    4. priemerný skutočný výkon na pracovníka
    5. objem fixných aktív
    6. priemerná veľkosť fixných aktív jedného podniku
    7. priemerná hodnota výrobkov vyrobených jedným podnikom

    Výsledky výpočtu prezentujte v tabuľkách. Vyvodiť závery.

    Riešenie

    Na vyriešenie vyberieme najväčšie a najmenšie hodnoty priemerného počtu pracovníkov v podniku. Toto je 43 a 256.

    Zistime veľkosť intervalu: h = (256-43):6 = 35,5

    Potom do prvej skupiny patria podniky, ktorých priemerný počet pracovníkov je od 43 do 43 + 35,5 = 78,5 osôb. Takýchto podnikov bude 5. Do druhej skupiny budú zaradené podniky, ktorých priemerný počet pracovníkov bude od 78,5 do 78,5+35,5=114 osôb. Takýchto podnikov bude 12. Podobne zistíme počet podnikov zaradených do tretej, štvrtej, piatej a šiestej skupiny.

    Výsledné distribučné série umiestnime do tabuľky a vypočítame potrebné ukazovatele pre každú skupinu:

    Záver : Ako vidno z tabuľky, druhá skupina podnikov je najpočetnejšia. Zahŕňa 12 podnikov. Najmenšou skupinou sú piata a šiesta skupina (po dva podniky). Ide o najväčšie podniky (z hľadiska počtu pracovníkov).

    Keďže druhá skupina je najväčšia, objem produktov vyrobených za rok podnikmi tejto skupiny a objem fixných aktív sú výrazne vyššie ako ostatné. Priemerný skutočný výkon na pracovníka v podnikoch tejto skupiny zároveň nie je najvyšší. Vedú tu podniky štvrtej skupiny. Na túto skupinu pripadá aj dosť veľký objem fixných aktív.

    Na záver konštatujeme, že priemerná veľkosť fixných aktív a priemerné množstvo produkcie vyprodukovanej jedným podnikom sú priamo úmerné veľkosti podniku (z hľadiska počtu pracovníkov).



    Páčil sa vám článok? Zdieľaj to
    Hore