Ve statistice existuje celý soubor ukazatelů, které charakterizují centrální tendenci. Výběr jednoho či druhého ukazatele závisí především na povaze dat, účelu výpočtů a jejich vlastnostech.

Co se rozumí povahou dat? V první řadě mluvíme o kvantitativních datech, která se vyjadřují čísly. Ale sada číselných dat může mít různá rozdělení. Distribuce se týká četností jednotlivých hodnot. Například ve třídě 23 lidí psali 2 studenti test s D, 5 s C, 10 s B a 6 s A. Toto je rozdělení známek. Rozdělení lze velmi přehledně znázornit pomocí speciálního diagramu – histogramu. Pro tento příklad bude získán následující histogram.

V mnoha případech je počet jedinečných hodnot mnohem větší a distribuce se zdá být normální. Níže je ukázkový příklad normálního rozdělení náhodných čísel.

Takže ústřední tendence. Pokud jsou frekvence analyzovaných hodnot rozloženy podle normálního zákona, to znamená symetricky kolem určitého středu, pak je centrální tendence určena zcela jednoznačně – je to stejný střed a matematicky odpovídá aritmetickému průměru.

Jak je snadné vidět, maximální frekvence hodnot se nachází ve stejném středu. To znamená, že při normálním rozdělení je ústřední tendencí nejen aritmetický průměr, ale také maximální frekvence, která se ve statistice nazývá móda nebo modální význam.

V diagramu jsou obě hodnoty centrální tendence stejné a rovné 10.

K takovému rozdělení ale nedochází vždy a při malém počtu dat je to velmi vzácné. Častěji se stává, že jsou frekvence rozloženy asymetricky. Potom se režim a aritmetický průměr nebudou shodovat.

Na obrázku výše je aritmetický průměr stále 10, ale modus je již 9. Jaká je v tomto případě považována za hodnotu centrální tendence? Odpověď závisí na cílech analýzy. Pokud vás zajímá úroveň, jejíž součet odchylek je roven nule se všemi z toho vyplývajícími vlastnostmi a důsledky, pak je to aritmetický průměr. Pokud potřebujete nejčastější hodnotu, pak je to režim.

Proč je tedy móda nezbytná? Dovolte mi uvést několik příkladů. Ekonoma v oddělení ekonomického plánování obuvnické továrny zajímá, po jaké velikosti obuvi je největší poptávka. Průměrná velikost bot se sem s největší pravděpodobností nevejde, zejména proto, že číslo se může ukázat jako zlomek. Ale móda je tím správným ukazatelem.

ČTĚTE VÍCE
Co je česání?

Módní kalkulace

Nyní se podívejme jak vypočítat režim. Režim je hodnota v analyzovaném souboru dat, která se vyskytuje častěji než ostatní, takže se musíte podívat na frekvence hodnot a najít z nich maximum. Například v sadě dat 3, 4, 6, 7, 3, 5, 3, 4 smyslem bude móda 3 – se opakuje častěji než ostatní. Toto je v samostatné sérii a vše je zde jednoduché. Pokud je dat hodně, pak se režim nejsnáze najde pomocí odpovídajícího histogramu. Stává se, že soubor dat má bimodální rozdělení.

Bez diagramu je velmi obtížné pochopit, že v datech není jedno, ale dvě centra. Například v prezidentských volbách se mohou preference obyvatel venkova a měst lišit. Proto může být rozdělení podílu odevzdaných hlasů pro konkrétního kandidáta „dvouhrbé“. První „hrb“ je volbou městského obyvatelstva, druhý – venkovského.

Trochu obtížnější s intervalová data, kdy jsou místo konkrétních hodnot intervaly. V tomto případě se mluví o modální interval (například při analýze osobního příjmu), tedy interval, jehož frekvence je maximální vzhledem k ostatním intervalům. I zde však můžete najít konkrétní modální význam, i když bude podmíněný a přibližný, protože neexistují přesná zdrojová data. Představme si, že existuje následující tabulka s rozložením cen.

Pro názornost si uveďme odpovídající diagram.

Musíte najít modální hodnotu ceny.

Nejprve je třeba určit modální interval, který odpovídá intervalu s nejvyšší frekvencí. Najít to je stejně snadné jako najít režim v samostatné sérii. V našem příkladu se jedná o třetí interval s cenou od 301 do 400 rublů. Graf ukazuje nejvyšší sloupec. Nyní je třeba určit konkrétní hodnotu ceny, která odpovídá maximálnímu množství. Není možné to udělat přesně a ve skutečnosti, protože pro každou cenu neexistují žádné individuální hodnoty frekvence. Proto se předpokládá, že intervaly nad a pod modalem mají v závislosti na své frekvenci různé váhy a jakoby tahají mod ve svém směru. Pokud je frekvence intervalu následujícího po modálním intervalu větší než frekvence intervalu před modálním, pak bude režim napravo od středu modálního intervalu a naopak. Podívejme se znovu na obrázek, abychom pochopili vzorec, který napíšu níže.

ČTĚTE VÍCE
Jak dlouho trvá, než klíště infikuje člověka?

Obrázek jasně ukazuje, že poměr výšek sloupců umístěných vlevo a vpravo od modálu určuje blízkost modu k levému nebo pravému okraji modálního intervalu. Úkolem výpočtu modální hodnoty je najít průsečík čar spojujících modální sloupec se sousedními (jak je znázorněno na obrázku tečkovanými čarami) a najít odpovídající hodnotu atributu (v našem příkladu ceny). Při znalosti základů geometrie (7. ročník) z tohoto obrázku není těžké odvodit vzorec pro výpočet modu v intervalové řadě.

Módní vzorec má následující podobu.

x – hodnota začátku modálního intervalu,

h – velikost modálního intervalu,

fMo – frekvence modálního intervalu,

fPo-1 – četnost intervalu umístěného před modálem,

fMo1 – četnost intervalu po modálním.

Druhý výraz v módním vzorci odpovídá délce červené čáry na obrázku výše.

Vypočítejme režim pro náš příklad.

Mód intervalové řady je tedy součtem složeným z hodnoty počáteční úrovně modálního intervalu a segmentu, který je určen poměrem četností nejbližších intervalů od modálního.

Módní výpočet v Excelu

V současné době se většina výpočtů provádí v MS Excel, kde je k dispozici i speciální funkce pro módní výpočty. V Excelu 2013 jsem našel až 3 z nich.

MÓDA – pozůstatek starších vydání Excelu. Funkce je ponechána pro kompatibilitu se staršími verzemi.

FASHION.ONE – vypočítá režim na základě zadaných hodnot. Všechno je zde jednoduché. Vložili jsme funkci, specifikovali rozsah dat a „OK“.

MODA.NSK – umožňuje vypočítat několik modálních hodnot (stejné maximální frekvence) pro jednu datovou řadu najednou, pokud existuje. Funkce musí být zadána jako maticový vzorec s tím, že nejprve vyberete počet buněk rovný počtu požadovaných modálních hodnot. Někdy může existovat několik skutečných modálních hodnot. Pro tyto účely je však lepší se nejprve podívat na distribuční diagram.

Režim pro intervalová data V Excelu nelze počítat s jednou funkcí. To znamená, že taková funkce není poskytována v hotové podobě. Budete jej muset zadat ručně.

Další článek je o mediánu.

Uvidíme se na statanaliz.info.