Jak porozumět různým typům kurtosy

Nejlepší odpověď

Kurtosis je charakteristická tím, že je plochá nebo špičková. Jde o míru toho, zda jsou data v normálním rozdělení těžká nebo lehká.

Percentilní koeficient Kurtosis

Ku = Q / (P90 – P10)

Kde,

Q = Kvartilová odchylka

P90 = 90. percentil

P10 = 10. percentil

Velká hodnota špičatosti často znamená, že ocasy distribuce získávají extrémnější hodnoty než ocas normálního rozdělení. To může vést k délce 6 nebo 7 standardních odchylek od průměru. Podobně, pokud je hodnota kurtosy velmi nízká, bude ocas distribuce méně dlouhý než ocas normálního rozdělení (méně než 3 standardní odchylky).

Velká hodnota kurtosy je často považována za riskantnější, protože data mohou mít tendenci dávat odlehlou hodnotu jako výsledek s větší vzdáleností od průměru, pokud se použijí na jakýkoli algoritmus strojového učení.

Existují 3 typy kurtosy, pokud jde o statistiku –

· Mesokurtic

· Leptokurtic

· Platykurtic

Mesokurtic

Tato distribuce má ocasy často podobné normální distribuci.

Leptokurtic

Tato distribuce bude mít velmi dlouhé a hubené ocasy. To znamená, že existuje větší pravděpodobnost přítomnosti odlehlých hodnot.

Platykurtic

Tato distribuce bude mít velmi nízkou a natažené kolem středních ocasů, což znamená, že většina datových bodů je přítomna ve vysoké blízkosti se střední hodnotou.

Následující diagram poskytne lepší pochopení –

Odpověď

Kurtosis není vůbec vrchol nebo plochost. To je zastaralý a nesprávný popis kurtosy. Místo toho je kurtosis měřítkem odlehlé (vzácné, extrémní hodnoty) charakteristiky distribuce nebo dat.

Následuje jasné vysvětlení, proč je „vrchol“ jednoduše špatný jako deskriptor kurtosy a proč je „outlier“ charakterizace správná.

Předpokládejme, že vám někdo řekne, že vypočítal zápornou nadměrnou špičatost buď z dat, nebo z funkce rozdělení pravděpodobnosti (pdf). Podle dogmatu „vrcholnosti“ (bohužel založeného Pearsonem v roce 1905) byste měli usoudit, že distribuce je při grafu „plochá“. Ale to je zjevně obecně nepravdivé. U jednoho příkladu má beta (0,5,1) nekonečný vrchol a má negativní nadměrnou špičatost. Pro další příklad je distribuce 0,5 * N (0, 1) + 0,5 * N (4,1) bimodální (zvlněná); vůbec není plochá a má také negativní nadměrnou špičatost. Toto jsou jen dva příklady z nekonečného počtu jiných distribucí bez plochého zakončení, které mají zápornou nadměrnou špičatost.

Ano, rovnoměrné (U (0,1)) rozdělení je ploché a má záporné nadměrná špičatost. Jediný příklad ale zjevně nedokazuje obecný případ. Pokud by tomu tak bylo, mohli bychom říci, na základě distribuce beta (.5,1), že negativní nadměrná špičatost znamená, že pdf je „nekonečně špičaté“. Mohli bychom také říci, na základě distribuce 0,5 * N (0, 1) + 0,5 * N (4,1), že negativní nadměrná špičatost znamená, že pdf je „zvlněné“. Je to jako říkat: „No, vím, že všichni medvědi jsou savci, takže musí platit, že všichni savci jsou medvědi.“

Předpokládejme, že vám někdo řekne, že vypočítal pozitivní přebytek kurtosy buď z údajů pdf. Podle dogmatu „špičkovosti“ (opět založeného Pearsonem v roce 1905) byste měli dojít k závěru, že distribuce je při grafu „špičková“ nebo „špičatá“. Ale to je také zjevně obecně nepravdivé. Například vezměte distribuci U (0,1) a smíchejte ji s distribucí N (0,1000000), s pravděpodobností míchání 0,00001 na normálu. Výsledná distribuce se při grafu jeví jako dokonale plochá na svém vrcholu, ale má velmi vysokou špičatost.

Stejnou hru můžete hrát s jinou distribucí než U (0,1). Pokud vezmete distribuci s jakýmkoli tvarovým vrcholem, pak ji smícháte s mnohem širší distribucí, jako je N (0,1000000), s malou pravděpodobností míchání, získáte pdf se stejným tvarem vrcholu (plochý, bimodální, trimodální, sinusový, jakýkoli) jako originál, ale s vysokou špičatostí.

A ano, Laplaceova distribuce má pozitivní nadměrnou špičatost a je špičatá. Ale můžete mít jakýkoli tvar vrcholu a mít pozitivní nadměrnou špičatost. Obdobně tedy platí analogie medvěd / savec.

Jedna věc, kterou lze říci o případech, kdy data vykazují vysokou špičatost, je, že když nakreslíte histogram, vrchol zabírá úzký svislý pruh grafu.Důvodem je to, že bude existovat velmi malá část odlehlých hodnot (nazývejte je „vzácnými extrémními pozorováními“, pokud se vám nelíbí termín „odlehlé hodnoty“), které zaujímají většinu horizontálního měřítka, což vede k vzhledu histogramu, který některé charakterizovaly jako „špičkové“ nebo „koncentrované směrem k průměru“.

Ale odlehlé hodnoty neurčují tvar vrcholu. Když přiblížíte většinu údajů, což je koneckonců to, co se nejčastěji pozoruje, můžete mít jakýkoli tvar – špičatý, ve tvaru písmene U, plochý, sinusový, bimodální, trimodální, cokoli jiného.

Takže vzhledem k tomu, že vám někdo říká, že existuje vysoká špičatost, můžete při absenci jakýchkoli dalších informací oprávněně odvodit, že existují vzácné extrémní datové body (nebo potenciálně pozorovatelné datové body). Kromě vzácných extrémních datových bodů nemáte vůbec žádnou představu o tom, jaký je tvar píku, aniž byste ve skutečnosti kreslili histogram (nebo pdf) a zvětšovali umístění většiny (potenciálních) datových bodů.

A vzhledem k tomu, že vám někdo říká, že existuje negativní nadměrná špičatost, vše, co můžete oprávněně odvodit, při absenci jakýchkoli dalších informací, je to, že odlehlá charakteristika dat (nebo pdf) je méně extrémní než normální distribuce. Ale nebudete mít vůbec ponětí o tom, jaký je tvar vrcholu, aniž byste ve skutečnosti kreslili histogram (nebo pdf).

Logika, proč statistika kurtosis měří odlehlé hodnoty (vzácná, extrémní pozorování v případ dat; potenciální vzácné, extrémní pozorování v případě souboru PDF), spíše než vrchol, je ve skutečnosti docela jednoduchý. Kurtosis je průměr (nebo očekávaná hodnota v případě pdf) Z-hodnot, z nichž každá je převzata do 4. síly. V případě, že existují (potenciální) odlehlé hodnoty, budou existovat některé extrémně velké hodnoty Z ^ 4, což bude mít vysokou špičatost. Pokud existuje méně odlehlých hodnot, než je předpovězeno normálním souborem PDF, pak nejextrémnější hodnoty Z ^ 4 nebudou nijak zvlášť velké, což povede k menší špičatosti.

A co vrchol? V blízkosti vrcholu jsou hodnoty Z ^ 4 extrémně malé a velmi málo přispívají k jejich celkovému průměru (což je opět špičatost). Proto vám kurtosis prakticky neříká nic o tvaru vrcholu. Matematické meze pro příspěvek dat blízko vrcholu k míře kurtosy uvádím v následujícím článku:

Kurtosis as Peakedness, 1905 – 2014. R.I.P. Americký statistik, 68, 191–195.

Doufám, že to pomůže.

Peter Westfall

P.S. Výška vrcholu také nesouvisí s špičatostí; viz Kaplansky, I. (1945), „A Common Error Concerning Kurtosis“, Journal of the American Statistical Association, 40, 259. Zdá se však, že přetrvává i nesprávná interpretace „výšky“.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *