A legjobb válasz
A kurtosis a lapos vagy csúcsos jellegzetesség. Azt méri, hogy az adatok normál eloszlásban nehézfarkúak vagy könnyűfarkúak.
A Kurtosis százalékos együtthatója
Ku = Q / (P90 – P10)
Hol,
Q = Kvartilis eltérés
P90 = 90. percentilis
P10 = 10. percentilis
A nagy kurtosis érték gyakran azt jelenti, hogy az eloszlás farka szélsőségesebb értékeket kap, mint a normális eloszlás farka. Ez 6 vagy 7 szórást eredményezhet az átlagtól. Hasonlóképpen, ha a kurtosis értéke nagyon alacsony, akkor az eloszlás farka kevésbé hosszú lesz, mint a normális eloszlás farka (kevesebb, mint 3 szórás).
A kurtosis nagy értékét gyakran tekintik kockázatosabb, mert az adatok hajlamosak külső értéket adni az átlagtól nagyobb távolságra, ha bármely gépi tanulási algoritmusra alkalmazzák.
A statisztikát tekintve 3 típusú kurtosis létezik –
· Mesokurtic
· Leptokurtic
· Platykurtic
Mesokurtic
Ennek a disztribúciónak a farka gyakran hasonló a normál eloszláshoz.
Leptokurtic
Ez a disztribúció nagyon hosszú és sovány farok. Ez azt jelenti, hogy több esély van a kiugró értékek jelenlétére.
Platykurtic
Ez az eloszlás nagyon alacsony lesz és a középső farok köré húzódik, ami azt jelenti, hogy az adatpontok nagy része az átlag közelében nagy távolságban van.
A következő ábra jobb megértést nyújt / span>
Válasz
A kurtosis egyáltalán nem csúcs vagy sima. Ez a kurtosis elavult és helytelen leírása. Ehelyett a kurtosis a disztribúció vagy az adatok jellegzetességeinek (ritka, extrém érték) mértéke.
Az alábbiakban világosan megmagyarázható, hogy a „csúcsosság” miért egyszerűen téves a kurtosis leírójaként, és miért helyes a „kiugró” jellemzés.
Tegyük fel, hogy valaki azt mondja neked, hogy negatív többlet kurtosist számított ki vagy adatokból, vagy valószínűségi eloszlásfüggvényből (pdf). A „csúcspontú” dogma szerint (amelyet sajnos Pearson indított el 1905-ben) arra kell következtetnie, hogy az eloszlás grafikusan „lapos tetejű”. De ez nyilvánvalóan hamis. Például a béta (.5,1) végtelen csúccsal rendelkezik, és negatív felesleges kurtosis van. Egy másik példa szerint a 0,5 * N (0, 1) + 0,5 * N (4,1) eloszlás bimodális (hullámos); egyáltalán nem lapos, és negatív felesleges kurtosis is van. Ez csak két példa a végtelen sok más, nem lapos tetejű eloszlásról, amelyek negatív felesleges kurtosissal rendelkeznek.
Igen, az egységes (U (0,1)) eloszlás lapos tetejű és negatív felesleges kurtosis. De nyilvánvaló, hogy egyetlen példa nem bizonyítja az általános esetet. Ha ez így lenne, akkor a béta (.5,1) eloszlás alapján azt mondhatnánk, hogy a negatív kurtosis felesleg azt jelenti, hogy a pdf “végtelenül hegyes”. Azt is mondhatnánk, hogy a 0,5 * N (0, 1) + 0,5 * N (4,1) eloszlás alapján a negatív kurtosis felesleg azt jelenti, hogy a pdf “hullámos”. Olyan ez, mintha azt mondanánk: „Nos, tudom, hogy minden medve emlős, ezért biztos, hogy minden emlős medve.”
Most tegyük fel, hogy valaki azt mondja neked, hogy az adatokból vagy a egy pdf. A „csúcsértékű” dogma szerint (amelyet Pearson kezdett el 1905-ben) azt kell feltételeznie, hogy az eloszlás grafikononként „csúcsos” vagy „hegyes”. De ez nyilvánvalóan hamis is általában. Vegyünk például egy U (0,1) eloszlást, és keverjük össze N (0,1000000) eloszlással, 0,00001 keverési valószínűséggel a normálnál. A kapott eloszlás grafikon szerint csúcsán tökéletesen laposnak tűnik, de nagyon magas a kurtosisa.
U (0,1) kivételével bármelyik eloszlással ugyanazt a játékot játszhatja. Ha bármilyen alakú csúccsal eloszlást veszünk, akkor keverjük össze sokkal szélesebb eloszlással, például N (0,1000000), kis keverési valószínűséggel, ugyanolyan alakú csúcsú (lapos, bimodális, trimodális, szinuszos, bármi), mint az eredeti, de magas kurtosissal.
És igen, a Laplace-eloszlás pozitív felesleges kurtosissal rendelkezik és hegyes. De bármilyen formájú lehet a csúcs, és pozitív a felesleges kurtosis. Tehát a medve / emlős analógia ismét érvényes.
Az egyik eset mondható el azokról az esetekről, amikor az adatok magas kurtosist mutatnak, hogy amikor a hisztogramot megrajzoljuk, a csúcs egy keskeny függőleges csíkot foglal el a grafikonon.Ennek az az oka, hogy nagyon kis arányban lesznek olyan outlierek (nevezzük őket „ritka szélsőséges megfigyeléseknek”, ha nem tetszik a „kiugró” kifejezés), amelyek elfoglalják a vízszintes skála nagy részét, ami a hisztogram megjelenéséhez vezet, amely egyesek „csúcsra” vagy „az átlag felé koncentrálódtak” jellemezték.
De a kiugró értékek nem határozzák meg a csúcs alakját. Ha nagyítja az adatok nagy részét, ami végül is a leggyakrabban megfigyelhető, akkor bármilyen formája lehet – hegyes, U alakú, lapos, szinuszos, bimodális, trimodális, bármi.
Tehát, mivel valaki azt mondja neked, hogy magas a kurtosis, minden más információ hiányában jogszerűen következtethet arra, hogy vannak ritka, extrém adatpontok (vagy potenciálisan megfigyelhető adatpontok). A ritka, szélsőséges adatpontok kivételével fogalmad sincs arról, hogy mi a csúcs alakja, anélkül, hogy ténylegesen megrajzolnád a hisztogramot (vagy pdf-t), és ráközelítenéd a (potenciális) adatpontok többségének helyét.
És ha valaki azt mondja neked, hogy negatív a kurtosis túlzott mértéke, akkor minden más jogszerűen következtethet arra, hogy más információ hiányában az az, hogy az adatok (vagy pdf) külső jellemzői kevésbé szélsőségesek, mint hogy a normális eloszlás. De fogalma sincs arról, hogy mi a csúcs alakja, anélkül, hogy valóban megrajzolná a hisztogramot (vagy pdf-t).
Az a logika, hogy a kurtosis statisztika miért méri a szélső értékeket (ritka, extrém megfigyelések a az adatok esete; a lehetséges ritka, extrém megfigyelések pdf esetén), nem pedig a csúcs, valójában meglehetősen egyszerű. A kurtosis a Z-értékek átlaga (vagy a várható érték a pdf esetében), mindegyik a 4. hatványra kerül. Abban az esetben, ha vannak (potenciális) kiugró értékek, rendkívül nagy Z ^ 4 értékek lesznek, ami magas kurtosist eredményez. Ha kevesebb kiugró érték van, mint mondjuk egy normális pdf által megjósolt, akkor a legszélsőségesebb Z ^ 4 értékek nem lesznek különösen nagyok, kisebb kurtosist adva.
Mi a csúcs? Nos, a csúcs közelében a Z ^ 4 értékek rendkívül kicsiek, és csak nagyon keveset járulnak hozzá az átlagukhoz (ami ismét a kurtosis). Ezért a kurtosis gyakorlatilag semmit sem árul el a csúcs alakjáról. Matematikai határokat adok a csúcs közelében lévő adatoknak a kurtosis mértékéhez való hozzájárulásáról a következő cikkben:
Kurtosis as Peakedness, 1905 – 2014. R.I.P. Az amerikai statisztikus, 68, 191–1955.
Remélem, hogy ez segít.
Peter Westfall
P.S. A csúcs magassága szintén nincs összefüggésben a kurtosissal; lásd Kaplansky, I. (1945), „A kurtosis gyakori hibája”, Journal of the American Statistics Association, 40, 259. De úgy tűnik, hogy a „magasság” téves értelmezése is fennáll.