Bedste svar
Kurtosis er karakteristikken ved at være flad eller toppet. Det er et mål for, om data er tunge eller lette haler i en normalfordeling
Percentilkoefficient for Kurtosis
Ku = Q / (P90 – P10)
Hvor,
Q = kvartilafvigelse
P90 = 90. percentil
P10 = 10. percentil
En stor kurtosis-værdi betyder ofte, at halerne i fordelingen får mere ekstreme værdier end halen på normalfordelingen. Dette kan føre til en længde på 6 eller 7 standardafvigelser fra gennemsnittet. Tilsvarende, hvis kurtosisværdien er meget lav, vil fordelingen af halen være mindre lang end halen på en normalfordeling (mindre end 3 standardafvigelser).
En stor værdi af kurtosis betragtes ofte som mere risikabelt, fordi data kan have en tendens til at give en afvigende værdi som et resultat med større afstand fra gennemsnittet, hvis de anvendes på en hvilken som helst maskinindlæringsalgoritme.
Der er 3 typer kurtose for så vidt angår statistik –
· Mesokurtic
· Leptokurtic
· Platykurtic
Mesokurtic
Denne distribution har halerne, der ofte svarer til normalfordelingen.
Leptokurtic
Denne distribution vil have meget lange og tynde haler. Dette betyder, at der er flere chancer for tilstedeværelsen af outliers.
Platykurtic
Denne fordeling vil have meget lav og strakt omkring centerhaler, hvilket betyder, at de fleste af datapunkterne er til stede i høj nærhed af middelværdien.
Følgende diagram giver en bedre forståelse-
Svar
Kurtosis er slet ikke spids eller fladhed. Det er en forældet og forkert beskrivelse af kurtosis. I stedet er kurtosis et mål for outlier (sjælden, ekstrem værdi), der er karakteristisk for en distribution eller data.
Det følgende er en klar forklaring på, hvorfor “peakedness” simpelthen er forkert som en beskrivende beskrivelse af kurtosis, og hvorfor “outlier” -karakteriseringen er korrekt.
Antag at nogen fortæller dig, at de har beregnet negativ overskydende kurtose enten fra data eller fra en sandsynlighedsfordelingsfunktion (pdf). I henhold til “peakedness” -dogmet (startet desværre af Pearson i 1905) skal du konkludere, at fordelingen er “fladt”, når den er tegnet. Men dette er naturligvis falsk generelt. For et eksempel har beta (., 5,1) en uendelig top og har negativ overskydende kurtose. For et andet eksempel er fordelingen 0,5 * N (0, 1) + 0,5 * N (4,1) bimodal (bølget); slet ikke fladt og har også negativ overskydende kurtose. Dette er kun to eksempler ud af et uendeligt antal andre ikke-flad-toppede distributioner med negativ overskydende kurtose.
Ja, den ensartede (U (0,1)) fordeling er flad-topet og har negativ overskydende kurtose. Men åbenbart viser et enkelt eksempel ikke den generelle sag. Hvis det var tilfældet, kunne vi sige, baseret på beta (.5,1) -fordelingen, at negativ overskydende kurtose indebærer, at pdf er “uendeligt spids.” Vi kunne også sige, baseret på fordelingen 0,5 * N (0, 1) + 0,5 * N (4,1), at negativ overskydende kurtose indebærer, at pdf er “bølget.” Det er som at sige “godt, jeg ved, at alle bjørne er pattedyr, så det må være tilfældet, at alle pattedyr er bjørne.” en pdf. I henhold til “peakedness” -dogmet (igen startet af Pearson i 1905) skal du konkludere, at fordelingen er “toppet” eller “spids”, når den er tegnet. Men dette er naturligvis også falsk generelt. Tag f.eks. En U (0,1) fordeling og bland den med en N (0,1000000) fordeling med 0,00001 blandingssandsynlighed på normal. Den resulterende fordeling, når den er tegnet, ser perfekt flad ud på sit højdepunkt, men har meget høj kurtose.
Du kan spille det samme spil med enhver anden distribution end U (0,1). Hvis du tager en fordeling med en hvilken som helst formstop overhovedet, så bland den med en meget bredere fordeling som N (0,1000000), med lille blandingssandsynlighed, får du en pdf med samme form for top (flad, bimodal, trimodal, sinusformet, uanset hvad) som originalen, men med høj kurtose.
Og ja, Laplace-distributionen har positiv overskydende kurtosis og er spids. Men du kan have enhver form for toppen overhovedet og have positiv overskydende kurtose. Så bjørn / pattedyr-analogien gælder igen.
En ting, der kan siges om tilfælde, hvor dataene udviser høj kurtose, er at når du tegner histogrammet, vil toppen optage en smal lodret stribe af grafen.Årsagen til dette sker er, at der vil være en meget lille andel af outliers (kald dem “sjældne ekstreme observationer”, hvis du ikke kan lide udtrykket “outliers”), der optager det meste af den vandrette skala, hvilket fører til et histogram, der nogle har karakteriseret sig som “toppede” eller “koncentreret mod middelværdien.”
Men outliers bestemmer ikke formen på toppen. Når du zoomer ind på hovedparten af dataene, hvilket trods alt er det, der oftest observeres, kan du have en hvilken som helst form – spids, U-formet, flad, sinusformet, bimodal, trimodal, hvad som helst. P Så betragtning af at nogen fortæller dig, at der er høj kurtose, kan du kun legitimt udlede, i mangel af andre oplysninger, at der er sjældne, ekstreme datapunkter (eller potentielt observerbare datapunkter). Bortset fra de sjældne, ekstreme datapunkter, har du overhovedet ingen idé om, hvad der er formen på toppen uden faktisk at tegne histogrammet (eller pdf) og zoome ind på placeringen af størstedelen af de (potentielle) datapunkter.
Og i betragtning af at nogen fortæller dig, at der er negativ overskydende kurtose, er alt, hvad du legitimt kan udlede, i mangel af andre oplysninger, at dataets outlier karakteristiske (eller pdf) er mindre ekstrem end den for en normalfordeling. Men du vil overhovedet ikke have nogen idé om, hvad der er formen på toppen uden faktisk at tegne histogrammet (eller pdf).
Logikken for, hvorfor kurtosis-statistikken måler outliers (sjældne, ekstreme observationer i tilfælde af data; potentielle sjældne, ekstreme observationer i tilfælde af en pdf) snarere end toppen er faktisk ret simpelt. Kurtosis er gennemsnittet (eller forventet værdi i tilfælde af pdf) af Z-værdierne, hver taget til 4. effekt. I tilfælde, hvor der er (potentielle) afvigere, vil der være nogle ekstremt store Z ^ 4-værdier, hvilket giver en høj kurtose. Hvis der er mindre afvigelser end f.eks. Forudsagt af en normal pdf, vil de mest ekstreme Z ^ 4-værdier ikke være særlig store, hvilket giver mindre kurtose.
Hvad med toppen? Nå, nær toppen er Z ^ 4-værdierne ekstremt små og bidrager meget lidt til deres samlede gennemsnit (hvilket igen er kurtosen). Derfor fortæller kurtosis dig næsten intet om formen på toppen. Jeg giver matematiske grænser for bidraget fra dataene nær toppen til kurtosis-målingen i den følgende artikel:
Kurtosis as Peakedness, 1905 – 2014. R.I.P. Den amerikanske statistiker, 68, 191–195.
Jeg håber, det hjælper.
Peter Westfall
P.S. Højden af toppen er heller ikke relateret til kurtosis; se Kaplansky, I. (1945), “A Common Error Concerning Kurtosis”, Journal of the American Statistical Association, 40, 259. Men “højde” -fortolkningen synes også at vare.