Hvordan forstå forskjellige typer kurtose

Beste svaret

Kurtosis er karakteristikken for å være flat eller toppet. Det er et mål på om data er tunghale eller lette haler i en normalfordeling

Percentilkoeffisient for Kurtosis

Ku = Q / (P90 – P10)

Hvor,

Q = kvartilavvik

P90 = 90. persentil

P10 = 10. persentil

En stor kurtosis-verdi betyr ofte at halene i fordelingen får mer ekstreme verdier enn halen til normalfordelingen. Dette kan føre til en lengde på 6 eller 7 standardavvik fra gjennomsnittet. Tilsvarende, hvis kurtosisverdien er veldig lav, vil distribusjonens hale være mindre lang enn halen til en normalfordeling (mindre enn 3 standardavvik).

En stor verdi av kurtosis blir ofte ansett som risikofylt fordi data kan ha en avvikende verdi som et resultat med større avstand fra gjennomsnittet hvis de brukes på maskinlæringsalgoritmer.

Det er tre typer kurtose når det gjelder statistikk –

· Mesokurtic

· Leptokurtic

· Platykurtic

Mesokurtic

Denne fordelingen har ofte halene som normalfordelingen.

Leptokurtic

Denne fordelingen vil ha veldig lange og tynne haler. Dette betyr at det er flere sjanser for tilstedeværelse av avvikere.

Platykurtic

Denne fordelingen vil ha veldig lav og strukket rundt senterhalene, noe som betyr at de fleste datapunktene er tilstede i høy nærhet til gjennomsnittet.

Følgende diagram vil gi en bedre forståelse-

Svar

Kurtosis er ikke topp eller flathet i det hele tatt. Det er en utdatert og feil beskrivelse av kurtose. I stedet er kurtosis et mål på outlier (sjelden, ekstrem verdi) som er karakteristisk for en distribusjon eller data.

Det som følger er en klar forklaring på hvorfor «peakedness» rett og slett er galt som en deskriptor av kurtosis, hvorfor karakteren “outlier” er riktig.

Anta at noen forteller deg at de har beregnet negativ overflødig kurtose enten fra data eller fra en sannsynlighetsfordelingsfunksjon (pdf). I følge «peakedness» -dogmet (startet dessverre av Pearson i 1905), skal du konkludere med at fordelingen er «flat-topped» når den er tegnet. Men dette er åpenbart falsk generelt. For et eksempel har beta (.5,1) en uendelig topp og har negativ overflødig kurtose. For et annet eksempel er fordelingen 0,5 * N (0, 1) + 0,5 * N (4,1) bimodal (bølget); ikke flat i det hele tatt, og har også negativ overflødig kurtose. Dette er bare to eksempler på et uendelig antall andre ikke-flattoppede fordelinger som har negativ overskytende kurtose.

Ja, den jevne (U (0,1)) fordelingen er flat topp og har negativ overflødig kurtose. Men åpenbart viser et enkelt eksempel ikke den generelle saken. Hvis det var slik, kan vi si, basert på beta (.5,1) distribusjon, at negativ overflødig kurtose innebærer at pdf er «uendelig spiss.» Vi kan også si, basert på 0,5 * N (0, 1) + 0,5 * N (4,1) fordelingen, at negativ overflødig kurtose innebærer at pdf er «bølget.» Det er som å si: «vel, jeg vet at alle bjørner er pattedyr, så det må være slik at alle pattedyr er bjørner.»

Anta at noen forteller deg at de har beregnet positiv overflødig kurtose fra data eller en pdf. I følge «peakedness» -dogmet (igjen, startet av Pearson i 1905), skal du konkludere med at fordelingen er «toppet» eller «spiss» når den er tegnet. Men dette er også åpenbart falsk generelt. Ta for eksempel en U (0,1) fordeling og bland den med en N (0,1000000) fordeling, med 0,00001 blandingssannsynlighet på det normale. Den resulterende fordelingen, når den er tegnet, ser helt flat ut på topp, men har veldig høy kurtose.

Du kan spille det samme spillet med en hvilken som helst distribusjon enn U (0,1). Hvis du tar en fordeling med en hvilken som helst formtopp overhodet, og deretter blander den med en mye bredere fordeling som N (0,1000000), med liten blandingssannsynlighet, vil du få en pdf med samme toppform (flat, bimodal, trimodal, sinusformet, uansett) som originalen, men med høy kurtose.

Og ja, Laplace-fordelingen har positiv overflødig kurtose og er spiss. Men du kan ha hvilken som helst form av toppen overhodet og ha positiv overflødig kurtose. Så bjørn / pattedyr-analogien gjelder igjen.

En ting som kan sies om tilfeller der dataene viser høy kurtose, er at når du tegner histogrammet, vil toppen oppta en smal vertikal stripe av grafen.Årsaken til at dette skjer er at det vil være en veldig liten andel av outliers (kaller dem «sjeldne ekstreme observasjoner» hvis du ikke liker begrepet «outliers») som opptar det meste av den horisontale skalaen, noe som fører til et histogram som noen har karakterisert seg som “toppet” eller “konsentrert mot gjennomsnittet.”

Men avvikene bestemmer ikke formen på toppen. Når du zoomer inn på mesteparten av dataene, som tross alt er det som oftest blir observert, kan du ha hvilken som helst form – spiss, U-formet, flat, sinusformet, bimodal, trimodal, hva som helst. P Så Gitt at noen forteller deg at det er høy kurtose, er alt du legitimt kan utlede, i fravær av annen informasjon, at det er sjeldne, ekstreme datapunkter (eller potensielt observerbare datapunkter). Annet enn de sjeldne, ekstreme datapunktene, har du ingen anelse om hva som er formen på toppen uten å tegne histogrammet (eller pdf), og zoome inn på plasseringen til de fleste (potensielle) datapunktene.

Og gitt at noen forteller deg at det er negativ overskytende kurtose, er alt du legitimt kan utlede, i fravær av annen informasjon, at dataenes outlier (eller pdf) er mindre ekstrem enn den for en normalfordeling. Men du har ingen anelse om hva som er formen på toppen, uten å tegne histogrammet (eller pdf).

Logikken for hvorfor kurtosis-statistikken måler outliers (sjeldne, ekstreme observasjoner i tilfelle av data; potensielle sjeldne, ekstreme observasjoner i tilfelle av en pdf) i stedet for toppen er faktisk ganske enkelt. Kurtosis er gjennomsnittet (eller forventet verdi når det gjelder pdf) av Z-verdiene, hver tatt til 4. kraft. I tilfeller der det er (potensielle) avvikere, vil det være noen ekstremt store Z ^ 4-verdier, noe som gir høy kurtose. Hvis det er mindre avvikere enn for eksempel forutsagt av en vanlig pdf, vil ikke de mest ekstreme Z ^ 4-verdiene være spesielt store, noe som gir mindre kurtose.

Hva med toppen? Vel, nær toppen, er Z ^ 4-verdiene ekstremt små og bidrar veldig lite til det totale gjennomsnittet (som igjen er kurtosen). Derfor forteller kurtosis deg praktisk talt ingenting om formen på toppen. Jeg gir matematiske grenser for bidraget fra dataene nær toppen til kurtosis-tiltaket i følgende artikkel:

Kurtosis as Peakedness, 1905 – 2014. R.I.P. Den amerikanske statistikeren, 68, 191–195.

Jeg håper dette hjelper.

Peter Westfall

P.S. Høyden på toppen er heller ikke relatert til kurtose; se Kaplansky, I. (1945), “A Common Error Concerning Kurtosis,” Journal of the American Statistical Association, 40, 259. Men feiltolkningen “høyde” ser også ut til å vedvare.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *