Bästa svaret
Kurtosis är kännetecknet för att vara platt eller toppad. Det är ett mått på om data är tunga eller lilla i en normalfördelning
Percentilkoefficient för Kurtosis
Ku = Q / (P90 – P10)
Var,
Q = kvartilavvikelse
P90 = 90: e percentilen
P10 = 10: e percentilen
Ett stort kurtosvärde betyder ofta att fördelningens svansar får mer extrema värden än normalfördelningens svans. Detta kan leda till en längd på 6 eller 7 standardavvikelser från medelvärdet. På samma sätt, om kurtosvärdet är mycket lågt, kommer distributionens svans att vara mindre lång än en normalfördelnings svans (mindre än 3 standardavvikelser).
Ett stort värde på kurtosis betraktas ofta som riskabelt eftersom data kan ge ett avvikande värde som ett resultat med större avstånd från medelvärdet om de tillämpas på någon maskininlärningsalgoritm.
Det finns tre typer av kurtos vad gäller statistik –
· Mesokurtic
· Leptokurtic
· Platykurtic
Mesokurtic
Denna distribution har svansarna som ofta liknar normalfördelningen.
Leptokurtic
Denna distribution kommer att ha mycket långa och smala svansar. Detta innebär att det finns fler chanser att förekomsten av avvikare förekommer.
Platykurtic
Denna fördelning kommer att ha mycket låg och sträckt runt mittsvansar, vilket innebär att de flesta datapunkterna finns i närheten av medelvärdet.
Följande diagram ger bättre förståelse-
Svar
Kurtosis är inte topp eller planhet alls. Det är en föråldrad och felaktig beskrivning av kurtos. Istället är kurtos ett mått på den outlier (sällsynta, extrema värde) som är kännetecknande för en distribution eller data.
Det som följer är en tydlig förklaring till varför ”peakedness” helt enkelt är fel som en beskrivare av kurtosis, och varför ”outlier” -karakteriseringen är korrekt.
Anta att någon säger att de har beräknat negativt överskott av kurtos antingen från data eller från en sannolikhetsfördelningsfunktion (pdf). Enligt dogmen ”peakedness” (startade tyvärr av Pearson 1905), ska du dra slutsatsen att fördelningen är ”platt” när den ritas. Men detta är uppenbarligen falskt i allmänhet. För ett exempel har beta (.5,1) en oändlig topp och har negativt överskott av kurtos. För ett annat exempel är fördelningen 0,5 * N (0, 1) + 0,5 * N (4,1) bimodal (vågig); inte platt alls och har också negativt överskott av kurtos. Dessa är bara två exempel på ett oändligt antal andra icke-platt-toppade fördelningar som har negativt överskott av kurtos.
Ja, den enhetliga (U (0,1)) fördelningen är platt och har negativ överskott av kurtos. Men uppenbarligen bevisar inte ett enda exempel det allmänna fallet. Om så var fallet kan vi säga, baserat på beta (.5,1) -fördelningen, att negativt överskott av kurtos innebär att pdf-filen är ”oändligt spetsig”. Vi kan också säga, baserat på 0,5 * N (0, 1) + 0,5 * N (4,1) fördelning, att negativt överskott av kurtos innebär att pdf är ”vågigt”. Det är som att säga ”ja, jag vet att alla björnar är däggdjur, så det måste vara så att alla däggdjur är björnar.”
Antag att någon säger att de har beräknat positivt överskott av kurtos från antingen data eller en pdf. Enligt dogmen ”peakedness” (igen, startad av Pearson 1905), ska du dra slutsatsen att fördelningen är ”toppad” eller ”spetsig” när den ritas. Men detta är också uppenbart falskt i allmänhet. Ta till exempel en U (0,1) fördelning och blanda den med en N (0,1000000) fördelning, med .00001 blandning sannolikhet på det normala. Den resulterande fördelningen, när den visas i diagram, verkar helt platt vid sin topp men har mycket hög kurtos.
Du kan spela samma spel med vilken distribution som helst än U (0,1). Om du tar en distribution med vilken formstopp som helst och sedan blandar den med en mycket bredare fördelning som N (0,1000000), med liten blandningssannolikhet, får du en pdf med samma toppform (platt, bimodal, trimodal, sinusformad, oavsett) som originalet, men med hög kurtos.
Och ja, Laplace-fördelningen har positivt överskott av kurtos och är spetsig. Men du kan ha vilken form som helst av toppen och ha positivt överskott av kurtos. Så björn / däggdjursanalogin gäller igen.
En sak som kan sägas om fall där data uppvisar hög kurtos är att när du ritar histogrammet kommer toppen att uppta en smal vertikal remsa i diagrammet.Anledningen till att detta händer är att det kommer att finnas en mycket liten andel av avvikare (kallar dem ”sällsynta extrema observationer” om du inte gillar termen ”avvikare”) som upptar större delen av den horisontella skalan, vilket leder till att histogrammet ser ut som vissa har karaktäriserats som ”toppade” eller ”koncentrerade mot medelvärdet.”
Men avvikarna bestämmer inte toppens form. När du zoomar in på huvuddelen av data, som trots allt är det som oftast observeras, kan du ha vilken form som helst – spetsig, U-formad, platt, sinusformad, bimodal, trimodal, vad som helst.
Så, med tanke på att någon säger till dig att det finns hög kurtos, är allt du legitimt kan dra slutsatsen i frånvaro av någon annan information att det finns sällsynta, extrema datapunkter (eller potentiellt observerbara datapunkter). Förutom de sällsynta, extrema datapunkterna har du ingen aning om vad som är formen på toppen utan att faktiskt rita histogrammet (eller pdf) och zooma in på platsen för de flesta (potentiella) datapunkterna.
Och med tanke på att någon säger till dig att det finns negativt överskott av kurtos, är allt du legitimt kan dra slutsatsen i frånvaro av någon annan information att dataens outlier-karakteristik (eller pdf) är mindre extrem än den för en normalfördelning. Men du kommer inte att ha någon aning om vad som är formen på toppen, utan att faktiskt rita histogrammet (eller pdf).
Logiken för varför kurtosstatistiken mäter outliers (sällsynta, extrema observationer i fall av data; potentiella sällsynta, extrema observationer i fallet med en pdf) snarare än toppen är faktiskt ganska enkelt. Kurtosis är det genomsnittliga (eller förväntade värdet i fallet med pdf) för Z-värdena, var och en tas till fjärde effekten. Om det finns (potentiella) avvikare kommer det att finnas några extremt stora Z ^ 4-värden, vilket ger en hög kurtos. Om det finns mindre avvikare än, säg, förutsagt av en normal pdf, kommer de mest extrema Z ^ 4-värdena inte att vara särskilt stora, vilket ger mindre kurtos.
Vad av toppen? Tja, nära toppen är Z ^ 4-värdena extremt små och bidrar väldigt lite till deras totala genomsnitt (vilket återigen är kurtosen). Därför berättar kurtosis dig nästan ingenting om toppen av toppen. Jag ger matematiska gränser för dataens bidrag nära toppen till kurtosmåttet i följande artikel:
Kurtosis as Peakedness, 1905 – 2014. R.I.P. Den amerikanska statistikern, 68, 191–195.
Jag hoppas att det hjälper.
Peter Westfall
P.S. Toppens höjd är inte heller relaterad till kurtos; se Kaplansky, I. (1945), ”A Common Error Concerning Kurtosis”, Journal of the American Statistical Association, 40, 259. Men ”höjd” -tolkningen verkar också bestå.