Hoe verschillende soorten kurtosis te begrijpen

Beste antwoord

Kurtosis is het kenmerk van plat zijn of een piek hebben. Het is een maatstaf voor het feit of gegevens zwaarstaartig of lichtstaartig zijn in een normale verdeling.

Percentielcoëfficiënt van Kurtosis

Ku = Q / (P90 – P10)

Waar,

Q = Kwartielafwijking

P90 = 90e percentiel

P10 = 10e percentiel

Een grote kurtosis-waarde betekent vaak dat de staart van de verdeling extremere waarden krijgt dan de staart van de normale verdeling. Dit kan leiden tot een lengte van 6 of 7 standaarddeviaties van het gemiddelde. Evenzo, als de kurtosis-waarde erg laag is, zal de staart van de verdeling minder lang zijn dan de staart van een normale verdeling (minder dan 3 standaarddeviaties).

Een grote waarde van kurtosis wordt vaak beschouwd als risicovoller omdat gegevens de neiging hebben om een uitbijterwaarde te geven als een uitkomst met een grotere afstand tot het gemiddelde als ze worden toegepast op een algoritme voor machine learning.

Er zijn 3 soorten kurtosis wat statistieken betreft –

· Mesokurtic

· Leptokurtic

· Platykurtic

Mesokurtic

Deze distributie heeft de staarten die vaak lijken op de normale distributie.

Leptokurtic

Deze distributie zal zeer lange en magere staarten. Dit betekent dat er meer kans is op de aanwezigheid van uitschieters.

Platykurtic

Deze verdeling zal zeer laag zijn en uitgerekt rond middelste staarten, wat betekent dat de meeste gegevenspunten dicht bij het gemiddelde aanwezig zijn.

Het volgende diagram zal een beter begrip geven-

Antwoord

Kurtosis is helemaal geen hoogtepunt of vlakheid. Dat is een verouderde en onjuiste beschrijving van kurtosis. In plaats daarvan is kurtosis een maatstaf voor de uitbijter (zeldzame, extreme waarde) die kenmerkend is voor een distributie of gegevens.

Wat volgt is een duidelijke uitleg waarom piekwaarde eenvoudigweg onjuist is als een beschrijving van kurtosis, en waarom de “uitbijter” -karakterisering correct is.

Stel dat iemand u vertelt dat ze een negatieve excess kurtosis hebben berekend op basis van gegevens of een kansverdelingsfunctie (pdf). Volgens het dogma “peakedness” (helaas begonnen door Pearson in 1905), wordt u verondersteld te concluderen dat de verdeling “flat-top” is wanneer deze wordt weergegeven. Maar dit is in het algemeen duidelijk onjuist. Bijvoorbeeld, de bèta (.5,1) heeft een oneindige piek en heeft een negatieve overmatige kurtosis. Voor een ander voorbeeld is de 0,5 * N (0, 1) + 0,5 * N (4,1) verdeling bimodaal (golvend); helemaal niet vlak, en heeft ook een negatieve overmatige kurtosis. Dit zijn slechts twee voorbeelden uit een oneindig aantal andere niet-afgeplatte distributies met een negatieve overmaat aan kurtosis.

Ja, de uniforme (U (0,1)) distributie is afgeplat en heeft een negatieve overmatige kurtosis. Maar uiteraard bewijst een enkel voorbeeld niet het algemene geval. Als dat zo was, zouden we op basis van de bèta (.5,1) -verdeling kunnen zeggen dat negatieve overmatige kurtosis impliceert dat de pdf “oneindig puntig” is. We zouden ook kunnen zeggen, op basis van de 0,5 * N (0, 1) + 0,5 * N (4,1) verdeling, dat negatieve overmaat kurtosis impliceert dat de pdf “golvend” is. Het is alsof je zegt: “nou, ik weet dat alle beren zoogdieren zijn, dus het moet zo zijn dat alle zoogdieren beren zijn.”

Stel nu dat iemand je vertelt dat ze een positieve overmaat aan kurtosis hebben berekend op basis van gegevens of een pdf. Volgens het dogma van “peakedness” (opnieuw begonnen door Pearson in 1905), wordt u verondersteld te concluderen dat de verdeling “piekt” of “puntig” is wanneer deze wordt weergegeven. Maar dit is in het algemeen ook duidelijk onjuist. Neem bijvoorbeeld een U (0,1) -verdeling en meng deze met een N (0,1000000) -verdeling, met een mengkans van .00001 op de normaal. De resulterende distributie, wanneer deze in een grafiek wordt weergegeven, lijkt perfect vlak op zijn hoogtepunt, maar heeft een zeer hoge kurtosis.

Je kunt hetzelfde spel spelen met elke andere distributie dan U (0,1). Als je een distributie neemt met welke vormpiek dan ook, dan mengt deze met een veel bredere distributie zoals N (0,1000000), met een kleine mengkans, dan krijg je een pdf met dezelfde vorm van piek (plat, bimodaal, trimodaal, sinusoïdaal, wat dan ook) als het origineel, maar met hoge kurtosis.

En ja, de Laplace-verdeling heeft een positieve overmaat aan kurtosis en is puntig. Maar u kunt elke vorm van de piek hebben en een positieve overmatige kurtosis hebben. Dus de beer / zoogdier-analogie is weer van toepassing.

Een ding dat kan worden gezegd over gevallen waarin de gegevens hoge kurtosis vertonen, is dat wanneer je het histogram tekent, de piek een smalle verticale strook van de grafiek zal innemen.De reden dat dit gebeurt, is dat er een zeer klein aantal uitschieters zal zijn (noem ze zeldzame extreme waarnemingen als de term uitschieters u niet bevalt) die het grootste deel van de horizontale schaal beslaan, wat leidt tot een weergave van het histogram dat sommige hebben gekarakteriseerd als “piek” of “geconcentreerd in de richting van het gemiddelde”.

Maar de uitschieters bepalen niet de vorm van de piek. Wanneer u inzoomt op het grootste deel van de gegevens, wat tenslotte het meest wordt waargenomen, kunt u elke vorm hebben – puntig, U-vormig, plat, sinusvormig, bimodaal, trimodaal, wat dan ook.

Dus, aangezien iemand je vertelt dat er een hoge kurtosis is, kun je bij gebrek aan andere informatie alleen legitiem concluderen dat er zeldzame, extreme gegevenspunten zijn (of potentieel waarneembare gegevenspunten). Afgezien van de zeldzame, extreme datapunten, heb je geen idee wat de vorm van de piek is zonder daadwerkelijk het histogram (of pdf) te tekenen en in te zoomen op de locatie van de meeste (potentiële) datapunten.

En aangezien iemand u vertelt dat er sprake is van een negatieve excessieve kurtosis, kunt u bij afwezigheid van andere informatie alleen legitiem concluderen dat het uitbijterkenmerk van de gegevens (of pdf) minder extreem is dan die van een normale distributie. Maar je hebt helemaal geen idee wat de vorm van de piek is, zonder daadwerkelijk het histogram (of pdf) te tekenen.

De logica waarom de kurtosis-statistiek uitschieters meet (zeldzame, extreme waarnemingen in de geval van gegevens; mogelijk zeldzame, extreme waarnemingen in het geval van een pdf) in plaats van de piek is eigenlijk vrij eenvoudig. Kurtosis is het gemiddelde (of verwachte waarde in het geval van de pdf) van de Z-waarden, elk meegenomen naar de 4e macht. In het geval dat er (potentiële) uitschieters zijn, zullen er enkele extreem grote Z ^ 4-waarden zijn, die een hoge kurtosis geven. Als er minder uitschieters zijn dan bijvoorbeeld voorspeld door een normale pdf, dan zullen de meest extreme Z ^ 4-waarden niet bijzonder groot zijn, wat een kleinere kurtosis oplevert.

Hoe zit het met de piek? Welnu, bij de piek zijn de Z ^ 4-waarden extreem klein en dragen ze heel weinig bij aan hun algehele gemiddelde (wat nogmaals de kurtosis is). Daarom zegt kurtosis vrijwel niets over de vorm van de piek. Ik geef wiskundige grenzen aan de bijdrage van de gegevens nabij de piek aan de kurtosis-maat in het volgende artikel:

Kurtosis as Peakedness, 1905 – 2014. R.I.P. The American Statistician, 68, 191–195.

Ik hoop dat dit helpt.

Peter Westfall

P.S. De hoogte van de piek is ook niet gerelateerd aan kurtosis; zie Kaplansky, I. (1945), A Common Error Concerning Kurtosis, Journal of the American Statistical Association, 40, 259. Maar de hoogte-verkeerde interpretatie lijkt ook aan te houden.

Beste antwoord

Antwoord

Geef een reactie Antwoord annuleren