Cum să înțelegeți diferite tipuri de kurtoză

Cel mai bun răspuns

Kurtoză este caracteristica de a fi plată sau de vârf. Este o măsură dacă datele sunt cu coadă grea sau cu coadă ușoară într-o distribuție normală

Coeficientul percentil al Kurtosis

Ku = Q / (P90 – P10)

Unde,

Q = Abaterea sfertului

P90 = 90 percentil

P10 = percentila 10

O valoare mare a kurtozei înseamnă adesea că cozile distribuției obțin valori mai extreme decât coada distribuției normale. Acest lucru poate duce la o lungime de 6 sau 7 abateri standard de la medie. În mod similar, dacă valoarea kurtozei este foarte mică, coada distribuției va fi mai puțin lungă decât cea a unei distribuții normale (mai puțin de 3 abateri standard).

O valoare mare a kurtozei este adesea considerată ca fiind sunt mai riscante, deoarece datele pot avea tendința de a oferi o valoare anterioară ca rezultat, cu o distanță mai mare de medie dacă sunt aplicate la orice algoritm de învățare automată.

Există 3 tipuri de kurtoză în ceea ce privește statisticile –

· Mesokurtic

· Leptokurtic

· Platykurtic

Mesokurtic

Această distribuție are cozile adesea similare cu distribuția normală.

Leptokurtic

Această distribuție va avea cozi foarte lungi și slabe. Aceasta înseamnă că există mai multe șanse de prezență a valorilor aberante.

Platykurtic

Această distribuție va avea un nivel foarte scăzut și întins în jurul cozilor centrale, ceea ce înseamnă că majoritatea punctelor de date sunt prezente în imediata apropiere a mediei.

Următoarea diagramă va oferi o mai bună înțelegere-

Răspuns

Kurtosis nu este deloc vârf sau planeitate. Aceasta este o descriere depășită și incorectă a kurtozei. În schimb, kurtosis este o măsură a caracteristicii anormale (rare, extreme) caracteristică unei distribuții sau date.

Ceea ce urmează este o explicație clară a motivului pentru care „vârful” este pur și simplu greșit ca descriptor al kurtosis și de ce caracterizarea „outlier” este corectă.

Să presupunem că cineva vă spune că a calculat excesul de kurtoză negativă fie din date, fie dintr-o funcție de distribuție a probabilității (pdf). Conform dogmei „vârfului” (începută din păcate de Pearson în 1905), ar trebui să concluzionați că distribuția este „plată” atunci când este reprezentată grafic. Dar acest lucru este în mod evident fals în general. Pentru un exemplu, beta (.5,1) are un vârf infinit și are exces de curtoză negativă. Pentru un alt exemplu, distribuția 0,5 * N (0, 1) + 0,5 * N (4,1) este bimodală (ondulată); nu este deloc plat și are, de asemenea, exces de curtoză negativă. Acestea sunt doar două exemple dintr-un număr infinit de alte distribuții fără vârf plat, cu exces de curtoză negativă.

Da, distribuția uniformă (U (0,1)) este plată și are un nivel negativ exces de curtoză. Dar, evident, un singur exemplu nu demonstrează cazul general. Dacă ar fi așa, am putea spune, pe baza distribuției beta (.5,1), că excesul de kurtoză negativă implică faptul că pdf-ul este „infinit de punctat”. Am putea spune, pe baza distribuției 0,5 * N (0, 1) + 0,5 * N (4,1), că excesul de kurtoză negativă implică faptul că pdf-ul este „ondulat”. Este ca și cum ai spune „bine, știu că toți urșii sunt mamifere, așa că trebuie să fie cazul în care toate mamiferele sunt urși.”

Acum presupunem că cineva îți spune că a calculat excesul de kurtoză pozitivă din date sau un pdf. Conform dogmei „vârfului” (din nou, inițiată de Pearson în 1905), ar trebui să concluzionați că distribuția este „maximă” sau „ascuțită” atunci când este reprezentată grafic. Dar acest lucru este, de asemenea, în mod evident fals în general. De exemplu, luați o distribuție U (0,1) și amestecați-o cu o distribuție N (0,1000000), cu o probabilitate de amestecare de 0,00001 la normal. Distribuția rezultată, atunci când este reprezentată grafic, apare perfect plană la vârf, dar are o kurtoză foarte mare.

Puteți juca același joc cu orice altă distribuție decât U (0,1). Dacă luați o distribuție cu orice vârf de formă, amestecați-o cu o distribuție mult mai largă ca N (0,1000000), cu probabilitate mică de amestecare, veți obține un pdf cu aceeași formă de vârf (plat, bimodal, trimodal, sinusoidal, oricare ar fi) ca original, dar cu kurtoză mare.

Și da, distribuția Laplace are exces de kurtoză pozitivă și este ascuțită. Dar puteți avea orice formă a vârfului și puteți avea exces de kurtoză pozitivă. Deci, analogia urs / mamifer se aplică din nou.

Un lucru care se poate spune despre cazurile în care datele prezintă o kurtoză ridicată este că atunci când desenezi histograma, vârful va ocupa o bandă verticală îngustă a graficului.Motivul pentru care se întâmplă acest lucru este că va exista o proporție foarte mică de valori anormale (numiți-le „observații extreme rare” dacă nu vă place termenul „valori aberante”) care ocupă cea mai mare parte a scării orizontale, ducând la apariția histogramei care unii s-au caracterizat ca „vârf” sau „concentrat spre medie”.

Dar valorile aberante nu determină forma vârfului. Când măriți cea mai mare parte a datelor, care este, la urma urmei, ceea ce este cel mai frecvent observat, puteți avea orice formă – cu vârfuri, în formă de U, plat, sinusoidal, bimodal, trimodal, orice altceva.

Deci, având în vedere că cineva îți spune că există o kurtoză mare, tot ce poți deduce în mod legitim, în absența oricărei alte informații, este că există puncte de date rare, extreme (sau puncte de date potențial observabile). În afară de punctele de date rare și extreme, nu aveți nicio idee cu privire la forma vârfului fără a trage de fapt histograma (sau pdf) și a mări locația majorității punctelor de date (potențiale).

Și având în vedere că cineva îți spune că există exces de kurtoză negativă, tot ce poți deduce în mod legitim, în absența oricăror alte informații, este că caracteristica anormală a datelor (sau pdf) este mai puțin extremă decât cea a unei distribuții normale. Dar nu veți avea nicio idee cu privire la forma vârfului, fără a trage de fapt histograma (sau pdf).

Logica pentru care statistica kurtozei măsoară valori anormale (observații rare, extreme în caz de date; observații potențiale rare, extreme în cazul unui pdf), mai degrabă decât vârful, este de fapt destul de simplu. Kurtosis este media (sau valoarea așteptată în cazul pdf) a valorilor Z, fiecare dusă la a 4-a putere. În cazul în care există (potențiale) valori aberante, vor exista unele valori extrem de mari ale Z ^ 4, dând o kurtoză mare. Dacă există mai puține valori aberante decât, să zicem, prezise de un pdf normal, atunci cele mai extreme valori Z ^ 4 nu vor fi deosebit de mari, dând o kurtoză mai mică.

Ce se întâmplă cu vârful? Ei bine, aproape de vârf, valorile Z ^ 4 sunt extrem de mici și contribuie foarte puțin la media lor generală (care, din nou, este kurtosis). De aceea kurtosis nu vă spune practic nimic despre forma vârfului. Ofer limite matematice asupra contribuției datelor din apropierea vârfului la măsura kurtozei în următorul articol:

Kurtosis as Peakedness, 1905 – 2014. R.I.P. The American Statistician, 68, 191–195.

Sper că acest lucru vă va ajuta.

Peter Westfall

P.S. Înălțimea vârfului nu are, de asemenea, legătură cu kurtosis; vezi Kaplansky, I. (1945), „A Common Error Concerning Kurtosis”, Journal of the American Statistical Association, 40, 259. Dar interpretarea greșită a „înălțimii” pare să persiste și ea.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *