Kuinka ymmärtää erityyppisiä kurtoosia

Paras vastaus

Kurtoosi on ominaisuus tasaiselle tai huipulle. Se mittaa sitä, onko data raskas- vai kevythäntäinen normaalijakaumassa.

Kurtoosin prosenttipistekerroin

Ku = Q / (P90 – P10)

Missä,

Q = kvartiilipoikkeama

P90 = 90. prosenttipiste

P10 = 10. prosenttipiste

Suuri kurtoosiarvo tarkoittaa usein, että jakauman hännät ovat äärimmäisempiä kuin normaalijakauman hännät. Tämä voi johtaa 6 tai 7 standardipoikkeaman keskiarvoon. Vastaavasti, jos kurtosis-arvo on hyvin pieni, jakauman pyrstö on vähemmän pitkä kuin normaalijakauman häntä (alle 3 standardipoikkeamaa).

Suuri kurtoosin arvo katsotaan usein riskialttiimpaa, koska tiedot saattavat antaa ulomman arvon tulokseksi, joka on kauempana keskiarvosta, jos niitä käytetään mihin tahansa koneoppimisalgoritmiin.

Tilastoissa on 3 kurtoosityyppiä –

· Mesokurtic

· Leptokurtic

· Platykurtic

Mesokurtic

Tämän jakelun pyrstöt ovat usein samanlaisia ​​kuin normaalijakaumassa.

Leptokurtic

Tämä jakelu tulee olemaan hyvin pitkät ja laihat hännät. Tämä tarkoittaa sitä, että poikkeavien esiintymismahdollisuudet ovat suuremmat.

Platykurtic

Tällä jakaumalla on hyvin alhainen ja venytetty keskipisteiden ympärille, mikä tarkoittaa, että suurin osa datapisteistä on lähellä keskiarvoa.

Seuraava kaavio antaa paremman käsityksen-

Vastaus

Kurtoosi ei ole lainkaan huippu tai tasaisuus. Se on vanhentunut ja virheellinen kuvaus kurtoosista. Sen sijaan kurtosis on mitta jakeluun tai dataan liittyvästä ominaispiirteestä (harvinainen, äärimmäinen arvo).

Seuraavassa selitetään selvästi, miksi ”huippu” on yksinkertaisesti väärä kurtoosin kuvaajana, ja miksi ”outlier” -luonnehdinta on oikea.

Oletetaan, että joku kertoo sinulle, että hän on laskenut negatiivisen kurtosisylimäärän joko tiedoista tai todennäköisyysjakautumistoiminnosta (pdf). ”Huipun” dogman (jonka Pearson aloitti valitettavasti vuonna 1905) mukaan sinun on pääteltävä, että jakauma on ”tasainen” kuvattuna. Mutta tämä on ilmeisesti väärä yleensä. Esimerkiksi beetalla (.5,1) on ääretön piikki ja negatiivinen kurtoosin ylimäärä. Toisessa esimerkissä 0,5 * N (0, 1) + 0,5 * N (4,1) jakauma on bimodaalinen (aaltoileva); ei lainkaan, ja sillä on myös negatiivinen ylimääräinen kurtoosi. Nämä ovat vain kaksi esimerkkiä loputtomasta lukumäärästä muita ei-tasaisia ​​päällekkäisyyksiä, joilla on negatiivinen ylimääräinen kurtoosi.

Kyllä, tasainen (U (0,1)) jakauma on tasainen ja negatiivinen ylimääräinen kurtoosi. Mutta tietysti yksi esimerkki ei todista yleistä tapausta. Jos näin olisi, voisimme sanoa beeta (.5,1) -jakauman perusteella, että negatiivinen ylimääräinen kurtoosi tarkoittaa, että pdf on ”äärettömän terävä”. Voimme myös sanoa 0,5 * N (0, 1) + 0,5 * N (4,1) -jakauman perusteella, että negatiivinen kurtosiksen ylimäärä tarkoittaa, että pdf on ”aaltoileva”. Se on kuin sanoa: ”No, tiedän, että kaikki karhut ovat nisäkkäitä, joten on oltava, että kaikki nisäkkäät ovat karhuja.”

Oletetaan, että joku kertoo sinulle, että he ovat laskeneet positiivisen kurtosiksen liikaa joko tiedoista tai pdf-tiedosto. ”Huipun” dogman (jonka Pearson aloitti jälleen vuonna 1905) mukaan sinun on pääteltävä, että jakauma on ”huipussaan” tai ”kärjessä”, kun se esitetään graafisesti. Mutta tämä on myös selvästi väärä yleensä. Ota esimerkiksi U (0,1) -jakauma ja sekoita se N (0,1000000) -jakautumiseen .00001-sekoitustodennäköisyydellä normaalissa. Tuloksena oleva jakauma, kun se esitetään graafisesti, näyttää huipulta täysin tasaiselta, mutta sillä on erittäin korkea kurtoosi.

Voit pelata samaa peliä millä tahansa muulla jakaumalla kuin U (0,1). Jos otat jakauman minkä tahansa muotoisen piikin kanssa, sekoita se paljon laajempaan jakaumaan, kuten N (0,1000000), pienellä sekoitustodennäköisyydellä, saat saman muotoisen piikin (tasainen, bimodaalinen, trimodaalinen, sinimuotoinen, mikä tahansa) alkuperäisenä, mutta korkealla kurtoosilla.

Ja kyllä, Laplace-jakaumalla on positiivinen ylimääräinen kurtoosi ja se on terävä. Mutta sinulla voi olla minkä tahansa huipun muoto ja positiivinen ylimääräinen kurtoosi. Joten karhu / nisäkäs-analogia pätee jälleen.

Yksi asia, joka voidaan sanoa tapauksista, joissa tiedoilla on korkea kurtoosi, on se, että piirtäessäsi histogrammia, piikki vie kaavion kapean pystysuoran kaistaleen.Syy tähän tapahtuu siksi, että tulee olemaan hyvin pieni osa poikkeamia (kutsu niitä ”harvinaisiksi äärimmäisiksi havainnoiksi”, jos et pidä termistä ”poikkeavat”), jotka vievät suurimman osan vaakatasosta, mikä johtaa histogrammin esiintymiseen, joka jotkut ovat luonnehtineet ”huipuksi” tai ”keskittyneenä kohti keskiarvoa”.

Mutta poikkeamat eivät määrää huipun muotoa. Kun zoomataan suurimpaan osaan dataa, joka on loppujen lopuksi sitä, mitä havaitaan yleisimmin, sinulla voi olla mikä tahansa muoto – terävä, U-muotoinen, tasainen, sinimuotoinen, bimodaalinen, trimodaalinen, mikä tahansa. >

Ottaen huomioon, että joku kertoo sinulle, että kurtosis on korkea, kaikki muut tiedot voivat laillisesti päättää, että on olemassa harvinaisia, äärimmäisiä datapisteitä (tai mahdollisesti havaittavia datapisteitä). Harvinaisia, äärimmäisiä datapisteitä lukuun ottamatta sinulla ei ole aavistustakaan huipun muodosta piirtämättä histogrammia (tai pdf: ää) ja lähentämällä suurimman osan (potentiaalisista) datapisteistä.

Kun otetaan huomioon, että joku kertoo sinulle, että kurtosis on negatiivinen, kaikki, mitä voit laillisesti päätellä, ilman muita tietoja, on se, että tietojen (tai pdf: n) ulkomuoto on vähemmän äärimmäinen normaalijakauman. Mutta sinulla ei ole aavistustakaan huipun muodosta, ilman että itse piirrät histogrammia (tai pdf: ää).

Logiikka sille, miksi kurtosis-tilasto mittaa poikkeavuuksia (harvinainen, äärimmäinen havainto datan tapaus; mahdolliset harvinaiset, äärimmäiset havainnot pdf: n tapauksessa) pikemminkin kuin huippu on itse asiassa melko yksinkertainen. Kurtoosi on Z-arvojen keskiarvo (tai odotettu arvo pdf: n tapauksessa), jokainen otetaan 4. tehoon. Siinä tapauksessa, että on (potentiaalisia) poikkeamia, on joitain erittäin suuria Z ^ 4-arvoja, mikä antaa korkean kurtoosin. Jos poikkeavuuksia on vähemmän kuin esimerkiksi normaalin pdf: n ennustama, äärimmäisimmät Z ^ 4 -arvot eivät ole erityisen suuria, jolloin saadaan pienempi kurtoosi.

Entä piikki? No, lähellä huippua, Z ^ 4-arvot ovat erittäin pieniä ja vaikuttavat hyvin vähän niiden kokonaiskeskiarvoon (mikä taas on kurtoosi). Siksi kurtosis ei kerro käytännössä mitään huipun muodosta. Annan matemaattiset rajat piikin lähellä olevan datan osuudelle kurtoosimittauksessa seuraavassa artikkelissa:

Kurtosis as Peakedness, 1905 – 2014. R.I.P. American Statistician, 68, 191–195.

Toivottavasti tämä auttaa.

Peter Westfall

P.S. Huipun korkeus ei myöskään liity kurtoosiin; ks. Kaplansky, I. (1945), ”Yhteinen virhe koskien kurtoosia”, Journal of American Statistics Association, 40, 259. Mutta myös ”korkeuden” väärinkäsitys näyttää jatkuvan.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *