Jak rozumieć różne typy kurtozy

Najlepsza odpowiedź

Kurtoza to cecha charakterystyczna bycia płaskim lub szczytowym. Jest miarą tego, czy dane są silnie lub lekko ogonione w rozkładzie normalnym.

Procentowy współczynnik kurtozy

Ku = Q / (P90 – P10)

Gdzie,

Q = Odchylenie kwartylowe

P90 = 90. percentyl

P10 = 10. percentyl

Duża wartość kurtozy często oznacza, że ​​ogony rozkładu uzyskują bardziej ekstremalne wartości niż ogon rozkładu normalnego. Może to prowadzić do długości 6 lub 7 odchyleń standardowych od średniej. Podobnie, jeśli wartość kurtozy jest bardzo niska, ogon rozkładu będzie krótszy niż koniec rozkładu normalnego (mniej niż 3 odchylenia standardowe).

Często uważa się, że duża wartość kurtozy jest bardziej ryzykowne, ponieważ dane mogą mieć tendencję do dawania wartości odstającej jako wyniku przy większej odległości od średniej, jeśli zostaną zastosowane do dowolnego algorytmu uczenia maszynowego.

Istnieją 3 rodzaje kurtozy, jeśli chodzi o statystyki –

· Mezokurtyczny

· Leptokurtyczny

· Platykurtic

Mezokurtyczny

Ta dystrybucja ma ogony często podobne do dystrybucji normalnej.

Leptokurtic

Ta dystrybucja będzie miała bardzo długie i chude ogony. Oznacza to, że istnieje większe prawdopodobieństwo występowania wartości odstających.

Platykurtic

Ta dystrybucja będzie miała bardzo niskie i rozciągnięty wokół środkowych ogonów, co oznacza, że ​​większość punktów danych znajduje się w dużej bliskości średniej.

Poniższy diagram zapewni lepsze zrozumienie –

Odpowiedź

Kurtoza wcale nie jest szczytem ani płaskością. To jest przestarzały i błędny opis kurtozy. Zamiast tego kurtooza jest miarą wartości odstającej (rzadkiej, skrajnej wartości) charakterystycznej dla rozkładu lub danych.

Poniżej znajduje się jasne wyjaśnienie, dlaczego „szczytowość” jest po prostu błędnym wskaźnikiem kurtozy, oraz dlaczego charakterystyka „wartości odstających” jest poprawna.

Załóżmy, że ktoś powie Ci, że obliczył ujemną kurtoozę nadmiarową na podstawie danych lub funkcji rozkładu prawdopodobieństwa (pdf). Zgodnie z dogmatem „szczytu” (zapoczątkowany niestety przez Pearsona w 1905 r.), Należy wnioskować, że rozkład jest „płaski” na wykresie. Ale ogólnie jest to oczywiście fałszywe. Na przykład beta (0,5,1) ma nieskończoną wartość szczytową i ma ujemną nadmierną kurtoozę. Na przykład rozkład 0,5 * N (0, 1) + 0,5 * N (4,1) jest bimodalny (falisty); wcale nie płaski, a także ma ujemną nadmierną kurtoozę. To tylko dwa przykłady z nieskończonej liczby innych rozkładów niepłaskich z ujemną nadmierną kurtoozą.

Tak, rozkład jednorodny (U (0,1)) jest płaski i ma ujemne nadmiar kurtozy. Ale oczywiście pojedynczy przykład nie potwierdza ogólnego przypadku. Gdyby tak było, moglibyśmy powiedzieć, opierając się na rozkładzie beta (.5,1), że ujemna nadmierna kurtoza oznacza, że ​​plik PDF jest „nieskończenie spiczasty”. Można również powiedzieć, na podstawie rozkładu 0,5 * N (0, 1) + 0,5 * N (4,1), że ujemna kurtoza nadmiarowa oznacza, że ​​plik pdf jest „falisty”. To tak, jakby powiedzieć: „cóż, wiem, że wszystkie niedźwiedzie są ssakami, więc musi być tak, że wszystkie ssaki są niedźwiedziami”.

Teraz przypuśćmy, że ktoś ci powie, że obliczył dodatnią kurtoozę na podstawie danych lub plik pdf. Zgodnie z dogmatem „szczytowości” (ponownie zapoczątkowanym przez Pearsona w 1905 r.), Należy wyciągnąć wniosek, że rozkład jest „szczytowy” lub „spiczasty” na wykresie. Ale ogólnie jest to oczywiście fałszywe. Na przykład weź rozkład U (0,1) i wymieszaj go z rozkładem N (0,1000000), z prawdopodobieństwem zmieszania 0,00001 na normie. Wynikowy rozkład, na wykresie, wydaje się idealnie płaski na szczycie, ale ma bardzo wysoką kurtozę.

Możesz grać w tę samą grę z dowolnym rozkładem innym niż U (0,1). Jeśli weźmiesz rozkład z jakimkolwiek szczytem kształtu, a następnie zmieszaj go z dużo szerszym rozkładem, takim jak N (0,1000000), z małym prawdopodobieństwem zmieszania otrzymasz plik PDF o tym samym kształcie piku (płaski, bimodalny, sinusoidalny, cokolwiek) jak oryginał, ale z wysoką kurtoozą.

I tak, rozkład Laplacea ma dodatnią kurtoozę nadmiarową i jest spiczasty. Ale szczyt może mieć dowolny kształt i dodatnią kurtoozę. Tak więc analogia niedźwiedź / ssak znów się stosuje.

Jedną rzeczą, którą można powiedzieć o przypadkach, w których dane wykazują wysoką kurtoozę, jest to, że podczas rysowania histogramu szczyt zajmie wąski pionowy pasek wykresu.Powodem tego jest to, że będzie bardzo mały odsetek wartości odstających (nazwij je „rzadkimi skrajnymi obserwacjami”, jeśli nie podoba ci się termin „wartości odstające”), które zajmują większość skali poziomej, co prowadzi do pojawienia się histogramu, który niektóre charakteryzowały się jako „szczytowe” lub „skoncentrowane w kierunku średniej”.

Jednak wartości odstające nie określają kształtu piku. Kiedy powiększasz większość danych, co jest w końcu tym, co jest najczęściej obserwowane, możesz mieć dowolny kształt – spiczasty, w kształcie litery U, płaski, sinusoidalny, bimodalny, trymodalny, cokolwiek.

Tak więc, biorąc pod uwagę, że ktoś mówi ci, że istnieje wysoka kurtoza, wszystko, co możesz zasadnie wywnioskować, przy braku jakichkolwiek innych informacji, to to, że istnieją rzadkie, skrajne punkty danych (lub potencjalnie obserwowalne punkty danych). Poza rzadkimi, ekstremalnymi punktami danych, nie masz żadnego pojęcia, jaki jest kształt piku bez faktycznego narysowania histogramu (lub pliku PDF) i powiększenia lokalizacji większości (potencjalnych) punktów danych.

A biorąc pod uwagę, że ktoś mówi ci, że istnieje ujemna nadmierna kurtoza, wszystko, co możesz legalnie wywnioskować, przy braku jakichkolwiek innych informacji, to to, że charakterystyka odstająca danych (lub PDF) jest mniej ekstremalna niż rozkład normalny. Ale nie będziesz miał pojęcia, jaki jest kształt piku, bez faktycznego narysowania histogramu (lub pliku PDF).

Logika dlaczego statystyka kurtozy mierzy wartości odstające (rzadkie, ekstremalne obserwacje w przypadek danych; potencjalne rzadkie, ekstremalne obserwacje w przypadku pliku PDF) zamiast piku jest w rzeczywistości dość proste. Kurtoza to średnia (lub oczekiwana wartość w przypadku pliku pdf) wartości Z, z których każda przyjmuje się do czwartej potęgi. W przypadku, gdy istnieją (potencjalne) wartości odstające, pojawią się bardzo duże wartości Z ^ 4, dające wysoką kurtoozę. Jeśli jest mniej wartości odstających niż, powiedzmy, przewidywanych przez normalny plik PDF, wtedy najbardziej ekstremalne wartości Z ^ 4 nie będą szczególnie duże, dając mniejszą kurtoozę.

A co z pikiem? Cóż, w pobliżu szczytu wartości Z ^ 4 są niezwykle małe i mają niewielki wpływ na ich ogólną średnią (która ponownie jest kurtoozą). Dlatego kurtoza praktycznie nic nie mówi o kształcie szczytu. Matematyczne granice wkładu danych w pobliżu szczytu do miary kurtozy podaję w następującym artykule:

Kurtosis as Peakedness, 1905 – 2014. R.I.P. The American Statistician, 68, 191–195.

Mam nadzieję, że to pomoże.

Peter Westfall

P.S. Wysokość szczytu również nie ma związku z kurtoozą; patrz Kaplansky, I. (1945), „A Common Error Concerning Kurtosis”, Journal of the American Statistical Association, 40, 259. Ale błędna interpretacja „wysokości” również wydaje się utrzymywać.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *