Cómo entender los diferentes tipos de curtosis

Mejor respuesta

La curtosis es la característica de ser plano o puntiagudo. Es una medida de si los datos son de cola pesada o de cola ligera en una distribución normal

Coeficiente de percentil de curtosis

Ku = Q / (P90 – P10)

Donde,

Q = Desviación del cuartil

P90 = percentil 90

P10 = percentil 10

Un valor de curtosis grande a menudo significa que las colas de la distribución obtienen valores más extremos que la cola de la distribución normal. Esto puede dar lugar a una longitud de 6 o 7 desviaciones estándar de la media. De manera similar, si el valor de curtosis es muy bajo, la cola de la distribución será menos larga que la cola de una distribución normal (menos de 3 desviaciones estándar).

Un valor grande de curtosis a menudo se considera como más riesgosos porque los datos pueden tender a dar un valor atípico como resultado con una mayor distancia de la media si se aplican a cualquier algoritmo de aprendizaje automático.

Hay 3 tipos de curtosis en lo que respecta a las estadísticas:

· Mesokurtic

· Leptokurtic

· Platykurtic

Mesokurtic

Esta distribución tiene colas a menudo similares a la distribución normal.

Leptokurtic

Esta distribución tendrá colas muy largas y delgadas. Esto significa que hay más posibilidades de que existan valores atípicos.

Platykurtic

Esta distribución tendrá valores muy bajos y estirado alrededor de las colas centrales, lo que significa que la mayoría de los puntos de datos están presentes en gran proximidad con la media.

El siguiente diagrama proporcionará una mejor comprensión:

Respuesta

La curtosis no es un pico o una planitud en absoluto. Esa es una descripción obsoleta e incorrecta de la curtosis. En cambio, la curtosis es una medida de la característica de valor atípico (valor extremo, raro) de una distribución o datos.

Lo que sigue es una explicación clara de por qué el «pico» es simplemente incorrecto como descriptor de curtosis, y por qué la caracterización de «valores atípicos» es correcta.

Suponga que alguien le dice que ha calculado un exceso de curtosis negativo a partir de datos o de una función de distribución de probabilidad (pdf). De acuerdo con el dogma de la “punta” (iniciado desafortunadamente por Pearson en 1905), se supone que debe concluir que la distribución es “plana” cuando se grafica. Pero esto es obviamente falso en general. Por ejemplo, la beta (.5,1) tiene un pico infinito y un exceso de curtosis negativa. Para otro ejemplo, la distribución 0.5 * N (0, 1) + 0.5 * N (4,1) es bimodal (ondulada); no es plano en absoluto, y también tiene un exceso de curtosis negativa. Estos son solo dos ejemplos de un número infinito de otras distribuciones no planas que tienen un exceso de curtosis negativa.

Sí, la distribución uniforme (U (0,1)) es plana y tiene una curtosis negativa. exceso de curtosis. Pero, obviamente, un solo ejemplo no prueba el caso general. Si eso fuera así, podríamos decir, con base en la distribución beta (.5,1), que el exceso de curtosis negativa implica que el pdf es «infinitamente puntiagudo». También podríamos decir, con base en la distribución 0.5 * N (0, 1) + 0.5 * N (4,1), que el exceso de curtosis negativa implica que el pdf es «ondulado». Es como decir, «bueno, sé que todos los osos son mamíferos, así que debe ser el caso de que todos los mamíferos sean osos».

Ahora suponga que alguien le dice que ha calculado el exceso de curtosis positivo a partir de datos o un pdf. De acuerdo con el dogma del “pico” (nuevamente, iniciado por Pearson en 1905), se supone que debe concluir que la distribución es “puntiaguda” cuando se grafica. Pero esto también es obviamente falso en general. Por ejemplo, tome una distribución U (0,1) y mézclela con una distribución N (0,1000000), con una probabilidad de mezcla de 0,00001 en la normal. La distribución resultante, cuando se grafica, parece perfectamente plana en su punto máximo, pero tiene una curtosis muy alta.

Puedes jugar el mismo juego con cualquier distribución que no sea U (0,1). Si toma una distribución con cualquier forma de pico, luego la mezcla con una distribución mucho más amplia como N (0,1000000), con una pequeña probabilidad de mezcla, obtendrá un pdf con la misma forma de pico (plano, bimodal, trimodal, sinusoidal, lo que sea) como el original, pero con alta curtosis.

Y sí, la distribución de Laplace tiene exceso de curtosis positiva y es puntiaguda. Pero puede tener cualquier forma de pico y tener un exceso de curtosis positivo. Entonces, la analogía oso / mamífero se aplica nuevamente.

Una cosa que se puede decir acerca de los casos en los que los datos exhiben una alta curtosis es que cuando dibuja el histograma, el pico ocupará una estrecha franja vertical del gráfico.La razón por la que esto sucede es que habrá una proporción muy pequeña de valores atípicos (llámelos «observaciones extremas raras» si no le gusta el término «valores atípicos») que ocupan la mayor parte de la escala horizontal, lo que da lugar a la aparición del histograma que algunos se han caracterizado como «puntiagudos» o «concentrados hacia la media».

Pero los valores atípicos no determinan la forma del pico. Cuando hace zoom en la mayor parte de los datos, que es, después de todo, lo que se observa con más frecuencia, puede tener cualquier forma: puntiaguda, en forma de U, plana, sinusoidal, bimodal, trimodal, cualquier cosa.

Entonces, dado que alguien le dice que hay una curtosis alta, todo lo que puede inferir legítimamente, en ausencia de cualquier otra información, es que hay puntos de datos extremos raros (o puntos de datos potencialmente observables). Aparte de los puntos de datos extremos y raros, no tiene idea de cuál es la forma del pico sin realmente dibujar el histograma (o pdf) y acercar la ubicación de la mayoría de los puntos de datos (potenciales).

Y dado que alguien te dice que hay un exceso de curtosis negativa, todo lo que puedes inferir legítimamente, en ausencia de cualquier otra información, es que la característica atípica de los datos (o pdf) es menos extrema que el de una distribución normal. Pero no tendrá idea alguna de cuál es la forma del pico, sin realmente dibujar el histograma (o pdf).

La lógica de por qué la estadística de curtosis mide valores atípicos (observaciones raras y extremas en el caso de datos; posibles observaciones extremas raras en el caso de un pdf) en lugar del pico es en realidad bastante simple. La curtosis es el promedio (o valor esperado en el caso del pdf) de los valores Z, cada uno llevado a la cuarta potencia. En el caso de que existan valores atípicos (potenciales), habrá algunos valores de Z ^ 4 extremadamente grandes, lo que dará una alta curtosis. Si hay menos valores atípicos que, digamos, predichos por un PDF normal, entonces los valores más extremos de Z ^ 4 no serán particularmente grandes, dando una curtosis menor.

¿Qué pasa con el pico? Bueno, cerca del pico, los valores Z ^ 4 son extremadamente pequeños y contribuyen muy poco a su promedio general (que nuevamente, es la curtosis). Es por eso que la curtosis no le dice prácticamente nada sobre la forma del pico. Doy límites matemáticos sobre la contribución de los datos cerca del pico a la medida de curtosis en el siguiente artículo:

Kurtosis as Peakedness, 1905 – 2014. R.I.P. The American Statistician, 68, 191-195.

Espero que esto ayude.

Peter Westfall

P.S. La altura del pico tampoco está relacionada con la curtosis; ver Kaplansky, I. (1945), «A Common Error Concerning Kurtosis», Journal of the American Statistical Association, 40, 259. Pero la mala interpretación de la «altura» también parece persistir.

Mejor respuesta

Respuesta

Deja una respuesta Cancelar la respuesta