Comment comprendre différents types de kurtosis

Meilleure réponse

Le kurtosis est la caractéristique dêtre plat ou en pointe. Il mesure si les données sont à queue lourde ou à queue légère dans une distribution normale

Coefficient de centile de Kurtosis

Ku = Q / (P90 – P10)

Où,

Q = écart quartile

P90 = 90e centile

P10 = 10e percentile

Une valeur daplatissement élevée signifie souvent que les queues de la distribution reçoivent des valeurs plus extrêmes que la queue de la distribution normale. Cela peut conduire à une longueur de 6 ou 7 écarts-types par rapport à la moyenne. De même, si la valeur de kurtosis est très faible, la queue de la distribution sera moins longue que la queue dune distribution normale (moins de 3 écarts-types).

Une grande valeur de kurtosis est souvent considérée comme plus risqué car les données peuvent avoir tendance à donner une valeur aberrante en tant que résultat avec une plus grande distance par rapport à la moyenne si elles sont appliquées à un algorithme dapprentissage automatique.

Il existe 3 types de kurtosis en ce qui concerne les statistiques –

· Mesokurtic

· Leptokurtic

· Platykurtic

Mesokurtic

Cette distribution a les queues souvent similaires à la distribution normale.

Leptokurtic

Cette distribution aura queues très longues et maigres. Cela signifie quil y a plus de chances de présence de valeurs aberrantes.

Platykurtic

Cette distribution sera très faible et étiré autour des queues centrales, ce qui signifie que la plupart des points de données sont présents à proximité de la moyenne.

Le diagramme suivant vous permettra de mieux comprendre –

Réponse

Le kurtosis nest pas du tout un pic ou de la planéité. Cest une description obsolète et incorrecte du kurtosis. Au lieu de cela, laplatissement est une mesure de la caractéristique aberrante (rare, valeur extrême) dune distribution ou dune donnée.

Ce qui suit est une explication claire de la raison pour laquelle le «picage» est tout simplement faux en tant que descripteur de laplatissement, et pourquoi la caractérisation «aberrante» est correcte.

Supposons que quelquun vous dise quil a calculé un excès de kurtosis négatif soit à partir de données, soit à partir dune fonction de distribution de probabilité (pdf). Selon le dogme du «pic» (lancé malheureusement par Pearson en 1905), vous êtes censé conclure que la distribution est «à sommet plat» lorsquelle est représentée graphiquement. Mais cest évidemment faux en général. Par exemple, le bêta (.5,1) a un pic infini et un excès de kurtosis négatif. Pour un autre exemple, la distribution 0,5 * N (0, 1) + 0,5 * N (4,1) est bimodale (ondulée); pas plat du tout, et a également un excès de kurtosis négatif. Ce ne sont que deux exemples parmi un nombre infini dautres distributions non plates ayant un excès de kurtosis négatif.

Oui, la distribution uniforme (U (0,1)) est plate et a une valeur négative excès de kurtosis. Mais évidemment, un seul exemple ne prouve pas le cas général. Si tel était le cas, nous pourrions dire, sur la base de la distribution bêta (.5,1), que le kurtosis en excès négatif implique que le pdf est « infiniment pointu ». Nous pourrions également dire, sur la base de la distribution 0,5 * N (0, 1) + 0,5 * N (4,1), quun excès de kurtosis négatif implique que le pdf est «ondulé». Cest comme dire: « Eh bien, je sais que tous les ours sont des mammifères, donc il doit être vrai que tous les mammifères sont des ours. »

Supposons maintenant que quelquun vous dise quil a calculé un excès de kurtosis positif à partir de données ou un pdf. Selon le dogme du «pic» (encore une fois, lancé par Pearson en 1905), vous êtes censé conclure que la distribution est «pic» ou «pointue» lorsquelle est représentée graphiquement. Mais cest aussi évidemment faux en général. Par exemple, prenez une distribution U (0,1) et mélangez-la avec une distribution N (0,1000000), avec une probabilité de mélange de .00001 sur la normale. La distribution résultante, lorsquelle est représentée graphiquement, apparaît parfaitement plate à son apogée, mais a un kurtosis très élevé.

Vous pouvez jouer au même jeu avec nimporte quelle distribution autre que U (0,1). Si vous prenez une distribution avec nimporte quelle forme de pic, puis mélangez-la avec une distribution beaucoup plus large comme N (0,1000000), avec une faible probabilité de mélange, vous obtiendrez un pdf avec la même forme de pic (plat, bimodal, trimodal, sinusoïdale, peu importe) comme loriginal, mais avec un kurtosis élevé.

Et oui, la distribution de Laplace a un excès de kurtosis positif et est pointue. Mais vous pouvez avoir nimporte quelle forme de pic et avoir un excès de kurtosis positif. Lanalogie ours / mammifère sapplique donc à nouveau.

Une chose que lon peut dire à propos des cas où les données présentent un kurtosis élevé est que lorsque vous dessinez lhistogramme, le pic occupera une étroite bande verticale du graphique.La raison pour laquelle cela se produit est quil y aura une très petite proportion de valeurs aberrantes (appelez-les «observations extrêmes rares» si vous naimez pas le terme «valeurs aberrantes») qui occupent la majeure partie de léchelle horizontale, conduisant à une apparition de lhistogramme qui certains ont qualifié de «pic» ou «concentré vers la moyenne».

Mais les valeurs aberrantes ne déterminent pas la forme du pic. Lorsque vous effectuez un zoom avant sur la majeure partie des données, ce qui est, après tout, ce qui est le plus couramment observé, vous pouvez avoir nimporte quelle forme – pointue, en forme de U, plate, sinusoïdale, bimodale, trimodale, quoi que ce soit.

Donc, étant donné que quelquun vous dit quil y a un kurtosis élevé, tout ce que vous pouvez légitimement déduire, en labsence de toute autre information, cest quil existe des points de données rares et extrêmes (ou des points de données potentiellement observables). À part les rares points de données extrêmes, vous navez aucune idée de la forme du pic sans réellement dessiner lhistogramme (ou pdf) et zoomer sur lemplacement de la majorité des points de données (potentiels).

Et étant donné que quelquun vous dit quil y a un excès de kurtosis négatif, tout ce que vous pouvez légitimement inférer, en labsence de toute autre information, est que la caractéristique aberrante des données (ou pdf) est moins extrême que celle dune distribution normale. Mais vous naurez aucune idée de la forme du pic, sans dessiner réellement lhistogramme (ou le pdf).

La logique pour laquelle la statistique de kurtosis mesure les valeurs aberrantes (observations rares et extrêmes dans le cas de données; rares observations extrêmes potentielles dans le cas dun pdf) plutôt que le pic est en fait assez simple. Le kurtosis est la moyenne (ou valeur attendue dans le cas du pdf) des valeurs Z, chacune prise à la 4e puissance. Dans le cas où il y a des valeurs aberrantes (potentielles), il y aura des valeurs Z ^ 4 extrêmement grandes, ce qui donne un kurtosis élevé. Sil y a moins de valeurs aberrantes que, disons, prédites par un pdf normal, alors les valeurs Z ^ 4 les plus extrêmes ne seront pas particulièrement grandes, ce qui donnera un kurtosis plus petit.

Quen est-il du pic? Eh bien, près du pic, les valeurs Z ^ 4 sont extrêmement petites et contribuent très peu à leur moyenne globale (qui encore une fois, est le kurtosis). Cest pourquoi le kurtosis ne vous dit pratiquement rien sur la forme du pic. Je donne des limites mathématiques sur la contribution des données proches du pic à la mesure de kurtosis dans larticle suivant:

Kurtosis as Peakedness, 1905 – 2014. R.I.P. Le statisticien américain, 68, 191–195.

Jespère que cela vous aidera.

Peter Westfall

P.S. La hauteur du pic nest pas non plus liée à laplatissement; voir Kaplansky, I. (1945), «A Common Error Concerning Kurtosis», Journal of the American Statistical Association, 40, 259. Mais la mauvaise interprétation de la «hauteur» semble également persister.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *