Migliore risposta
La curtosi è la caratteristica di essere piatta o con il picco. È una misura del fatto che i dati siano a coda pesante o leggera in una distribuzione normale
Coefficiente percentile di curtosi
Ku = Q / (P90 – P10)
Dove,
Q = Deviazione quartile
P90 = 90 ° percentile
P10 = 10 ° percentile
Un valore di curtosi alto spesso significa che le code della distribuzione stanno ottenendo valori più estremi rispetto alla coda della distribuzione normale. Ciò può portare a una lunghezza di 6 o 7 deviazioni standard dalla media. Allo stesso modo, se il valore della curtosi è molto basso, la coda della distribuzione sarà meno lunga della coda di una distribuzione normale (meno di 3 deviazioni standard).
Un valore elevato di curtosi è spesso considerato come più rischioso perché i dati possono tendere a dare un valore anomalo come risultato con maggiore distanza dalla media se applicati a qualsiasi algoritmo di apprendimento automatico.
Ci sono 3 tipi di curtosi per quanto riguarda le statistiche –
· Mesokurtic
· Leptokurtic
· Platykurtic
Mesokurtic
Questa distribuzione ha le code spesso simili alla distribuzione normale.
Leptokurtic
Questa distribuzione avrà code molto lunghe e sottili. Ciò significa che ci sono più possibilità di presenza di valori anomali.
Platykurtic
Questa distribuzione avrà un valore molto basso e allungato attorno alle code centrali, il che significa che la maggior parte dei punti dati sono presenti in prossimità della media.
Il diagramma seguente fornirà una migliore comprensione-
Risposta
La curtosi non è affatto un picco o una piattezza. Questa è una descrizione obsoleta e errata della curtosi. Invece, la curtosi è una misura del valore anomalo (raro, valore estremo) di una distribuzione o di dati.
Ciò che segue è una chiara spiegazione del motivo per cui “picco” è semplicemente sbagliato come descrittore di curtosi, e perché la caratterizzazione “anomala” è corretta.
Supponi che qualcuno ti dica di aver calcolato la curtosi in eccesso negativa dai dati o da una funzione di distribuzione di probabilità (pdf). Secondo il dogma del “picco” (iniziato sfortunatamente da Pearson nel 1905), dovresti concludere che la distribuzione è “piatta” quando rappresentata graficamente. Ma questo è ovviamente falso in generale. Ad esempio, il beta (.5,1) ha un picco infinito e ha una curtosi in eccesso negativa. Per un altro esempio, la distribuzione 0,5 * N (0, 1) + 0,5 * N (4,1) è bimodale (ondulata); non è affatto piatto e ha anche una curtosi in eccesso negativa. Questi sono solo due esempi di un numero infinito di altre distribuzioni non piatte con curtosi in eccesso negativa.
Sì, la distribuzione uniforme (U (0,1)) è piatta e ha curtosi in eccesso. Ma ovviamente, un solo esempio non conferma il caso generale. Se così fosse, potremmo dire, in base alla distribuzione beta (.5,1), che la curtosi in eccesso negativa implica che il pdf è “infinitamente appuntito”. Potremmo anche dire, in base alla distribuzione 0,5 * N (0, 1) + 0,5 * N (4,1), che la curtosi in eccesso negativa implica che il pdf è “ondulato”. È come dire: “beh, so che tutti gli orsi sono mammiferi, quindi deve essere il caso che tutti i mammiferi siano orsi”.
Ora supponiamo che qualcuno ti dica di aver calcolato una curtosi in eccesso positiva sia dai dati che un pdf. Secondo il dogma del “picco” (di nuovo, iniziato da Pearson nel 1905), dovresti concludere che la distribuzione è “massima” o “appuntita” quando rappresentata graficamente. Ma questo è anche ovviamente falso in generale. Ad esempio, prendi una distribuzione U (0,1) e mescolala con una distribuzione N (0,1000000), con una probabilità di miscelazione di 0,00001 sulla normale. La distribuzione risultante, se rappresentata graficamente, appare perfettamente piatta al suo apice, ma ha una curtosi molto alta.
Puoi giocare allo stesso gioco con qualsiasi distribuzione diversa da U (0,1). Se prendi una distribuzione con qualsiasi forma di picco, quindi mescolala con una distribuzione molto più ampia come N (0,1000000), con una piccola probabilità di miscelazione, otterrai un pdf con la stessa forma del picco (piatto, bimodale, trimodale, sinusoidale, qualunque sia) come loriginale, ma con alta curtosi.
E sì, la distribuzione di Laplace ha una curtosi in eccesso positiva ed è appuntita. Ma puoi avere qualsiasi forma del picco e avere una curtosi in eccesso positiva. Quindi lanalogia orso / mammifero si applica di nuovo.
Una cosa che si può dire dei casi in cui i dati mostrano unelevata curtosi è che quando si disegna listogramma, il picco occuperà una stretta striscia verticale del grafico.Il motivo per cui ciò accade è che ci sarà una piccolissima percentuale di valori anomali (chiamali “rare osservazioni estreme” se non ti piace il termine “valori anomali”) che occupano la maggior parte della scala orizzontale, portando alla comparsa dellistogramma che alcuni sono stati caratterizzati come “picco” o “concentrato verso la media”.
Ma i valori anomali non determinano la forma del picco. Quando si ingrandisce la maggior parte dei dati, che è, dopo tutto, ciò che viene osservato più comunemente, è possibile avere qualsiasi forma: appuntita, a forma di U, piatta, sinusoidale, bimodale, trimodale, qualsiasi cosa.
Quindi, dato che qualcuno ti dice che cè unelevata curtosi, tutto ciò che puoi legittimamente dedurre, in assenza di altre informazioni, è che ci sono punti dati rari ed estremi (o punti dati potenzialmente osservabili). A parte i rari punti dati estremi, non hai idea di quale sia la forma del picco senza effettivamente disegnare listogramma (o pdf) e ingrandire la posizione della maggior parte dei (potenziali) punti dati.
E dato che qualcuno ti dice che cè un eccesso di curtosi negativa, tutto ciò che puoi legittimamente dedurre, in assenza di qualsiasi altra informazione, è che la caratteristica anomala dei dati (o pdf) è meno estrema di quello di una distribuzione normale. Ma non avrai la minima idea di quale sia la forma del picco, senza effettivamente disegnare listogramma (o pdf).
La logica per cui la statistica curtosi misura i valori anomali (osservazioni rare ed estreme nel caso di dati; potenziali osservazioni rare ed estreme nel caso di un pdf) piuttosto che il picco è in realtà abbastanza semplice. La curtosi è la media (o il valore atteso nel caso del pdf) dei valori Z, ciascuno portato alla quarta potenza. Nel caso in cui ci siano (potenziali) valori anomali, ci saranno alcuni valori Z ^ 4 estremamente grandi, dando una curtosi alta. Se ci sono meno valori anomali rispetto, ad esempio, previsto da un normale pdf, i valori Z ^ 4 più estremi non saranno particolarmente grandi, dando una curtosi minore.
Che dire del picco? Ebbene, vicino al picco, i valori Z ^ 4 sono estremamente piccoli e contribuiscono molto poco alla loro media complessiva (che di nuovo, è la curtosi). Ecco perché la curtosi non ti dice praticamente nulla sulla forma del picco. Fornisco limiti matematici sul contributo dei dati vicino al picco alla misura della curtosi nel seguente articolo:
Kurtosis as Peakedness, 1905 – 2014. R.I.P. The American Statistician, 68, 191-195.
Spero che questo aiuti.
Peter Westfall
P.S. Anche laltezza del picco non è correlata alla curtosi; vedi Kaplansky, I. (1945), “A Common Error Concerning Kurtosis”, Journal of the American Statistical Association, 40, 259. Ma anche linterpretazione errata di “altezza” sembra persistere.