Melhor resposta
A curtose é a característica de ser plana ou pontiaguda. É uma medida para saber se os dados têm cauda pesada ou cauda leve em uma distribuição normal
Coeficiente de percentil de curtose
Ku = Q / (P90 – P10)
Onde,
Q = Desvio de quartil
P90 = 90º percentil
P10 = 10º percentil
Um grande valor de curtose geralmente significa que a cauda da distribuição está obtendo valores mais extremos do que a cauda da distribuição normal. Isso pode levar a um comprimento de 6 ou 7 desvios padrão da média. Da mesma forma, se o valor de curtose for muito baixo, a cauda da distribuição será menos longa do que a cauda de uma distribuição normal (menos de 3 desvios padrão).
Um grande valor de curtose é frequentemente considerado como mais arriscados porque os dados tendem a fornecer um valor atípico como um resultado com maior distância da média se aplicado a qualquer algoritmo de aprendizado de máquina.
Existem 3 tipos de curtose no que diz respeito às estatísticas –
· Mesokúrtico
· Leptocúrtico
· Platicúrtico
Mesokúrtico
Esta distribuição tem caudas geralmente semelhantes à distribuição normal.
Leptokurtic
Esta distribuição terá caudas muito longas e finas. Isso significa que há mais chances de presença de outliers.
Platicúrtico
Esta distribuição terá muito baixo e esticada em torno da cauda central, o que significa que a maioria dos pontos de dados estão presentes em alta proximidade com a média.
O diagrama a seguir fornecerá um melhor entendimento-
Resposta
A curtose não é pico ou achatamento. Essa é uma descrição desatualizada e incorreta de curtose. Em vez disso, a curtose é uma medida da característica outlier (valor raro, extremo) de uma distribuição ou dados.
O que se segue é uma explicação clara de por que “pico” é simplesmente errado como descritor de curtose, e por que a caracterização “outlier” está correta.
Suponha que alguém diga a você que calculou a curtose excessiva negativa a partir de dados ou de uma função de distribuição de probabilidade (pdf). De acordo com o dogma do “pico” (iniciado infelizmente por Pearson em 1905), você deve concluir que a distribuição é “plana” quando representada graficamente. Mas isso é obviamente falso em geral. Por exemplo, o beta (.5,1) tem um pico infinito e excesso de curtose negativa. Para outro exemplo, a distribuição 0,5 * N (0, 1) + 0,5 * N (4,1) é bimodal (ondulada); não é plano e também tem curtose excessiva negativa. Estes são apenas dois exemplos de um número infinito de outras distribuições não planas com curtose excessiva negativa.
Sim, a distribuição uniforme (U (0,1)) é plana e negativa excesso de curtose. Mas, obviamente, um único exemplo não prova o caso geral. Se fosse assim, poderíamos dizer, com base na distribuição beta (.5,1), que a curtose excessiva negativa implica que a fdp é “infinitamente pontuda”. Também poderíamos dizer, com base na distribuição 0,5 * N (0, 1) + 0,5 * N (4,1), que o excesso de curtose negativa implica que a fdp é “ondulada”. É como dizer, “bem, eu sei que todos os ursos são mamíferos, então deve ser o caso de que todos os mamíferos são ursos.”
Agora, suponha que alguém diga a você que calculou curtose em excesso positiva a partir de dados ou um pdf. De acordo com o dogma do “pico” (novamente, iniciado por Pearson em 1905), você deve concluir que a distribuição é “pico” ou “pontiaguda” quando representada graficamente. Mas isso também é obviamente falso em geral. Por exemplo, pegue uma distribuição U (0,1) e misture-a com uma distribuição N (0,1000000), com .00001 probabilidade de mistura na normal. A distribuição resultante, quando representada graficamente, parece perfeitamente plana em seu pico, mas tem curtose muito alta.
Você pode jogar o mesmo jogo com qualquer distribuição diferente de U (0,1). Se você pegar uma distribuição com qualquer forma de pico, então misturá-la com uma distribuição muito mais ampla como N (0,1000000), com pequena probabilidade de mistura, você obterá uma pdf com a mesma forma de pico (plana, bimodal, trimodal, sinusoidal, qualquer que seja) como o original, mas com curtose alta.
E sim, a distribuição de Laplace tem curtose em excesso positiva e é pontuda. Mas você pode ter qualquer forma de pico e ter curtose excessiva positiva. Portanto, a analogia urso / mamífero se aplica novamente.
Uma coisa que pode ser dita sobre os casos em que os dados exibem alta curtose é que, quando você traça o histograma, o pico ocupará uma estreita faixa vertical do gráfico.A razão disso acontecer é que haverá uma proporção muito pequena de outliers (chame-os de “raras observações extremas” se você não gosta do termo “outliers”) que ocupam a maior parte da escala horizontal, levando ao aparecimento do histograma que alguns são caracterizados como “pico” ou “concentrado em direção à média”.
Mas os valores discrepantes não determinam a forma do pico. Quando você amplia a maior parte dos dados, que é, afinal, o que é mais comumente observado, você pode ter qualquer forma – pontiaguda, em forma de U, plana, sinusoidal, bimodal, trimodal, qualquer coisa.
Assim, dado que alguém lhe disse que há curtose alta, tudo o que você pode inferir legitimamente, na ausência de qualquer outra informação, é que existem pontos de dados extremos raros (ou pontos de dados potencialmente observáveis). Além dos pontos de dados raros e extremos, você não tem ideia de qual é a forma do pico sem realmente desenhar o histograma (ou pdf) e ampliar a localização da maioria dos pontos de dados (potenciais).
E dado que alguém lhe disse que existe curtose excessiva negativa, tudo o que você pode legitimamente inferir, na ausência de qualquer outra informação, é que a característica atípica dos dados (ou pdf) é menos extrema do que a de uma distribuição normal. Mas você não terá nenhuma ideia de qual é a forma do pico, sem realmente desenhar o histograma (ou pdf).
A lógica de por que a estatística de curtose mede outliers (raras, observações extremas no caso de dados; potenciais observações raras e extremas, no caso de um pdf) em vez do pico é, na verdade, bastante simples. Curtose é a média (ou valor esperado no caso da fdp) dos valores Z, cada um levado à 4ª potência. No caso em que existem valores discrepantes (potenciais), haverá alguns valores Z ^ 4 extremamente grandes, resultando em uma curtose alta. Se houver menos valores discrepantes do que, digamos, previstos por um pdf normal, os valores Z ^ 4 mais extremos não serão particularmente grandes, resultando em curtose menor.
E quanto ao pico? Bem, perto do pico, os valores de Z ^ 4 são extremamente pequenos e contribuem muito pouco para sua média geral (que novamente, é a curtose). É por isso que a curtose não diz praticamente nada sobre a forma do pico. Apresento limites matemáticos sobre a contribuição dos dados próximos ao pico para a medida de curtose no seguinte artigo:
Kurtosis as Peakedness, 1905 – 2014. R.I.P. The American Statistician, 68, 191–195.
Espero que isso ajude.
Peter Westfall
P.S. A altura do pico também não está relacionada à curtose; ver Kaplansky, I. (1945), “A Common Error Concerning Kurtosis”, Journal of the American Statistical Association, 40, 259. Mas a interpretação errônea de “altura” também parece persistir.