최상의 답변
첨도는 평평하거나 정점의 특징입니다. 정규 분포에서 데이터가 두꺼운 꼬리인지 얇은 꼬리인지를 나타내는 척도입니다.
첨도 백분위 수 계수
Ku = Q / (P90 — P10)
어디,
Q = 사 분위수 편차
P90 = 90 번째 백분위 수
P10 = 10 번째 백분위 수
큰 첨도 값은 종종 분포의 꼬리가 정규 분포의 꼬리보다 더 극단적 인 값을 얻고 있음을 의미합니다. 이는 평균에서 6 또는 7 표준 편차의 길이로 이어질 수 있습니다. 마찬가지로 첨도 값이 매우 낮 으면 분포의 꼬리가 정규 분포의 꼬리보다 길어집니다 (표준 편차 3 미만).
큰 첨도 값은 종종 다음과 같이 간주됩니다. 머신 러닝 알고리즘에 적용하면 데이터가 평균에서 더 먼 결과로 특이 치 값을 제공하는 경향이 있기 때문에 더 위험합니다.
통계에 관한 한 3 가지 유형의 첨도가 있습니다.
· Mesokurtic
· Leptokurtic
· Platykurtic
Mesokurtic
이 분포는 종종 정규 분포와 유사한 꼬리를 갖습니다.
Leptokurtic
이 분포는 매우 길고 마른 꼬리. 이는 이상 치가 존재할 가능성이 더 많다는 것을 의미합니다.
Platykurtic
이 분포는 매우 낮습니다. 대부분의 데이터 포인트가 평균과 매우 근접해 있음을 의미합니다.
다음 다이어그램은 더 나은 이해를 제공합니다. / span>
답변
첨도는 첨도 또는 평탄도가 전혀 아닙니다. 그것은 첨도에 대한 오래되고 잘못된 설명입니다. 대신 첨도는 분포 또는 데이터의 특이 치 (희귀, 극단 값) 특성의 척도입니다.
다음은 첨도의 설명자로서 “첨두도”가 단순히 잘못된 이유에 대한 명확한 설명입니다. “이상치”특성화가 올바른 이유.
누군가가 데이터 또는 확률 분포 함수 (pdf)에서 음의 초과 첨도를 계산했다고 말합니다. “정점”교리에 따르면 (불행히도 1905 년 Pearson에 의해 시작됨) 그래프로 표시 할 때 분포가 “평평한 상단”이라고 결론을 내릴 수 있습니다. 그러나 이것은 일반적으로 명백히 거짓입니다. 예를 들어, beta (.5,1)는 무한 피크를 가지며 음의 과잉 첨도를 갖습니다. 다른 예를 들어, 0.5 * N (0, 1) + 0.5 * N (4,1) 분포는 바이 모달 (물결 모양)입니다. 전혀 평평하지 않고 음의 과잉 첨도도 있습니다. 이는 음의 과잉 첨도를 갖는 다른 비평 평 분포의 무한한 수 중 두 가지 예일뿐입니다.
예, 균일 한 (U (0,1)) 분포는 평평하고 음수입니다. 과도한 첨도. 그러나 분명히 한 가지 예가 일반적인 경우를 증명하지는 않습니다. 그렇다면 베타 (.5,1) 분포를 기반으로 음의 과잉 첨도는 pdf가 “무한 뾰족한”것임을 의미한다고 말할 수 있습니다. 또한 0.5 * N (0, 1) + 0.5 * N (4,1) 분포를 기반으로 음의 과잉 첨도는 pdf가 “물결”임을 의미한다고 말할 수 있습니다. 마치 “곰이 모두 포유류라는 것을 알고 있으므로 모든 포유류가 곰인 경우가 틀림 없습니다.”라고 말하는 것과 같습니다.
이제 누군가가 데이터 나 데이터에서 양의 첨도를 계산했다고 말합니다. pdf. “peakedness”교리에 따르면 (다시 말하지만, Pearson이 1905 년에 시작 함) 그래프로 표시 할 때 분포가 “첨두”또는 “뾰족”하다고 결론을 내릴 수 있습니다. 그러나 이것은 또한 일반적으로 명백히 거짓입니다. 예를 들어, U (0,1) 분포를 N (0,1000000) 분포와 혼합하고 정규 분포에서 .00001 혼합 확률을 사용합니다. 그래프로 표시 할 때 결과 분포는 정점에서 완벽하게 평평하게 보이지만 첨도가 매우 높습니다.
U (0,1) 이외의 분포로 동일한 게임을 플레이 할 수 있습니다. 어떤 모양의 피크를 가진 분포를 취하고 N (0,1000000)과 같은 훨씬 더 넓은 분포와 혼합하면 작은 혼합 확률로 동일한 모양의 피크 (플랫, 바이 모달, 트라이 모달, 정현파, 뭐든간에) 원본과 같지만 첨도가 높습니다.
예, Laplace 분포는 양의 과잉 첨도를 가지며 뾰족합니다. 그러나 어떤 형태의 피크도 가질 수 있고 양의 과잉 첨도를 가질 수 있습니다. 따라서 곰 / 포유류 비유가 다시 적용됩니다.
데이터가 높은 첨도를 나타내는 경우에 대해 말할 수있는 한 가지는 히스토그램을 그릴 때 피크가 그래프의 좁은 수직 스트립을 차지한다는 것입니다.이것이 발생하는 이유는 대부분의 수평 척도를 차지하는 매우 적은 비율의 특이 치 ( “이상치”라는 용어가 마음에 들지 않는 경우 “희귀 극한 관측치”라고 부름)가 존재하기 때문입니다. 일부는 “첨두”또는 “평균에 집중”하는 특성을 가지고 있습니다.
그러나 이상 값은 피크의 모양을 결정하지 않습니다. 결국 가장 일반적으로 관찰되는 데이터의 대부분을 확대하면 뾰족한, U 자형, 편평한, 사인파, 바이 모달, 트라이 모달 등 모든 형태를 가질 수 있습니다.
따라서 누군가가 높은 첨도가 있다고 말하면 다른 정보가 없을 때 합법적으로 추론 할 수있는 것은 드물고 극단적 인 데이터 포인트 (또는 잠재적으로 관찰 가능한 데이터 포인트)가 있다는 것입니다. 드물고 극단적 인 데이터 포인트를 제외하고는 실제로 히스토그램 (또는 pdf)을 그리고 대부분의 (잠재적) 데이터 포인트의 위치를 확대하지 않고는 피크의 모양이 무엇인지 전혀 알 수 없습니다.
누군가가 음의 과잉 첨도가 있다고 말하면 다른 정보가없는 경우 합법적으로 추론 할 수있는 것은 데이터 (또는 pdf)의 이상치 특성이 정규 분포의 것입니다. 그러나 실제로 히스토그램 (또는 pdf)을 그리지 않고서는 피크의 모양이 무엇인지 전혀 알 수 없습니다.
첨도 통계가 특이 치를 측정하는 이유에 대한 논리 (드물고 극단적 인 관측치 데이터의 경우; pdf의 경우 잠재적 인 드물고 극단적 인 관찰) 피크보다는 실제로 매우 간단합니다. 첨도는 Z- 값의 평균 (또는 pdf의 경우 기대 값)이며, 각각은 4 제곱입니다. (잠재적 인) 특이 치가있는 경우, 매우 큰 Z ^ 4 값이있어 첨도가 높아집니다. 예를 들어 정규 pdf로 예측 한 것보다 특이 치가 적 으면 가장 극단적 인 Z ^ 4 값이 특별히 크지 않아 첨도가 더 작아집니다.
피크는 얼마입니까? 음, 정점 근처에서 Z ^ 4 값은 매우 작고 전체 평균에 거의 기여하지 않습니다 (다시 말하지만 첨도). 그렇기 때문에 첨도는 봉우리의 모양에 대해 거의 알려주지 않습니다. 다음 기사에서 첨도 측정 값에 대한 피크 근처 데이터의 기여도에 대한 수학적 한계를 제공합니다.
Kurtosis as Peakedness, 1905 – 2014. R.I.P. The American Statistician, 68, 191–195.
도움이 되었기를 바랍니다.
Peter Westfall
P.S. 봉우리의 높이도 첨도와 관련이 없습니다. Kaplansky, I. (1945), “첨도에 관한 일반적인 오류”, Journal of the American Statistical Association, 40, 259 참조. 그러나 “높이”오해도 지속되는 것 같습니다.