ベストアンサー
尖度は、平坦またはピークになっているという特徴です。これは、データが正規分布でヘビーテールかライトテールかを示す尺度です。
尖度のパーセンタイル係数
Ku = Q /(P90 — P10)
ここで、
Q =四分位偏差
P90 = 90パーセンタイル
P10 = 10パーセンタイル
尖度の値が大きいということは、多くの場合、分布の裾が正規分布の裾よりも極端な値になっていることを意味します。これにより、平均から6または7標準偏差の長さが生じる可能性があります。同様に、尖度の値が非常に低い場合、分布の裾は正規分布の裾よりも長くなりません(3標準偏差未満)。
尖度の値が大きいと、次のように見なされることがよくあります。機械学習アルゴリズムに適用した場合、データは平均からの距離が大きい結果として外れ値を与える傾向があるため、リスクが高くなります。
統計に関する限り、尖度には3つのタイプがあります-
・メソクルティック
・レプトクルティック
・尖度
メソクルティック
この分布には、正規分布とよく似た裾があります。
尖度
この分布には非常に長くて細い尾。これは、外れ値が存在する可能性が高いことを意味します。
Platykurtic
この分布は非常に低くなります中央の尾の周りに伸びているため、ほとんどのデータポイントが平均値に非常に近接して存在しています。
次の図は、理解を深めるのに役立ちます-
回答
尖度は、尖度や平坦度ではありません。これは、尖度の時代遅れで誤った説明です。代わりに、尖度は、分布またはデータの外れ値(まれな、極値)特性の尺度です。
以下は、尖度の記述子として「ピーク」が単に間違っている理由の明確な説明です。 「外れ値」の特性が正しい理由。
データまたは確率分布関数(pdf)のいずれかから負の過剰尖度を計算したと誰かが言ったとします。 「ピーク」の教義(残念ながら1905年にピアソンによって開始された)によると、グラフ化すると、分布は「フラットトップ」であると結論付けることになっています。しかし、これは一般的に明らかに誤りです。一例として、beta(.5,1)には無限のピークがあり、負の過剰尖度があります。別の例では、0.5 * N(0、1)+ 0.5 * N(4,1)分布はバイモーダル(波状)です。まったく平坦ではなく、負の過剰尖度もあります。これらは、負の過剰尖度を持つ他の無数の非フラットトップ分布のうちの2つの例にすぎません。
はい、均一(U(0,1))分布はフラットトップであり、負です。過剰な尖度。しかし、明らかに、単一の例は一般的なケースを証明していません。そうであれば、beta(.5,1)分布に基づいて、負の過剰尖度はpdfが「無限に尖っている」ことを意味すると言えます。 0.5 * N(0、1)+ 0.5 * N(4,1)の分布に基づいて、負の過剰尖度はpdfが「波状」であることを意味するとも言えます。 「まあ、すべてのクマが哺乳類であることを知っているので、すべての哺乳類がクマである必要があります」と言っているようなものです。
データまたはデータから正の過剰尖度を計算したと誰かが言ったとします。 pdf。 「ピーク」の教義(ここでも、1905年にピアソンによって開始された)によれば、グラフ化すると、分布は「ピーク」または「先のとがった」と結論付けることになります。しかし、これも一般的に明らかに誤りです。たとえば、U(0,1)分布を取得し、それをN(0,1000000)分布と混合します。通常、混合確率は.00001です。結果の分布は、グラフ化すると、ピーク時には完全に平坦に見えますが、尖度が非常に高くなっています。
U(0,1)以外の分布でも同じゲームをプレイできます。任意の形状のピークを持つ分布を取得し、それをN(0,1000000)のようなはるかに広い分布と混合し、混合確率を小さくすると、同じ形状のピーク(フラット、バイモーダル、トリモーダル、オリジナルと同じように正弦波ですが、尖度が高くなります。
はい、ラプラス分布には正の過剰尖度があり、尖度があります。しかし、どのような形のピークでも、正の過剰尖度を持つことができます。したがって、クマ/哺乳類のアナロジーが再び当てはまります。
データが高い尖度を示す場合について言えることの1つは、ヒストグラムを描画すると、ピークがグラフの狭い垂直ストリップを占めることです。これが発生する理由は、水平スケールの大部分を占める外れ値の割合が非常に少ないため(「外れ値」という用語が気に入らない場合は、「まれな極端な観測値」と呼びます)、次のようなヒストグラムが表示されるためです。 「ピーク」または「平均に向かって集中している」と特徴づけられているものもあります。
ただし、外れ値はピークの形状を決定しません。結局のところ、最も一般的に観察されるデータの大部分にズームインすると、先のとがった、U字型、フラット、正弦波、バイモーダル、トリモーダルなど、あらゆる形状をとることができます。
したがって、尖度が高いと誰かが言った場合、他の情報がない場合、正当に推測できるのは、まれで極端なデータポイント(または潜在的に観察可能なデータポイント)があるということだけです。まれで極端なデータポイントを除いて、実際にヒストグラム(またはpdf)を描画し、(潜在的な)データポイントの大部分の位置を拡大しない限り、ピークの形状が何であるかはまったくわかりません。
そして、誰かが負の過剰尖度があるとあなたに言ったとすると、他の情報がない場合、データ(またはpdf)の外れ値の特性はより極端ではないということだけを合法的に推測できます正規分布のそれ。ただし、実際にヒストグラム(またはpdf)を描画しない限り、ピークの形状が何であるかはまったくわかりません。
尖度統計が外れ値を測定する理由の論理(まれに、極端な観測値データの場合;ピークではなく、潜在的にまれで極端な観測(pdfの場合)は実際には非常に単純です。尖度は、Z値の平均(またはpdfの場合は期待値)であり、それぞれが4乗されます。 (潜在的な)外れ値がある場合、Z ^ 4値が非常に大きくなり、尖度が高くなります。たとえば、正規pdfで予測されるよりも外れ値が少ない場合、最も極端なZ ^ 4値は特に大きくならず、尖度が小さくなります。
ピークは何ですか?さて、ピークの近くでは、Z ^ 4値は非常に小さく、全体の平均にはほとんど寄与しません(これも尖度です)。そのため、尖度はピークの形状についてほとんど何も教えてくれません。次の記事で、尖度の測定値に対する尖度付近のデータの寄与について数学的な限界を示します。
尖度としての尖度、1905〜 2014年。R.I.P。 American Statistician、68、191–195。
これがお役に立てば幸いです。
Peter Westfall
P.S。ピークの高さも尖度とは無関係です。 Kaplansky、I。(1945)、「尖度に関する一般的なエラー」、Journal of the American Statistics Association、40、259を参照してください。しかし、「高さ」の誤解も続いているようです。