Beste Antwort
Kurtosis ist das Merkmal, flach oder spitz zu sein. Es ist ein Maß dafür, ob Daten in einer Normalverteilung mit schwerem oder leichtem Schwanz vorliegen.
Perzentilkoeffizient der Kurtosis
Ku = Q / (P90 – P10)
Wobei
Q = Quartilabweichung
P90 = 90. Perzentil
P10 = 10. Perzentil
Ein großer Kurtosis-Wert bedeutet häufig, dass die Schwänze der Verteilung extremere Werte erhalten als die Schwänze der Normalverteilung. Dies kann zu einer Länge von 6 oder 7 Standardabweichungen vom Mittelwert führen. In ähnlicher Weise ist der Schwanz der Verteilung weniger lang als der Schwanz einer Normalverteilung (weniger als 3 Standardabweichungen), wenn der Kurtosiswert sehr niedrig ist.
Ein großer Wert der Kurtosis wird häufig als betrachtet riskanter, da Daten dazu neigen, einen Ausreißerwert als Ergebnis mit größerer Entfernung vom Mittelwert zu ergeben, wenn sie auf einen Algorithmus für maschinelles Lernen angewendet werden.
In Bezug auf die Statistik gibt es drei Arten von Kurtosis –
· Mesokurtic
· Leptokurtic
· Platykurtic
Mesokurtic
Diese Verteilung hat die Schwänze oft ähnlich wie die Normalverteilung.
Leptokurtic
Diese Verteilung wird haben sehr lange und dünne Schwänze. Dies bedeutet, dass mehr Chancen auf Ausreißer bestehen.
Platykurtic
Diese Verteilung ist sehr gering und um die Mittelschwänze gespannt, was bedeutet, dass die meisten Datenpunkte in großer Nähe zum Mittelwert vorliegen.
Das folgende Diagramm bietet ein besseres Verständnis / span>
Antwort
Kurtosis ist überhaupt keine Spitze oder Ebenheit. Das ist eine veraltete und falsche Beschreibung der Kurtosis. Stattdessen ist die Kurtosis ein Maß für die Ausreißercharakteristik (seltener, extremer Wert) einer Verteilung oder von Daten.
Was folgt, ist eine klare Erklärung dafür, warum „Peakedness“ als Deskriptor der Kurtosis einfach falsch ist, und warum die „Ausreißer“ -Charakterisierung korrekt ist.
Angenommen, jemand sagt Ihnen, dass er eine negative überschüssige Kurtosis entweder aus Daten oder aus einer Wahrscheinlichkeitsverteilungsfunktion (pdf) berechnet hat. Nach dem Dogma „Peakedness“ (das leider 1905 von Pearson begonnen wurde) sollten Sie zu dem Schluss kommen, dass die Verteilung bei der grafischen Darstellung „flach“ ist. Aber das ist im Allgemeinen offensichtlich falsch. Zum Beispiel hat das Beta (.5,1) einen unendlichen Peak und eine negative überschüssige Kurtosis. Für ein anderes Beispiel ist die Verteilung von 0,5 * N (0, 1) + 0,5 * N (4,1) bimodal (wellig); überhaupt nicht flach und hat auch negative überschüssige Kurtosis. Dies sind nur zwei Beispiele aus einer unendlichen Anzahl anderer Verteilungen ohne flache Spitze mit negativer überschüssiger Kurtosis.
Ja, die gleichmäßige Verteilung (U (0,1)) ist flach und negativ übermäßige Kurtosis. Aber offensichtlich beweist ein einziges Beispiel nicht den allgemeinen Fall. Wenn das so wäre, könnten wir basierend auf der Beta (.5,1) -Verteilung sagen, dass eine negative überschüssige Kurtosis impliziert, dass das PDF „unendlich spitz“ ist. Wir könnten auch sagen, basierend auf der Verteilung von 0,5 * N (0, 1) + 0,5 * N (4,1), dass eine negative überschüssige Kurtosis impliziert, dass das PDF „wellig“ ist. Es ist so, als würde man sagen: „Nun, ich weiß, dass alle Bären Säugetiere sind, also muss es so sein, dass alle Säugetiere Bären sind.“
Nehmen wir nun an, jemand sagt Ihnen, dass er eine positive überschüssige Kurtosis entweder aus Daten oder berechnet hat ein pdf. Nach dem Dogma „Peakedness“ (ebenfalls 1905 von Pearson begonnen) sollten Sie zu dem Schluss kommen, dass die Verteilung in der Grafik „Peaked“ oder „Pointy“ ist. Dies ist aber auch im Allgemeinen offensichtlich falsch. Nehmen Sie zum Beispiel eine U (0,1) -Verteilung und mischen Sie sie mit einer N (0,1000000) -Verteilung, wobei die Mischwahrscheinlichkeit von 0,00001 normal ist. Die resultierende Verteilung erscheint grafisch auf ihrem Höhepunkt vollkommen flach, weist jedoch eine sehr hohe Kurtosis auf.
Sie können dasselbe Spiel mit jeder anderen Verteilung als U (0,1) spielen. Wenn Sie eine Verteilung mit einem beliebigen Formpeak nehmen und diese dann mit einer viel breiteren Verteilung wie N (0,1000000) mischen, erhalten Sie mit geringer Mischwahrscheinlichkeit ein PDF mit derselben Peakform (flach, bimodal, trimodal,). sinusförmig, was auch immer) wie das Original, aber mit hoher Kurtosis.
Und ja, die Laplace-Verteilung weist eine positive überschüssige Kurtosis auf und ist spitz. Aber Sie können jede Form des Peaks haben und eine positive überschüssige Kurtosis haben. Die Bären / Säugetier-Analogie gilt also erneut.
Eine Sache, die über Fälle gesagt werden kann, in denen die Daten eine hohe Kurtosis aufweisen, ist, dass der Peak beim Zeichnen des Histogramms einen schmalen vertikalen Streifen des Diagramms einnimmt.Der Grund dafür ist, dass es einen sehr kleinen Anteil von Ausreißern gibt (nennen Sie sie „seltene extreme Beobachtungen“, wenn Sie den Begriff „Ausreißer“ nicht mögen), die den größten Teil der horizontalen Skala einnehmen, was dazu führt, dass das Histogramm erscheint Einige haben als „Peak“ oder „auf den Mittelwert konzentriert“ charakterisiert.
Die Ausreißer bestimmen jedoch nicht die Form des Peaks. Wenn Sie den Großteil der Daten vergrößern, was schließlich am häufigsten beobachtet wird, können Sie jede Form haben – spitz, U-förmig, flach, sinusförmig, bimodal, trimodal, was auch immer. P. >
Angesichts der Tatsache, dass Ihnen jemand mitteilt, dass eine hohe Kurtosis vorliegt, können Sie ohne weitere Informationen nur zu Recht darauf schließen, dass es seltene, extreme Datenpunkte (oder potenziell beobachtbare Datenpunkte) gibt. Abgesehen von den seltenen, extremen Datenpunkten haben Sie keinerlei Ahnung, wie der Peak geformt ist, ohne das Histogramm (oder PDF) zu zeichnen und die Position der meisten (potenziellen) Datenpunkte zu vergrößern.
Und da Ihnen jemand sagt, dass es eine negative überschüssige Kurtosis gibt, können Sie ohne weitere Informationen zu Recht darauf schließen, dass die Ausreißercharakteristik der Daten (oder PDFs) weniger extrem ist als das einer Normalverteilung. Sie haben jedoch keinerlei Ahnung, wie der Peak geformt ist, ohne das Histogramm (oder PDF) zu zeichnen.
Die Logik, warum die Kurtosis-Statistik Ausreißer misst (seltene, extreme Beobachtungen in der Datenfall (potenziell seltene, extreme Beobachtungen im Fall eines PDF) anstelle des Peaks ist eigentlich recht einfach. Kurtosis ist der Durchschnitt (oder der erwartete Wert im Fall des PDF) der Z-Werte, jeweils nach der 4. Potenz. In dem Fall, dass es (potenzielle) Ausreißer gibt, gibt es einige extrem große Z ^ 4-Werte, was zu einer hohen Kurtosis führt. Wenn es weniger Ausreißer gibt, als beispielsweise von einem normalen PDF vorhergesagt, sind die extremsten Z ^ 4-Werte nicht besonders groß, was zu einer kleineren Kurtosis führt.
Was ist mit dem Peak? Nun, in der Nähe des Peaks sind die Z ^ 4-Werte extrem klein und tragen sehr wenig zu ihrem Gesamtdurchschnitt bei (was wiederum die Kurtosis ist). Deshalb sagt die Kurtosis so gut wie nichts über die Form des Gipfels aus. Ich gebe im folgenden Artikel mathematische Grenzen für den Beitrag der Daten in der Nähe des Peaks zum Kurtosis-Maß:
Kurtosis als Peakedness, 1905 – 2014. R.I.P. The American Statistician, 68, 191–195.
Ich hoffe, das hilft.
Peter Westfall
P.S. Die Höhe des Peaks hängt auch nicht mit der Kurtosis zusammen. siehe Kaplansky, I. (1945), „Ein häufiger Fehler in Bezug auf Kurtosis“, Journal of American Statistical Association, 40, 259. Aber die Fehlinterpretation „Höhe“ scheint auch weiterhin zu bestehen.