Ausreißer berechnen

EIN Ausreißer oder Ausreißer in der Statistik ein Datenpunkt, der sich signifikant von den anderen Datenpunkten in einer Stichprobe unterscheidet. Ausreißer weisen Statistiker oft auf Anomalien oder Fehler in den Messungen hin, woraufhin sie den Ausreißer aus dem Datensatz entfernen können. Wenn sie sich tatsächlich dafür entscheiden, die Ausreißer aus dem Datensatz zu entfernen, könnte dies die Schlussfolgerungen aus der Studie erheblich ändern. Deshalb ist es wichtig, Ausreißer zu berechnen und zu bestimmen, wenn man statistische Daten richtig interpretieren will.

Schritte

Bildtitel Ausreißer berechnen Schritt 1
1. Erfahren Sie, wie Sie potenzielle Ausreißer erkennen. Bevor wir entscheiden können, ob wir anomale Werte aus einem bestimmten Datensatz entfernen, müssen wir natürlich die möglichen Ausreißer im Datensatz erkennen. Im Allgemeinen sind Ausreißer die Datenpunkte, die deutlich vom Trend abweichen, die die anderen Werte in der eingestellten Form bilden – also sie schießen der anderen Werte. In Tabellen und (insbesondere) in Grafiken ist dies meist leicht zu erkennen. Wenn der Datensatz visuell grafisch dargestellt wird, sind die Ausreißer „weit entfernt“ von den anderen Werten. Wenn beispielsweise die meisten Punkte in einem Datensatz eine gerade Linie bilden, stimmen Ausreißer nicht mit dieser Linie überein.
  • Schauen wir uns einen Datensatz an, der die Temperaturen von 12 verschiedenen Objekten in einem Raum zeigt. Schwankt die Temperatur von 11 Objekten um nur wenige Grad um 21°C, während ein Objekt, ein Ofen, eine Temperatur von 150°C hat, erkennt man auf den ersten Blick, dass der Ofen wahrscheinlich ein Ausreißer ist.
Bildtitel Ausreißer berechnen Schritt 2
2. Alle Datenpunkte von niedrig nach hoch sortieren. Der erste Schritt bei der Berechnung von Ausreißern besteht darin, den Medianwert (oder den Mittelwert) des Datensatzes zu ermitteln. Diese Aufgabe wird viel einfacher, wenn die Werte im Set vom niedrigsten zum höchsten geordnet sind. Bevor Sie fortfahren, sortieren Sie die Werte in Ihrem Datensatz wie folgt.
  • Lassen Sie uns mit dem obigen Beispiel weiterarbeiten. Hier ist unser Datensatz, der die Temperaturen verschiedener Objekte in einem Raum in Grad Fahrenheit zeigt: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Wenn wir die Werte in der Menge vom niedrigsten zum höchsten sortieren, wird dies unser neuer Satz: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  • Bildtitel Ausreißer berechnen Schritt 3
    3. Berechnen Sie den Median des Datensatzes. Der Median eines Datensatzes ist der Datenpunkt, an dem sich die Hälfte der Daten darüber und die Hälfte der Daten darunter befindet - er ist im Grunde das "Zentrum" des Datensatzes. Enthält der Datensatz eine ungerade Anzahl von Punkten, ist der Median leicht zu finden – der Median ist der Punkt mit so vielen Punkten darüber wie darunter. Wenn es eine gerade Anzahl von Punkten gibt, müssen Sie den Durchschnitt der beiden Mittelpunkte nehmen, um den Median zu ermitteln, da es keinen Mittelpunkt gibt. Bei der Berechnung von Ausreißern wird der Median normalerweise mit der Variablen Q2 bezeichnet – da er zwischen Q1 und Q3 liegt, dem ersten und dritten Quartil. Wir werden diese Variablen später bestimmen.
  • Lassen Sie sich nicht von Datensätzen mit einer geraden Punktzahl verwirren – der Durchschnitt der beiden mittleren Punkte ist oft eine Zahl, die nicht im Datensatz selbst enthalten ist – das ist in Ordnung. Wenn die beiden Mittelpunkte jedoch gleich sind, wird der Mittelwert natürlich auch diese Zahl sein - auch das ist es Okay.
  • In unserem Beispiel haben wir 12 Punkte. Die mittleren beiden Begriffe sind die Punkte 6 und 7 – 70 bzw. 71. Der Median unseres Datensatzes ist also der Mittelwert dieser beiden Punkte: ((70 + 71) / 2)=70,5.
  • Bildtitel Ausreißer berechnen Schritt 4
    4. Berechnen Sie das erste Quartil. Dieser Punkt, den wir als Variable Q1 bezeichnen, ist der Datenpunkt, unter dem 25 Prozent (oder ein Viertel) der Beobachtungen liegen. Mit anderen Worten, dies ist der Mittelpunkt aller Punkte in Ihrem Datensatz unter der Median. Liegt eine gerade Anzahl von Werten unterhalb des Medians, müssen Sie die beiden mittleren Werte erneut mitteln, um Q1 zu finden, wie Sie es vielleicht schon getan haben, um den Median selbst zu bestimmen.
  • In unserem Beispiel liegen sechs Punkte über dem Median und sechs darunter. Um das erste Quartil zu finden, müssen wir den Durchschnitt der beiden mittleren Punkte in den unteren sechs Punkten nehmen. Die Punkte 3 und 4 der unteren sechs sind beide 70, ihr Mittelwert ist also ((70 + 70) / 2)=70. Unser Wert für Q1 beträgt also 70.
  • Bildtitel Ausreißer berechnen Schritt 5
    5. Berechnen Sie das dritte Quartil. Dieser Punkt, den wir mit der Variablen Q3 bezeichnen, ist der Datenpunkt, über dem 25 Prozent der Daten liegen. Das Finden von Q3 ist praktisch dasselbe wie das Finden von Q1, außer dass wir in diesem Fall die Punkte betrachten Oben der Median.
  • Wenn wir mit dem obigen Beispiel fortfahren, sehen wir, dass die beiden mittleren Punkte der sechs Punkte über dem Median 71 und 72 . sind. Der Mittelwert dieser beiden Punkte ist ((71 + 72) / 2)=71,5. Unser Wert für Q3 beträgt also 71,5.
  • Bildtitel Ausreißer berechnen Schritt 6
    6. Finden Sie den Interquartilsabstand. Nachdem wir nun Q1 und Q3 bestimmt haben, müssen wir den Abstand zwischen diesen beiden Variablen berechnen. Der Abstand zwischen Q1 und Q3 kann durch Subtraktion von Q1 von Q3 . ermittelt werden. Der Wert, den Sie für den Interquartilabstand erhalten, ist entscheidend, um die Grenzen für nicht abweichende Punkte in Ihrem Datensatz zu bestimmen.
  • In unserem Beispiel sind die Werte für Q1 und Q3 70 bzw. 71,5 . Um den Interquartilabstand zu finden, berechnen wir Q3 - Q1: 71,5 - 70=1,5.
  • Dies funktioniert auch, wenn Q1, Q3 oder beide Zahlen negativ sind. Wenn unser Wert für Q1 beispielsweise -70 wäre, wäre der Interquartilabstand 71,5 - (-70) = 141,5, was richtig ist.
  • Bildtitel Ausreißer berechnen Schritt 7
    7. Finden Sie die „inneren Grenzen“ des Datensatzes. Sie können Ausreißer identifizieren, indem Sie feststellen, ob sie innerhalb einer Reihe von numerischen Grenzen liegen. die sogenannten „inneren Grenzwerte“ und „äußeren Grenzwerte“. Ein Punkt, der außerhalb der inneren Grenzen des Datensatzes liegt, wird als a . klassifiziert leichter Ausreißer, und ein Punkt, der außerhalb der äußeren Grenzen liegt, wird als a . klassifiziert extremer Ausreißer. Um die inneren Grenzen Ihres Datensatzes zu finden, multiplizieren Sie zuerst den Interquartilabstand mit 1,5. Addiere das Ergebnis zu Q3 und subtrahiere es von Q1. Die beiden Ergebnisse sind die inneren Grenzen Ihres Datensatzes.
  • In unserem Beispiel beträgt der Interquartilbereich (71,5 - 70) oder 1,5. Multiplizieren Sie dies mit 1,5 und Sie erhalten 2,25. Wir addieren diese Zahl zu Q3 und subtrahieren sie von Q1, um die inneren Schranken wie folgt zu finden:
  • 71,5 + 2,25 = 73,75
  • 70 - 2,25=67,75
  • Die Binnengrenzen sind also 67,75 und 73,75.
  • In unserem Datensatz liegt nur die Ofentemperatur – 300 Grad Fahrenheit – außerhalb dieses Bereichs. Dies kann also ein leichter Ausreißer sein. Wir müssen jedoch auch noch feststellen, ob diese Temperatur ein extremer Ausreißer ist, also lass uns noch keine voreiligen Schlüsse ziehen.
    Bildtitel Ausreißer berechnen Schritt 7Bullet2
  • Bildtitel Ausreißer berechnen Schritt 8
    8. Finden Sie die „äußeren Grenzen“ des Datensatzes. Sie machen dies genauso wie bei den inneren Schranken, mit dem einzigen Unterschied, dass Sie den Interquartilabstand mit 3 statt mit 1,5 . multiplizieren. Dann addieren Sie das Ergebnis zu Q3 und subtrahieren von Q1, um die äußeren Grenzen zu finden.
  • In unserem Beispiel multiplizieren wir den Interquartilabstand mit 3 und erhalten (1,5 * 3) oder 4,5. Wir können nun die äußeren Grenzen auf die gleiche Weise wie die inneren Grenzen finden:
  • 71,5 + 4,5 = 76
  • 70 - 4,5=65,5
  • Die äußeren Grenzen sind also 65,5 und 76.
  • Datenpunkte, die außerhalb der Außengrenzen liegen, gelten als extreme Ausreißer. In unserem Beispiel liegt die Ofentemperatur mit 300 Grad Fahrenheit weit außerhalb der äußeren Grenzen. Die Ofentemperatur ist also sicher ein extremer Ausreißer.
    Bildtitel Ausreißer berechnen Schritt 8Bullet2
  • Bildtitel Ausreißer berechnen Schritt 9
    9. Verwenden Sie eine qualitative Bewertung, um festzustellen, ob Sie die Ausreißer „verwerfen“ sollten. Mit obiger Methode können Sie feststellen, ob es sich bei bestimmten Punkten um leichte Ausreißer, extreme Ausreißer oder gar keine Ausreißer handelt. Aber machen Sie keinen Fehler – einen Punkt als Ausreißer zu erkennen macht ihn nur zu einem Kandidat aus dem Datensatz entfernt werden, und nicht sofort ein Punkt entfernt muss einbiegen in. Der Ritt warum sich ein Ausreißer von den übrigen Punkten in der Menge unterscheidet, ist entscheidend für die Entscheidung, ob der Ausreißer entfernt werden sollte. Im Allgemeinen werden Ausreißer, die durch einen Fehler verursacht wurden - beispielsweise ein Fehler in den Messungen, in den Aufzeichnungen oder im Versuchsdesign - entfernt. Im Gegensatz dazu sind Ausreißer, die nicht durch Fehler verursacht werden und neue, unvorhergesehene Informationen oder Trends offenbaren, in der Regel nicht gelöscht.
  • Ein weiteres zu berücksichtigendes Kriterium ist, ob die Ausreißer den Mittelwert eines Datensatzes verzerrt oder irreführend beeinflussen. Dies ist besonders wichtig, wenn Sie aus dem Durchschnitt Ihres Datensatzes Rückschlüsse ziehen möchten.
  • Sehen wir uns unser Beispiel an. Seit es höchst Obwohl es unwahrscheinlich ist, dass der Ofen aufgrund einer unvorhergesehenen Naturgewalt eine Temperatur von 300 ° F erreicht hat, können wir in unserem Beispiel mit fast 100 %iger Sicherheit feststellen, dass der Ofen versehentlich eingeschaltet war, was zu einer ungewöhnlich hohen Temperaturanzeige führte. Wenn wir den Ausreißer nicht entfernen, ergibt unser Datensatz außerdem einen Mittelwert von (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89,67 °F, während der Durchschnitt ohne der Ausreißer liegt bei (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11=70,55 °F.
  • Da der Ausreißer durch menschliches Versagen verursacht wurde und es falsch ist zu sagen, dass die durchschnittliche Raumtemperatur nahe bei 32 °C lag, müssen wir uns für unseren Ausreißer entscheiden Löschen.
  • Bildtitel Ausreißer berechnen Schritt 10
    10. Verstehen Sie, wie wichtig es ist, (manchmal) Ausreißer zu behalten. Während einige Ausreißer aus einem Datensatz entfernt werden sollten, weil sie das Ergebnis von Fehlern sind oder die Ergebnisse irreführend verzerren, sollten andere Ausreißer beibehalten werden. Wurde beispielsweise ein Ausreißer korrekt ermittelt (also nicht das Ergebnis eines Fehlers) und/oder liefert der Ausreißer einen neuen Einblick in das zu messende Phänomen, sollte er nicht sofort entfernt werden. Wissenschaftliche Experimente sind besonders sensible Situationen, wenn es um den Umgang mit Ausreißern geht – das irrtümliche Entfernen eines Ausreißers kann bedeuten, dass wichtige Informationen über einen neuen Trend oder eine neue Entdeckung verworfen werden.
  • Stellen Sie sich zum Beispiel vor, wir entwickeln ein neues Medikament, um Fische in einer Fischfarm größer wachsen zu lassen. Verwenden wir unseren alten Datensatz ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), außer dass jeder Punkt nun die Masse eines Fisches (in Gramm) darstellt nach Behandlung mit einem anderen experimentellen Medikament von Geburt an. Mit anderen Worten, das erste Medikament gab einem Fisch eine Masse von 71 Gramm, das zweite gab einem anderen Fisch eine Masse von 70 Gramm und so weiter. In dieser Situation 300. ist still ein riesiger Ausreißer, aber wir sollten ihn jetzt nicht entfernen. Denn wenn wir davon ausgehen, dass der Ausreißer nicht auf einen Fehler zurückzuführen ist, stellt er in unserem Experiment einen großen Erfolg dar. Das Medikament, das einen 300-Gramm-Fisch produzierte, wirkte besser als jedes andere Medikament, also das ist es die meisten wichtiger Datenpunkt in unserem Set, anstatt der am wenigsten wichtiger Datenpunkt.
  • Tipps

    • Wenn Sie Ausreißer finden, versuchen Sie diese zu erklären, bevor Sie sie aus dem Datensatz entfernen. sie können auf Messfehler oder Abweichungen in der Verteilung hinweisen.

    Notwendigkeiten

    • Taschenrechner

    Оцените, пожалуйста статью