Pandas entfernen Ausreißer

Pandas entfernen Ausreißer
Wir können die "Pandas" -Bibliothek nutzen, um einige mathematische Aufgaben für die Daten auf verwaltbare Weise zu erledigen. Dieses Open-Source-Toolkit wird zum Manipulieren und Analysieren von Daten zum Extrahieren der erforderlichen Informationen aus den angegebenen Daten verwendet. Wenn wir die „Ausreißer“ in „Pandas“ besprechen, können wir sagen, dass ein Datenelement oder ein Objekt, das sich erheblich von den anderen Elementen unterscheidet, als „Ausreißer“ bezeichnet wird. Fehler in der Messung oder Implementierung können der Grund dafür sein. Ausreißerbergbau ist die Technik, die für die Ausreißerentdeckung verwendet wird. Es gibt zahlreiche Methoden zum Auffinden von Ausreißern und das Reinigungsverfahren ist für den Datenrahmen des Pandas gleich wie für den Datenrahmen des Pandas selbst. Wir müssen die „Ausreißer“ im Datensatz „Pandas“ entfernen, denn wenn wir diese Ausreißer entfernen, hilft dies unser Modell häufig, effektiver zu verallgemeinern. Wir werden die Ausreißer im Datenrahmen und der Serie „Pandas“ in diesem Artikel entfernen, indem wir die Methode „Pandas“ verwenden.

Methoden zum Entfernen von Ausreißern in „Pandas“

Wir können zwei Methoden in „Pandas“ anwenden, um die Ausreißer in „Pandas“ zu entfernen. Diese sind:

  • Interquartil -Reichweite
  • Z-Score-Methode

Diese Methoden werden verwendet, um die "Ausreißer" aus der "Pandas" -Serie und "Pandas" -Datenframe zu entfernen. In diesem Artikel werden wir auch Beispiele dafür veranschaulichen, wie wir diese Techniken in „Pandas“ -Codes verwenden.

Beispiel # 01:

Wir verwenden das Tool "Spyder", um die "Pandas" -Codes auszuführen, die in diesem Artikel angezeigt werden. Während wir den Code „Pandas“ generieren wollen, müssen wir seine Module „importieren“. Um die Module der „Pandas“ importieren, fügen wir den „Import“ hinzu, das das Schlüsselwort ist, und dann setzen wir "Pandas als PD" ein, die als PD "eingestuft werden". Es wird dazu beitragen, die „Pandas“ -Methoden zu erhalten, wenn wir die „PD“ mit dem Namen der Funktion eingeben, die wir verwenden möchten. Dann haben wir den „Numpy“ importiert, der auch die Bibliothek ist. Wir importieren es als „NP“, damit wir seine Methoden auch mit dem Namen der „Numpy“ -Funktion erhalten können, die wir verwenden möchten.

Danach haben wir "Größe" deklariert, was der variable Name ist, und diese Variable wird mit dem Wert initialisiert, der „15“ ist, initialisiert. Nach der Initialisierung der „Größe“ deklarieren wir nun auch eine weitere Variable mit dem Namen „Daten“ darunter. Diese „Daten“ wird dann mit der „PD“ initialisiert.Serie () ”Methode. Da wir "PD" tippt haben, erhalten wir die Methode von "Pandas". In dieser “PD.Serie () ”Methode, wir setzen die„ NP.willkürlich.Normal () ”-Methode und dies ist die Methode der„ Numpy “-Bibliothek, da wir damit„ NP “hinzugefügt haben. Diese Methode hilft uns beim Erstellen der normal verteilten Daten. Diese Daten werden in Form der "Pandas" -Serie erstellt.

Wir übergeben den Parameter „Größe“ darin und weisen die Variable „Größe“ zu, die wir diesem Parameter „Größe“ erstellt haben. Es erzeugt also eine zufällige Reihe von „Pandas“ mit der Größe von „15“ und ist eindimensional. Die Variable „Daten“, in der die zufällige Serie gespeichert ist.

Jetzt können wir die Ausgabe der Codes in der "Spyder" -App auf zwei Arten problemlos erhalten. Einer von ihnen ist es, die Tasten „Shift+Enter“ zu drücken, und der andere ist die Verwendung des „Run“ -Symbols dieses Tools. Danach haben wir nun das Ergebnis des Codes auf dem Terminal dieses Tools. Das Ergebnis wird auch gezeigt, in dem die Serie angezeigt wird. Dies ist die zufällige Serie, die wir im Code „Pandas“ generiert haben. Jetzt werden wir die Ausreißer aus dieser Serie unten entfernen.

Hier passen wir die Werte „quantile ()“ an. Wir haben uns angepasst “.15 ”als Wert des ersten Quantils und auch das niedrigste Quantil. Dann haben wir das "angepasst".85 ”Wert als Wert des zweiten Quantils und der höchste Quantilwert ist. Wir haben den Namen der Serie hinzugefügt, die "Daten" sind. In den Quadratklammern platzieren wir erneut "Daten" und schreiben dann "zwischen ()" Methode. In dieser Methode haben wir zwei Parameter hinzugefügt, bei denen die erste Methode das niedrigste Quantil ist und der zweite Parameter der höchste Quantil ist.

Wir haben diese Methode auch in der Variablen „Data1“ hinzugefügt. Wenn wir diesen Code ausführen, werden die Werte nach dem Entfernen der Ausreißer in der Variablen „Data1“ gespeichert. Jetzt werden alle Ausreißer entfernen, die sowohl im niedrigsten als auch in der höchsten Quantil liegen. Dann haben wir "Druck", in dem wir "Data1" hinzugefügt haben.

Die Ausreißer werden aus der oben generierten Serie entfernt und nur neun Werte werden angezeigt. Die oben erstellte Serie enthält 15 Werte, aber nach dem Entfernen der Ausreißer gibt es neun Werte.

Beispiel # 02:

Wir importieren auch die "Statistiken" aus der "scipy" -Bibliothek, da wir diese Methode in diesem Code anwenden müssen. Wir erstellen einen Datenrahmen, in dem wir nur eine Spalte hinzugefügt haben, die als "Daten" bezeichnet wird. Wir haben „-2, 7, 15, 19, 34, 39, 50, 13, 19, 14, 87, 89 und 1456“ zu dieser Spalte „Daten“ hinzugefügt. Außerdem haben wir diesen Datenrahmen im "my_df" gespeichert. Dann drucken wir einfach "my_df" aus.

Der Datenrahmen wird in diesem Ergebnis wiedergegeben. Jetzt werden wir die Methode „Z-Score“ auf diesen Datenrahmen anwenden, um die Ausreißer zu entfernen.

Wir finden den „ZScore“, indem wir die „Statistiken“ verwenden, die wir oben importiert haben. Wir verwenden diese Methode nur, wenn wir die „Statistiken“ importieren. Wir haben die Spalte "Z_Score" hinzugefügt, in der wir die "zScore" -Werte speichern. Um die "ZSCORE" -Werte der Spalte "Daten" zu finden, haben wir den Datenrahmen und den Spaltennamen in dieser Methode hinzugefügt. Dann rendern wir auch "my_data", in dem auch die Spalte "z_score" hinzugefügt wird.

In diesem Ergebnis sind zwei Spalten gezeigt. Die Spalte "Daten", die wir im DataFrame hinzugefügt haben, und die andere ist die Spalte "z_score", enthält die "ZSCORE" -Werte, die wir durch Anwenden der "Statistiken" erhalten haben.zscore () ”Methode. Hier können Sie beachten, dass alle Werte, die in der Spalte „z_score“ vorhanden sind, negativ sind, aber der letzte der positive Wert ist. Es bedeutet also, dass es der Ausreißer ist und wir es entfernen müssen.

Nach den empirischen Kriterien sind Ausreißer die Werte des Z-Score, die größer als 3 sind. Wir haben also die "loc" -Methode zum Filtern dieser Zeilen hinzugefügt, in denen der Wert des "z_score" weniger als 3 oder gleich 3 beträgt und auch diese Zeilen im Ergebnis anzeigt, da diese Methode im „Druck (drucken (drucken ) ". Alle anderen Werte sind Ausreißer und werden aus diesem Datenrahmen entfernt.

Hier erscheinen alle Werte, die weniger als 3 sind. Der letzte Wert wird entfernt, weil er größer als 3 war und der Ausreißer in diesem Datenrahmen war.

Abschluss

Dieser Artikel wird zur Beschreibung des Konzepts „Pandas entfernen Ausreißer“ im Detail vorgestellt. Wir haben in diesem Artikel besprochen, dass die Werte, die in einem Datensatz vorhanden sind, der als extrem, fehlerhaft oder nicht repräsentativ für den Gegenstand des Datensatzes angesehen wird, als Ausreißer bezeichnet werden. Wir haben auch erklärt, dass diese Ausreißer das Ergebnis ungeradter Datenerfassungsmethoden oder tatsächlichen Ausreißerbefindungen sein können. Wir haben zwei Methoden zum Entfernen dieser Ausreißer in „Pandas“ erörtert, um diese Ausreißer zu entfernen. Wir haben die Ausreißer in der Serie und dem Datenrahmen „Pandas“ in diesem Artikel entfernt und beide Methoden im Detail erörtert.