In diesem Artikel haben wir einen Datensatz der Bevölkerung verschiedener Staaten in den Vereinigten Staaten genommen, was in a verfügbar ist .CSV -Dateiformat. Wir werden die lesen .CSV -Datei, um den ursprünglichen Inhalt dieser Datei wie folgt anzuzeigen:
Pandas als PD importierenIm folgenden Screenshot sehen Sie den doppelten Inhalt dieser Datei:
Identifizierung von Duplikaten in Pandas Python
Es ist erforderlich zu bestimmen, ob die von Ihnen verwendeten Daten doppelte Zeilen haben. Um nach Datenverdoppelung zu überprüfen, können Sie eine der in den folgenden Abschnitten behandelten Methoden verwenden.
Methode 1:
Lesen Sie die CSV -Datei und geben Sie sie in den Datenrahmen ein. Identifizieren Sie dann die doppelten Zeilen mit dem dupliziert () Funktion. Verwenden Sie schließlich die Druckanweisung, um die doppelten Zeilen anzuzeigen.
Pandas als PD importierenMethode 2:
Unter Verwendung dieser Methode die is_duplicated Die Spalte wird am Ende der Tabelle hinzugefügt und im Fall von doppelten Zeilen als "wahr" gekennzeichnet.
Pandas als PD importierenDuplikate in Pandas Python fallen lassen
Duplizierte Zeilen können mit der folgenden Syntax aus Ihrem Datenrahmen entfernt werden:
drop_duplicates (subset = ", keep =", inplace = false)
Die obigen drei Parameter sind optional und werden nachstehend ausführlicher erläutert:
halten: Dieser Parameter hat drei verschiedene Werte: Ersten, Last und Falsch. Der erste Wert hält das erste Ereignis und beseitigt nachfolgende Duplikate, der letzte Wert hält nur das letzte Ereignis und beseitigt alle vorherigen Duplikate, und der falsche Wert beseitigt alle doppelten Zeilen.
Teilmenge: Etikettieren Sie zur Identifizierung der doppelten Zeilen
an Ort und Stelle: Enthält zwei Bedingungen: wahr und falsch. Dieser Parameter entzieht doppelte Zeilen, wenn er auf true eingestellt ist.
Entfernen Sie Duplikate, die nur das erste Ereignis behalten
Wenn Sie "Keep = First" verwenden, wird nur das Auftreten der ersten Zeile aufbewahrt, und alle anderen Duplikate werden entfernt.
Beispiel
In diesem Beispiel wird nur die erste Zeile aufbewahrt, und die verbleibenden Duplikate werden gelöscht:
Pandas als PD importierenIm folgenden Screenshot wird das Auftreten der ersten Reihe rot hervorgehoben und die verbleibenden Duplikationen werden entfernt:
Entfernen Sie Duplikate, die nur das letzte Ereignis behalten
Wenn Sie "Keep = Last" verwenden, werden alle doppelten Zeilen außer dem letzten Vorkommen entfernt.
Beispiel
Im folgenden Beispiel werden alle doppelten Zeilen entfernt, mit Ausnahme des letzten Vorkommens.
Pandas als PD importierenIm folgenden Bild werden die Duplikate entfernt und nur das Auftreten der letzten Zeile wird aufbewahrt:
Entfernen Sie alle doppelten Zeilen
Um alle doppelten Zeilen aus einer Tabelle zu entfernen, setzen Sie "Keep = false" wie folgt fest:
Pandas als PD importierenWie Sie im folgenden Bild sehen können, werden alle Duplikate aus dem Datenrahmen entfernt:
Entfernen Sie verwandte Duplikate aus einer bestimmten Spalte
Standardmäßig prüft die Funktion für alle doppelten Zeilen aus allen Spalten im angegebenen Datenrahmen. Sie können jedoch auch den Spaltennamen mit dem Parameter Teilmenge angeben.
Beispiel
Im folgenden Beispiel werden alle verwandten Duplikate aus der Spalte "Zustände" entfernt.
Pandas als PD importierenAbschluss
In diesem Artikel wurde gezeigt, wie Sie doppelte Zeilen aus einem Datenrahmen entfernen können drop_duplicates () Funktion in Pandas Python. Sie können auch Ihre Daten zur Duplikation oder Redundanz mit dieser Funktion löschen. Der Artikel hat Ihnen auch gezeigt, wie Sie alle Duplikate in Ihrem Datenrahmen identifizieren können.