So lassen Sie doppelte Zeilen in Pandas Python fallen

So lassen Sie doppelte Zeilen in Pandas Python fallen
Python ist eine der beliebtesten Programmiersprachen für die Datenanalyse und unterstützt auch verschiedene python-datenzentrierte Pakete. Die Pandas -Pakete gehören zu den beliebtesten Python -Paketen und können für die Datenanalyse importiert werden. In fast allen Datensätzen existieren häufig doppelte Zeilen, was zu Problemen während der Datenanalyse oder beim arithmetischen Betrieb führen kann. Der beste Ansatz für die Datenanalyse besteht darin, alle doppelten Zeilen zu identifizieren und sie aus Ihrem Datensatz zu entfernen. Mit der Funktion pandas drop_duplicates () können Sie die Datensätze von einem Datenrahmen einfach fallen lassen oder entfernen, doppelte und doppelte und entfernen Sie sie einfach aus einem Datenrahmen.
Dieser Artikel zeigt, wie Sie Duplikate in Daten finden und die Duplikate mithilfe der Pandas Python -Funktionen entfernen können.

In diesem Artikel haben wir einen Datensatz der Bevölkerung verschiedener Staaten in den Vereinigten Staaten genommen, was in a verfügbar ist .CSV -Dateiformat. Wir werden die lesen .CSV -Datei, um den ursprünglichen Inhalt dieser Datei wie folgt anzuzeigen:

Pandas als PD importieren
df_state = pd.read_csv ("c:/user/dell/desktop/population_ds.CSV ")
print (df_state)

Im folgenden Screenshot sehen Sie den doppelten Inhalt dieser Datei:

Identifizierung von Duplikaten in Pandas Python

Es ist erforderlich zu bestimmen, ob die von Ihnen verwendeten Daten doppelte Zeilen haben. Um nach Datenverdoppelung zu überprüfen, können Sie eine der in den folgenden Abschnitten behandelten Methoden verwenden.

Methode 1:

Lesen Sie die CSV -Datei und geben Sie sie in den Datenrahmen ein. Identifizieren Sie dann die doppelten Zeilen mit dem dupliziert () Funktion. Verwenden Sie schließlich die Druckanweisung, um die doppelten Zeilen anzuzeigen.

Pandas als PD importieren
df_state = pd.read_csv ("c:/user/dell/desktop/population_ds.CSV ")
DUP_ROWS = DF_STATE [DF_STATE.dupliziert ()]
print ("\ n \ nduplicate Zeilen: \ n ".Format (DUP_ROWS))

Methode 2:

Unter Verwendung dieser Methode die is_duplicated Die Spalte wird am Ende der Tabelle hinzugefügt und im Fall von doppelten Zeilen als "wahr" gekennzeichnet.

Pandas als PD importieren
df_state = pd.read_csv ("c:/user/dell/desktop/population_ds.CSV ")
df_state ["is_duplicate"] = df_state.dupliziert ()
print ("\ n ".Format (df_state))

Duplikate in Pandas Python fallen lassen

Duplizierte Zeilen können mit der folgenden Syntax aus Ihrem Datenrahmen entfernt werden:
drop_duplicates (subset = ", keep =", inplace = false)
Die obigen drei Parameter sind optional und werden nachstehend ausführlicher erläutert:
halten: Dieser Parameter hat drei verschiedene Werte: Ersten, Last und Falsch. Der erste Wert hält das erste Ereignis und beseitigt nachfolgende Duplikate, der letzte Wert hält nur das letzte Ereignis und beseitigt alle vorherigen Duplikate, und der falsche Wert beseitigt alle doppelten Zeilen.
Teilmenge: Etikettieren Sie zur Identifizierung der doppelten Zeilen
an Ort und Stelle: Enthält zwei Bedingungen: wahr und falsch. Dieser Parameter entzieht doppelte Zeilen, wenn er auf true eingestellt ist.

Entfernen Sie Duplikate, die nur das erste Ereignis behalten

Wenn Sie "Keep = First" verwenden, wird nur das Auftreten der ersten Zeile aufbewahrt, und alle anderen Duplikate werden entfernt.

Beispiel

In diesem Beispiel wird nur die erste Zeile aufbewahrt, und die verbleibenden Duplikate werden gelöscht:

Pandas als PD importieren
df_state = pd.read_csv ("c:/user/dell/desktop/population_ds.CSV ")
DUP_ROWS = DF_STATE [DF_STATE.dupliziert ()]
print ("\ n \ nduplicate Zeilen: \ n ".Format (DUP_ROWS))
Df_rm_dup = df_state.drop_duplicates (keep = 'First')
print ('\ n \ nResult DataFrame nach doppelter Entfernung: \ n', df_rm_dup.Kopf (n = 5))

Im folgenden Screenshot wird das Auftreten der ersten Reihe rot hervorgehoben und die verbleibenden Duplikationen werden entfernt:

Entfernen Sie Duplikate, die nur das letzte Ereignis behalten

Wenn Sie "Keep = Last" verwenden, werden alle doppelten Zeilen außer dem letzten Vorkommen entfernt.

Beispiel

Im folgenden Beispiel werden alle doppelten Zeilen entfernt, mit Ausnahme des letzten Vorkommens.

Pandas als PD importieren
df_state = pd.read_csv ("c:/user/dell/desktop/population_ds.CSV ")
DUP_ROWS = DF_STATE [DF_STATE.dupliziert ()]
print ("\ n \ nduplicate Zeilen: \ n ".Format (DUP_ROWS))
Df_rm_dup = df_state.drop_duplicates (keep = 'last')
print ('\ n \ nResult DataFrame nach doppelter Entfernung: \ n', df_rm_dup.Kopf (n = 5))

Im folgenden Bild werden die Duplikate entfernt und nur das Auftreten der letzten Zeile wird aufbewahrt:

Entfernen Sie alle doppelten Zeilen

Um alle doppelten Zeilen aus einer Tabelle zu entfernen, setzen Sie "Keep = false" wie folgt fest:

Pandas als PD importieren
df_state = pd.read_csv ("c:/user/dell/desktop/population_ds.CSV ")
DUP_ROWS = DF_STATE [DF_STATE.dupliziert ()]
print ("\ n \ nduplicate Zeilen: \ n ".Format (DUP_ROWS))
Df_rm_dup = df_state.drop_duplicates (keep = false)
print ('\ n \ nResult DataFrame nach doppelter Entfernung: \ n', df_rm_dup.Kopf (n = 5))

Wie Sie im folgenden Bild sehen können, werden alle Duplikate aus dem Datenrahmen entfernt:

Entfernen Sie verwandte Duplikate aus einer bestimmten Spalte

Standardmäßig prüft die Funktion für alle doppelten Zeilen aus allen Spalten im angegebenen Datenrahmen. Sie können jedoch auch den Spaltennamen mit dem Parameter Teilmenge angeben.

Beispiel

Im folgenden Beispiel werden alle verwandten Duplikate aus der Spalte "Zustände" entfernt.

Pandas als PD importieren
df_state = pd.read_csv ("c:/user/dell/desktop/population_ds.CSV ")
DUP_ROWS = DF_STATE [DF_STATE.dupliziert ()]
print ("\ n \ nduplicate Zeilen: \ n ".Format (DUP_ROWS))
Df_rm_dup = df_state.drop_duplicates (subset = 'Status')
print ('\ n \ nResult DataFrame nach doppelter Entfernung: \ n', df_rm_dup.Kopf (n = 6))

Abschluss

In diesem Artikel wurde gezeigt, wie Sie doppelte Zeilen aus einem Datenrahmen entfernen können drop_duplicates () Funktion in Pandas Python. Sie können auch Ihre Daten zur Duplikation oder Redundanz mit dieser Funktion löschen. Der Artikel hat Ihnen auch gezeigt, wie Sie alle Duplikate in Ihrem Datenrahmen identifizieren können.