Pandas hat eine Methode namens „Index.Drop_duplicates () ”, mit der wir die doppelten Indizes aus der Liste der Indexbezeichnungen fallen lassen können. Der Index.Drop_duplicates () ”Funktion in Pandas gibt einen Index mit den weggeworfenen doppelten Einträgen zurück. Die Funktion gibt dem Benutzer die Freiheit, auszuwählen, welcher doppelte Wert aufbewahrt werden soll. Wir haben zwei Optionen: Entfernen Sie entweder die ersten und die letzten doppelten Einträge aus der Liste oder entfernen Sie alle doppelten Daten aus der Liste.
Wenn Sie diese Funktion verwenden möchten, muss die folgende Syntax befolgt werden:
Syntax:
Pandas.Index.drop_duplicates (keep = 'First')
Parameter:
Der "HaltenDer Parameter wird verwendet, um zu regulieren, wie die doppelten Werte behandelt werden können. "Keep" wird benötigt. Standardmäßig ist der Wert "zuerst".
- Wenn der Wert ist “ErsteDas Programm behandelt das erste Element als unterschiedliche und andere identische Werte als Duplikate. Mit Ausnahme des ersten Instanz wird die Duplikate beseitigt.
- Wenn der Wert auf “gesetzt ist“zuletzt”, Es behandelt den letzten Eintrag als eindeutige und die anderen identischen Werte als Duplikate. Anschließend beseitigt es alle Duplikate mit Ausnahme des letzten Auftretens dieses Wertes.
- Wenn der Parameter „Keep“ den “hat"FALSCHWert, alle identischen Werte werden als Duplikate behandelt. Es lässt alle doppelten Werte aus der Liste fallen.
Beispiel 1: Ohne Parameter
In diesem Beispiel haben wir einen Index mit dem Namen "Index1" mit 10 Ganzzahlen. Lassen Sie uns die Duplikate entfernen, ohne einen Parameter an die Funktion Drop_duplicates () zu übergeben.
Pandas importieren
# Erstellen Sie den Pandas -Index, der 10 Werte enthält
Index1 = Pandas.Index ([45,67,45,89,45,89,12,34,67,89])
print ("tatsächlicher Index:", Index1)
print ("eindeutiger Index:", Index1.Drop_duplicates ())
Ausgang:
Erläuterung:
Einzigartige Indizes werden zurückgegeben, indem die Duplikate entfernt werden.
Beispiel 2: Mit Keep as False falsch
Lassen Sie uns einen Index haben, der 5 Saiten mit Duplikaten enthält. Stellen Sie nun den Parameter "Keep" auf false fest.
Pandas importieren
# Erstellen Sie den Pandas -Index mit 5 Zeichenfolgen
Index1 = Pandas.Index (['i1', 'i1', 'i4', 'i5', 'i4'])
print ("tatsächlicher Index:", Index1)
print ("eindeutiger Index:", Index1.drop_duplicates (keep = false))
Ausgang:
Erläuterung:
Es gibt nur einen einzigartigen Index - "i5". Es wird zurückgegeben, indem alle Duplikate entfernt werden.
Beispiel 3: Mit Keep as First
Lassen Sie uns den "Index1" mit 10 Werten und "Index2" mit 5 Zeichenfolgen haben. Stellen Sie "Keep" auf "zuerst" ein, um die Duplikate fallen zu lassen, ohne das erste Ereignis zu beseitigen.
Pandas importieren
# Erstellen Sie den Pandas -Index, der 10 Werte enthält
Index1 = Pandas.Index ([45,67,45,89,45,89,12,34,67,89])
print ("tatsächlicher Index 1:", Index1)
# Duplikate fallen lassen, ohne das erste Ereignis zu beseitigen
print ("eindeutiger Index 1:", Index1.drop_duplicates (keep = 'First'))
# Erstellen Sie den Pandas -Index mit 5 Zeichenfolgen
Index2 = Pandas.Index (['i1', 'i1', 'i4', 'i5', 'i4'])
print ("tatsächlicher Index 2:", Index2)
# Duplikate fallen lassen, ohne das erste Ereignis zu beseitigen
print ("eindeutiger Index 2:", Index2.drop_duplicates (keep = 'First'))
Ausgang:
Erläuterung:
- In „Index1“ sind [45, 67, 89, 12, 34] das erste Auftreten einzigartiger Werte.
- In "Index2", ["i1", "i4", "i5"] sind das erste Ereignis einzigartiger Werte.
Beispiel 4: Mit Keep As Last
Lassen Sie uns den "Index1" mit 10 Werten und "Index2" mit 5 Zeichenfolgen haben. Stellen Sie "Keep" auf "zuerst" ein, um die Duplikate fallen zu lassen, ohne das erste Ereignis zu beseitigen.
Pandas importieren
# Erstellen Sie den Pandas -Index, der 10 Werte enthält
Index1 = Pandas.Index ([45,67,45,89,45,89,12,34,67,89])
print ("tatsächlicher Index 1:", Index1)
# Duplikate fallen lassen, ohne das letzte Ereignis zu beseitigen
print ("eindeutiger Index 1:", Index1.drop_duplicates (keep = 'last'))
# Erstellen Sie den Pandas -Index mit 5 Zeichenfolgen
Index2 = Pandas.Index (['i1', 'i1', 'i4', 'i5', 'i4'])
print ("tatsächlicher Index 2:", Index2)
# Duplikate fallen lassen, ohne das letzte Ereignis zu beseitigen
print ("eindeutiger Index 2:", Index2.drop_duplicates (keep = 'last'))
Ausgang:
Erläuterung:
- In „Index1“ sind [45, 12, 34, 67, 89] das letzte Vorkommen einzigartiger Werte.
- In "Index2", ["i1", "i5", "i4"] sind das letzte Ereignis einzigartiger Werte.
Abschluss
Dieses Tutorial basiert auf dem Konzept, die doppelten Indizes mithilfe des PANDAS -Moduls fallen zu lassen. Wir haben den Pandas -Index verwendet.Drop_duplicates () ”Methode. Wir haben die Syntax für die Verwendung dieser Methode bereitgestellt und auch deren Parameter beschrieben. Diese Methode gibt uns drei Möglichkeiten für den Umgang mit doppelten Werten. Jeder Schritt in diesem Artikel wird sehr deutlich und einfach erklärt.