So extrahieren Sie eindeutige Werte aus der Pandas -Spalte?
In Pandas können verschiedene Möglichkeiten verwendet werden, um eindeutige Werte zu finden. Die häufigste Methode, um eindeutige Werte aus einer Spalte zu extrahieren, besteht darin. Bevor Sie diese Funktionen verwenden, sehen wir zuerst ihre Syntax an.
Syntax von Unique () Funktion: Serie.einzigartig( )
Kehrt zurück: NDarray oder ExtensionArray
Syntax der Funktion drop_duplicate ()
Datenrahmen.drop_duplicates (subset = none, keep = 'first', inplices = false)
Parameter:
Teilmenge: Eine Liste der Spaltenbezeichnungen oder eine Spalte ist von der Teilmenge erforderlich. Keiner ist der Standardwert dafür. Nach dem Übergeben von Spalten werden nur Duplikate berücksichtigt.
halten: Zu steuern, wie doppelte Werte berücksichtigt werden. Wir können drei unterschiedliche Werte verwenden; Es ist standardmäßig 'zuerst'.
an Ort und Stelle: Boolescher Wert. Wenn wahr, beseitigt Sie doppelte Zeilen.
Kehrt zurück: Abhängig von den Argumenten ist der Rückgabetyp ein Datenrahmen mit doppelten Zeilen beseitigt.
Wenn wir die Syntax gesehen haben, gehen wir zu den Beispielen, um zu erfahren, wie man einzigartige Werte aus der Pandas -Spalte extrahiert.
Beispiel Nr. 01: Erhalten Sie eindeutige Werte aus den Pandas -Spalten mit der Methode "Unique ())
Bei der Arbeit mit einer einzelnen Spalte eines Datenframe.Datenrahmen.einzigartig () ”wird verwendet. Es gibt alle eindeutigen Komponenten einer Spalte zurück. Die Methode generiert einen Datenrahmen, der die unterschiedlichen Spaltenelemente und deren begleitende Indexbezeichnungen als Ausgabe enthält. Erstellen wir zuerst einen DataFrame.
Nach dem Import des Pandas -Moduls haben wir unseren Datenrahmen mit einem Pandas -Wörterbuch erstellt. Wir haben die Schlüssel unseres Wörterbuchs als "Name" und "Kurse" definiert und dieses Wörterbuch der Variablen "DIC" zugewiesen. Die "DIC" -Variable wird dann in den Parameter der PD übergeben.DataFrame () -Methode als Argument zum Erstellen des Datenrahmens „DF“. Wir können unseren Datenrahmen mit der Funktion print () anzeigen.
Nehmen wir an, unser Datenrahmen besteht aus Studentennamen und den Kursen, in denen sie eingeschrieben sind. In einer solchen Situation ist es ziemlich schwierig, jede Zeile des Datenrahmens zu zählen, um die spezifische Kurskategorie zu identifizieren, um die Gesamtzahl der untersuchten Kurse zu bestimmen. In der vorherigen Datenframe "Kurse", die den Namen der Kurse ('Englisch', 'Maths', 'Chemistry', 'Maths', 'Statistics', 'Maths', 'English', 'DataScience') enthielten, enthält den Namen von Kursen. Mehr als ein Schüler studiert einige Kurse. Um die einzigartigen Kurse aus der Spalte „Kurse“ zu erhalten, verwenden wir die Unique () -Funktion.
In der Ausgabe erhalten wir eine Reihe von Elementen, die die einzigartigen Kurse in unserem Datenrahmen enthalten. Angenommen, Sie möchten die Gesamtzahl der unterschiedlichen Elemente zählen, anstatt nach den Namen eindeutiger Werte in den Spalten des DataFrame zu suchen. Zu diesem Zweck können wir die Funktion nunique () verwenden. Die Gesamtzahl der unterschiedlichen Werte für jede Spalte wird von der Methode nunique () zurückgegeben.
Die Funktion nunique () hat "5" zurückgegeben, was bedeutet.
Beispiel Nr. 02: Verwenden von Unique () -Methoden Erhalten Sie eindeutige Werte aus numerischen Spalten
Um einen Datenrahmen zu erstellen, importieren wir zuerst das Pandas -Modul. Dann erstellen wir unseren Datenrahmen mit der PD.DataFrame () -Funktion.
Wie oben zu sehen, haben wir den DataFrame erstellt, indem wir ein Wörterbuch in die Funktion DataFrame () übergeben haben. Um den neu erstellten Datenrahmen zu visualisieren, verwenden wir die Funktion print ().
In diesem Datenrahmen haben wir zwei Etiketten, „Alter“ und „Gehalt“ mit numerischen Daten. In der Spalte "Alter" haben wir das Alter von Individuen als ("20", "24", "20", "22", "21", "28", "31", "25"), während die "Gehalts" -Säule speichert die Gehälter von Individuen ("1000", "1000", "1300", "1100", "1400", "1000", "1100", "1400"). Jetzt werden wir die Funktion "Unique () verwenden, um die unterschiedlichen Werte aus den Spalten des Datenrahmens zu erhalten.
Wie das vorherige Skript zeigt, haben wir die Funktion für eindeutig () verwendet, um unterschiedliche Werte aus der Spalte „Gehalt“ zu erhalten. Die Funktion hat die Ausgabe in Form eines Arrays ['1000', '1300', '1100', '1400'] zurückgegeben, das alle eindeutigen Werte aus der Spalte „Gehalt“ im DataFrame enthält. Wir können auch die Funktion "sort () verwenden, um die Ergebnisdaten in aufsteigender Reihenfolge zu sortieren.
Um das Ausgangsarray (mit eindeutigen Werten aus der Gehaltsspalte) zu sortieren, haben wir das Array einer Variablen 'u' zugewiesen. Die Sort () -Funktion wird auf das Array angewendet, um die Werte des Ausgabearrays in aufsteigender Reihenfolge zu sortieren.
Beispiel Nr. 03: Erhalten Sie eindeutige Werte aus mehreren Spalten mit der Methode "Unique ())
Wir haben gelernt, wie man eine Reihe verschiedener Werte aus einer einzelnen Datenfalle -Spalte extrahiert. Aber in einigen Situationen. Möglicherweise benötigen Sie unterschiedliche Werte über mehrere Spalten hinweg. Unter solchen Umständen kombinieren wir die Werte der Spalten, aus denen wir die eindeutigen Werte erhalten möchten. Wir werden denselben Datenrahmen verwenden, den wir in Beispiel 2 erstellt haben.
Angenommen, wir wollen die unterschiedlichen Werte aus den Spalten "Alter" und "Gehalt" erhalten. Zunächst werden wir die Daten beider Spalten mithilfe des folgenden Skripts verschmelzen.
Im vorherigen Code haben wir die Daten aus der Spalte "Alter" ausgewählt und dann das Anhang ("Gehalt") verwendet, um die Daten der Spalte "Gehalt" mit den Daten der Spalte "Alter" zusammenzuführen. Nach dem Zusammenführen der Daten verwendeten wir die Funktion "Unique (), um die unterschiedlichen Werte aus beiden Spalten zu erhalten.
Wie zu sehen ist, haben wir die eindeutigen Werte aus beiden Spalten erfolgreich extrahiert.
Beispiel # 04: Verwenden der Funktion Drop_duplicates (), um eindeutige Werte aus Pandas -Spalten zu erhalten
Die Funktion Drop_duplicates ist eine integrierte Funktion der Pandas-Bibliothek. Es kann verwendet werden, um die Wiederholungswerte oder doppelte Daten aus der Spalte des Datenfreams zu entfernen. Die Zeilen mit doppelten Werten werden entfernt, während der Datentyp des Objekts oder seine Untergruppe erhalten bleibt. Die drop_duplicate () -Methode ist die schnellere Option, um doppelte Werte bei der Arbeit mit einer großen Datengruppe zu beseitigen.
Jetzt werden wir die Funktion drop_duplicate () verwenden, um die Spalten mit doppelten Werten zu eliminieren.
Wie Sie sehen können, wurden alle Zeilen unter Berücksichtigung der doppelten Daten in der Spalte „Gehalt“ beseitigt. Nur die erste Instanz der doppelten Werte bleibt im Datenrahmen gelassen.
Abschluss
In diesem Artikel haben wir diskutiert, wie Sie eindeutige Werte aus den Spalten des Datenrahmens in Pandas erhalten können. Nachdem Sie dieses Tutorial durchlaufen haben, können Sie möglicherweise einzigartige Werte aus der Pandas -Spalte selbst extrahieren. Wir haben einige Beispiele implementiert, um Ihnen beizubringen, wie Sie eindeutige Werte aus Pandas -Spalten und numerischen Pandas -Spalten erhalten, indem Sie die Funktion "Unique () und Drop_duplicates () verwenden.