Pandas get_dummies

Pandas get_dummies
Die Methode, um die Dummy -Variablen in Pandas mit der Methode Get_Dummies () in Pandas zu erhalten, wird in diesem Artikel demonstriert. Wir werden das Hauptziel der Funktion diskutieren. Wir werden auch die PD durchgehen.Get_Dummies 'Syntax und geben Sie die Schritt-für-Schritt-Beispiele an. Die Dummy -Variablen sind numerische Variablen, die die kategorialen Daten codieren. Die beiden lebensfähigen Werte für Dummy -Variablen sind 0 und 1. In den Dummy -Variablen zeigt „1“ an, dass eine Kategorie vorhanden ist und „0“ die Kategorie darstellt, die es nicht gibt. Diese 0/1 Variablen werden auch als Dummy -Variablen bezeichnet. Wir bezeichnen sie jedoch normalerweise als "Dummy" -Variablen. Dies ist auch als "One-Hot" -Codierung von kategorialen Kodierung im maschinellen Lernen bekannt.

So verwenden Sie die Methode get_dummies () in Pandas

Verwenden einer PANDAS -Serie, einer Spalte oder mehrerer Pandas -Datendatenspalten die PD.Get_Dummies () Funktion kann die Dummy -Variablen erzeugen. Einige Tools in der Datenwissenschaft können nur mit den numerischen Eingabedaten verwendet werden. Die zahlreichen Techniken für maschinelles Lernen, wie z. B. logistische und lineare Regression, akzeptieren nur die numerischen Eingabedaten. Sie geben einen Fehler an, wenn Sie versuchen, die Kategoriedaten zu verwenden, die auf Strings basieren. Das heißt, bevor Sie solche Tools verwenden, müssen Sie Ihre Kategoriendaten als Dummy -Variablen (numerisch) codieren müssen. Schauen wir uns die PD an.Get_Dummies 'Syntax, um zu verstehen, wie es funktioniert.

Syntax: Pandas.get_dummies (Daten, Präfix = Keine, Präfix_sep = '_', dummy_na = false, columns = none, sparse = false, drop_first = false, dType = Keine)

Wo;

Daten: Deren Daten werden geändert oder manipuliert.

Präfix: String, um die Spaltennamen eines Datenrahmens anzuhängen. Wenn Sie die GET -Dummies auf einem Datenrahmen verwenden, geben Sie eine Liste mit einer Größe über, die der Gesamtzahl der DataFrame -Spalten entspricht. "Keine" ist der Standardwert.

Präfix_sep: Verwenden Sie einen Trennzeichen oder Trennzeichen, wenn Sie ein Präfix anhängen. Es ist "standardmäßig.

Dummy_na: Eine neue Spalte wird hinzugefügt, um die NAN -Werte anzuzeigen. Es ist standardmäßig falsch, wenn falsche fehlende Werte ignoriert werden.

Säulen: Die Spaltennamen der DataFrame, die codiert werden müssen. Die Spalten mit einer Kategorie oder einem Objektdatentyp werden in "None" konvertiert. Der Standardwert ist "keine".

spärlich: Es gibt an, ob ein SparsareRay (wahr) oder ein Standard-Numpy-Array die dummy-kodierten Spalten (Falsch) unterstützen sollte. Falsch ist der Standardwert.

Drop_first: Aus den kategorialen K-Ebenen, um K-1-Dummies zu erhalten, entfernen Sie die erste Ebene.

DTYPE: Neue Spalten Datentyp. Es kann nur einen Datentyp geben. Das „NP.Uint8 ”ist der Standardwert.

Lassen Sie uns nun die Funktion get_dummies () in den folgenden Beispielen verwenden:

Beispiel 1: Verwenden der Funktion get_dummies () in der PANDAS -Serie

Beginnen wir mit der Funktion get_dummies () in einer PANDAS -Serie. Wir erstellen eine Serie mit der PD.Serie () Funktion.

Nachdem wir die Pandas -Bibliothek importiert haben, erstellen wir eine Liste von "Namen" mit den Elementen "Mark", "Kane", "Larry", "Mark", "None", "Larry", "Kane", "None" und "Mark". Um eine Serie zu erstellen, wird die Liste dann in die PD weitergeleitet.Serie () Funktion. Die Print () -Funktion wird verwendet, um die "S" -Serie zu veranschaulichen. In der Serie gibt es 3 Kategorien von Zeichenfolgendaten oder -werten (Mark, Kane und Larry). Die Serie enthält auch einige fehlende Werte. Jetzt wird die Pandas -Dummies -Funktion verwendet.

Die PD.get_dummies () erstellt einen Datenrahmen mit vier neuen Variablen als Ausgabe: "Kane", "Larry" und "Mark". Die neue Kane -Variable hat einen Wert von 1, in dem der Wert der ursprünglichen Serie „Kane“ war, während die Werte der anderen Variablen „0“ sind."Wo der Wert der Originalserie" Larry "war, hat die neue Larry -Variable jetzt einen Wert von" 1 ", während die Werte der anderen Variablen alle" 0 "sind und so weiter. Eine einzelne Variable, die drei Werte enthält. Obwohl es unterschiedlich dargestellt wird (in Form von 0 und 1 Werten), enthält die neue Struktur dieselben Informationen/Daten.

Beispiel 2: Verwenden der Funktion get_dummies () in Pandas DataFrame

Als nächstes wenden wir die PD an.Get_Dummies () Funktion zur Datenrahmenspalte. Lassen Sie uns zunächst einen Pandas DataFrame mit der PD erstellen.DataFrame () -Funktion nach dem Importieren der Pandas- und Numpy -Module wie im ersten Beispiel.

Drei Spalten im bereitgestellten Datenrahmen enthalten die Namen „EMP“, „Gehalt“ und „Land."In der Spalte" EMP "speichern wir die Namen der Mitarbeiter (" Jay "," Anna "," Sam "," Eddy "," Jhon "," Maria "," Sara "," Kim "," Jack " , "Will", "Jerry"). Im Säulengehalt werden die Gehälter der Mitarbeiter als numerische Werte (40000, 53000, 44000, 39000, 47000, 34000, 55000, 51000, 42000, 39000, 38000) gespeichert. Die "Land" -Spalte enthält die Namen der Länder, aus denen jeder Mitarbeiter gehört ("USA", "Frankreich", "USA", "USA", "Russland", "Russland", "Russland", "Frankreich", "," Frankreich “,„ USA “, NP.Nan). Wir können die Länderspalte, eine kategoriale Spalte, in eine Dummy -Variable von 0 oder 1 umwandeln. Wir wenden die Funktion pandas get_dummies () im Länderspalten im DF -Datenframe an.

Zunächst kann festgestellt werden, dass ein neuer Datenrahmen aufgrund des Vorgangs erstellt wird. Die vorherige Länderspalte gibt es in diesem neuen Datenrahmen nicht mehr. Es gibt jetzt 4 neue Spalten an ihrer Stelle: Country_France, Country_Russia und Country_USA. Der Name der alten Variablen (Land) wird standardmäßig den Namen der neuen Variablen durch die Funktion get_dummies () vorangestellt. Die neue Country_France -Spalte hat einen Wert von 1, bei dem der Spaltenwert in der Originalspalte „Frankreich“ und für die anderen Variablen „Frankreich“ war. Die neue Country_Russia -Spalte hat einen Wert von 1, während sie einen Wert 0 für die anderen Variablen hat, wobei der Spaltenwert in der ursprünglichen Spalte „Russland“ war. Die neue Country_USA -Spalte hat einen Wert von 1, bei dem der Wert der ursprünglichen Spalte „USA“ war und die anderen Variablen Werte von 0 haben. Pandas get_dummies () hat jetzt eine neue Variable 0/1 für jede Ebene der vorherigen klassifizierten Spalte „Land“ erstellt, „Land.”

Beispiel 3: Verwenden der Funktion get_dummies () und des DROP_FIRST -Parameters in einer Spalte

Wir verwenden jetzt die Methode get_dummies () in einer kategorialen Spalte des Datenrahmens, aber die erste Ebene der kategorialen Spalte wird fallen gelassen. Wir setzen den Parameter drop_first = true. Erstellen wir zunächst einen DataFrame, damit wir die Funktion get_dummies () auf seine Spalte anwenden können.

Wie beobachtet werden kann, ist die Kursspalte kategorisch und hat einige fehlende Werte. Jetzt konvertieren wir die kategoriale Spalte "Kurs" in die Dummy -Variablen von 0/1 Werten.

Beachten Sie, dass in der Ausgabe jetzt nur 2 Dummy -Variablen enthalten sind: COURS_PYTHON UND CURS_REACT. Die Dummy -Variable der Kategorie „Java“ ist nicht vorhanden. Wenn der Drop_first auf true eingestellt ist, enthält Get_Dummies () die Dummy -Spalte für die erste Kategorie der Variablen nicht. Es dauert nur K - 1 Dummy -Variablen, um dieselben Informationen zu vermitteln, wenn eine kategoriale Variable k gegenseitig ausschließende Kategorien hat. Wir können auch eine Dummy -Variable für die fehlenden Werte einfügen, indem wir den Parameter dummy_na = true angeben.

Sie können feststellen, dass eine Dummy -Variable mit dem Namen curse_nan auch von der Funktion get_dummies () in der Ausgabe hinzugefügt wird. Die anderen Parameter der Funktion können auch verwendet werden, um die DataFrame -Ausgabe zu ändern.

Abschluss

Wir haben behandelt, wie man die Dummy -Variablen in Pandas in diesem Tutorial erhält. Wir haben gesehen, dass Get_Dummies () verwendet werden kann, um die Dummy -Variablen zu erhalten. Wir haben die Syntax der Funktion und ihre Parameter gesehen, um ihre Funktionalität zu verstehen. Wir haben einige Beispiele implementiert, um Ihnen beizubringen, wie Sie die Funktion von Get_Dummies () auf Pandas DataFrame und Serien verwenden, um die Dummy -Variablen zu erhalten. Außerdem haben wir einige Parameter der Funktion get_dummy () gesehen, um die Ergebnisse oder die Ausgabedatenrahmen zu ändern.