Pandas umformen

Pandas umformen
„Es gibt Daten in einer Vielzahl von Größen und Formen. Wir erfordern häufig die Umgestaltung der Daten, wenn wir damit umgehen, damit sie idealerweise für die aktuelle Aufgabe assimiliert werden. Wir werden 2 einfache Methoden zur Umgestaltung eines Datenrahmens in diesem Artikel untersuchen.”

Wir können die „PD.pivot () ”Funktion zur Umgestaltung des Datenrahmens vom vorhandenen Langformat zu einem langen. Ein neuer Datenrahmen kann mit der Pivot -Funktion von einem vorhandenen erstellt werden. Der „PD.pivot () ”akzeptiert drei Argumente. Um diese Methode anzuwenden, müssen wir die folgende Syntax verwenden:

Der „PD.Melt () ”kann verwendet werden. Wenn es erforderlich ist, eine bestimmte Spalte als Kennung zu verwenden, kann diese Funktion verwendet werden. Die Syntax für die Verwendung dieser Methode wird hier angegeben:

Die praktische Implementierung dieser beiden Techniken wird in diesem Tutorial mit Hilfe von Python -Programmen gelernt.

Beispiel 1: Verwenden Sie die Methode pandas pivot () zur Umgestaltung des Datenrahmens von lang bis breit

Die erste Abbildung wird das Konzept der Verwendung der Pandas „PD.pivot () ”Methode zur Umgestaltung des Datenrahmens aus einem langen Format in ein breites Umbau. Mal sehen, wie es funktioniert.

Das Tool „Spyder“ wird gestartet, um das Python -Programm mit seiner Umgebung zusammenzustellen. Der Code begann mit dem Importieren der Pandas -Bibliothek. Zusätzlich haben wir "PD" zum Alias ​​für "Pandas" gemacht.

Um einen Datenrahmen zu erstellen, werden wir die PANDAS -Methode „PD verwenden.DataFrame () ”. Diese Methode erstellt einen Datenrahmen mit gelieferten Werten. Der „PD.Die DataFrame () "-Methode wird aufgerufen, um einen Datenrahmen mit 3 Spalten" Gruppe "," Aufgabe "und" Score "zu erstellen. Die Spalten speichern möglicherweise Werte mit unterschiedlichen Datenatypen, aber die Wertelänge bleibt für alle Spalten gleich. Die erste Spalte, "Gruppe", enthält String -Arten von Werten, die "x", "x", "x", "y", "y", "y", "z", "z" und "Z" sind ”. Die zweite Spalte, "Aufgabe", hat ganzzahlige Werte; "4", "5", "6", "4", "5", "6", "4", "5" und "6". In der letzten Spalte "Score" haben wir Werte als "13", "18", "3", "9", "11", "15", "5", "14" und "21" angegeben.

Der „PD.DataFrame () ”-Methode generiert einen Datenrahmen mit diesen bereitgestellten Werten. Um den Inhalt dieses Datenrahmens zu speichern, haben wir ein DataFrame -Objekt "Wettbewerb" erstellt, das "Wettbewerb" erstellt wurde. Dieses Objekt hält den Datenrahmen, der anschließend verwendet werden soll. Um es zu sehen, wird die Methode von Python verwendet, nämlich "print ()". Die Methode „Print ()“ nimmt das DataFrame -Objekt „Wettbewerb“ als Eingabe an und zeigt seinen Inhalt im Ausgabefenster.

Um das Skript auszuführen, müssen wir nur die Option "Datei ausführen" drücken, und die Ausgabe wird angezeigt. Hier haben wir einen Datenrahmen mit 3 Spalten mit 9 Zeilen erhalten. Wir können sehen, dass die Spalte "Gruppen" drei eindeutige Werte enthält, die "x", "y" und "z" sind. Und die Spalte "Aufgabe" enthält auch drei verschiedene Werte "4", "5" und "6".

Um diesen langen Datenrahmen zu einem breiten Umbau zu formen, werden wir die von Pandas bereitgestellte Funktion „PD verwenden.pivot () ”. Wir haben die „PD angerufen.PIVOT () "Methode und bestanden 4 Parameter" DF "," Index "," Spalten "und" Werte ". Das "DF" ist der Name des Datenrahmens, den wir als "Wettbewerb" angegeben haben. Der „Index“ wird in der Spalte aufgenommen, die als Indexspalte verwendet werden muss. Hier haben wir die Spalte "Gruppen" als "Index" angegeben. Das Attribut "Spalten" erhält eine Spalte, deren Daten als Spaltenbezeichnungen verwendet werden. Wir haben die Spalte "Aufgabe" für das Attribut "Spalten" bereitgestellt. Es wird die unterschiedlichen Werte aus der „Aufgabe“ entnommen und sie Spalten herstellen. Die „Werte“ extrahieren die Werte aus der angegebenen Spalte, i.e., Die Spalte „Score“ und stecken Sie sie in die erstellten Spalten, die dem Index für diese Werte entsprechen. Das Ergebnis wird durch Aufrufen der Funktion „print ()“ dargestellt.

Hier können wir sehen, dass die unterschiedlichen Werte der Spalte der Gruppe als Indexspalte festgelegt werden, die eindeutigen Werte aus der Spalte "Aufgabe" als Spalten -Titel verwendet werden und die Werte aus der Spalte "Score" entnommen werden. Der DataFrame wird in einem breiten Format verstanden.

Beispiel 2: Verwendung der Pandas Melt () -Methode zur Umgestaltung des Datenrahmens von breit nach lang

Die obige Technik hat den Datenrahmen von lang bis breit umgestaltet; Wir werden sein Gegenteil sehen, das den Datenrahmen von einem breiten Format in ein langes Format umwandelt. Diese Instanz wird die Pandas „PD verwenden.schmelzen () ”Funktion zur Umgestaltung unseres bereitgestellten Datenframe.

Um diese Methode zu implementieren, müssen wir zunächst den Datenrahmen konstruieren. Da Pandas uns eine integrierte Methode „PD“ anbieten.DataFrame () “, um einen Datenrahmen zu generieren. Also haben wir diese Funktion aufgerufen und sie mit 5 Spalten initiiert. Die Spalten sind „Token“ mit String -Datentyp, „Car“, „Truck“, „Bus“ und „Motorrad“ mit ganzzahliger Datentyp. Die Werte für die Spalte "Token" sind "p01", "p02", "p03" und "p04". Für die Spalte "Auto" sind die Werte "18", "41", "39" und "24". Die Liste der Werte "11", "33", "17" und "25" wird in der Spalte "LKW" gespeichert. Der "Bus" hat diese Werte "42", "38", "10" und "21". Die letzte Spalte "Motorrad" enthält die Einträge "16", "34", "21" und "45".

Um den Datenrahmen zu erhalten, haben wir ein DataFrame -Objekt "Transport" generiert, "Transport". Um diesen Inhalt anzeigen zu lassen, wird die Methode „Print ()“ mit dem DataFrame -Objekt als Eingabe aufgerufen.

Unser Datenrahmen mit einer breiten Werteanordnung wird auf der Python -Konsole mit 5 Spalten und 4 Zeilen angezeigt.

In dieser Demonstration werden wir die „PD“ ausüben.Melt () ”Methode, um das erwartete Ergebnis zu erzielen.

Der „PD.MILM () ”Die Funktion heißt. Hier ist das Attribut, das es besitzt. Wir haben die Spalte "Token" für "id_var" ausgewählt. Das "value_var" erhält Spalten, die es entlasten muss. Wenn wir keine Spalten angeben, werden alle Spalten aufgenommen, mit Ausnahme der als Kennung festgelegten Spalten. Die Spalten, die wir geliefert haben, um ein "Auto", "Lkw", "Bus" und "Motorrad" zu ändern. Wir haben eine variable „Transport“ erstellt und die Ausgabe zugewiesen, die durch Aufrufen des „PD“ generiert wurde.Melt () ”Funktion. Zuletzt wird das Ergebnis mit der Methode „Print ()“ angezeigt.

Der transformierte Datenrahmen, den wir erhalten haben. Der lange Datenrahmen verfügt über 3 Spalten "Token", "Variable" und "Werte". Das „Token“ wird als Kennung für den Rest der Spaltenwerte verwendet. Die „Variable“ speichert die Beschriftungen der Spalte in Übereinstimmung mit der Kennung. und der „Wert“ hat die Werte für jeden Eintrag.

Abschluss

Es kann eine Situation geben, in der die Form des Datenrahmens möglicherweise nicht Ihrer Aufgabe entspricht. Der Datenrahmen kann in einem langen Format oder einem breiten Format vorliegen. Der weit formatierte Datenrahmen kann in eine lange umgestaltet werden, und der lang formatierte Datenrahmen kann mithilfe der Pandas -Methoden in eine lange Anordnung modifiziert werden. Um den Datenrahmen in ein breites Format umzuwandeln, haben wir die „PD“ verwendet.pivot () ”Funktion, indem sie sie praktisch im Spyder -Tool implementiert. In ähnlicher Weise haben wir den „PD.MILM () ”Funktion in der 2nd Beispiel. Beide Methoden sind ausführbar und sehr hilfreich, wenn Sie die Notwendigkeit finden, Ihren Datenrahmen neu zu gestalten.