Pandas schmelzen

Ein Panda ist ein pythonbedingter statistischer Rahmen. Vor der Erfindung von Pandas verwendete der Großteil der Forscher Python für Informationsüberfälle und -vorbereitung, bevor er zu einem speziellen Dialekt wie „R“ für die Balance ihres Prozesses wechselte. Pandas bot eine Serie an, die ein Ranking -Layout und DataFrames bietet, das ein tabellarisches Layout hat. Diese beiden neuen Arten von Objekten dienen zum Speichern von Informationen, die analytische Operationen erleichtern und die Notwendigkeit der Übertragungstools beseitigen müssen. Pandas „MILM ()“ -Funktion wird verwendet, um ein DataFrame -Objekt zu beschreiben, das auf eine bestimmte Weise erzeugt wird, wobei eine oder mehrere Spalten als Bezeichner im Datensatzformat von umfangreich bis langwierig ändert. Nur zwei Spalten sind konfigurierbar und Werte, während die anderen Spalten alle als Werte angesehen und der Zeilenachse nicht. Wenn Python erklärende Daten unterstützt, verwenden Sie diese Funktion.

Die Spalten des DataFrame, von denen jede eine Ganzzahl, eine Gleitkomma-Nummer oder eine Zeichenfolge enthalten kann. Folglich schmelzen wir die Informationen mit dieser Spaltenebene. Der variable Name ist eine Darstellung des spezifischen variablen Namens, der zum Schmelzen von Spalten verwendet wird. Diese Anpassungsfähigkeit umfasst typischerweise einen skalaren Wert und hat den Standardwert von Non, da sie die in dieser spezifische Spalte verwendete Variable verwendet, um den Datenrahmen zu schmelzen.

Die Syntax für die MIMME () -Funktion

"Value_vars" sind Darstellungen der vorhandenen nicht befestigten Spalten. Die Mehrheit der Spalten wird zurückgegeben und nicht als "id_var" festgelegt, wenn die Spaltennamen nicht angegeben sind. Ein Listen -Tupel oder ein NDarray kann als diese Wertparameter verwendet werden. Alle Abschnitte, die als Kennungsvariablen verwendet werden, werden durch die Variable "ID_VARS" dargestellt, die dargestellt werden. Der Datenrahmen, der in Pandas zugewiesen werden muss, wird durch den Rahmen angezeigt.

Beispiel 1: Verwenden der Melt -Funktion können Sie mehrere Spalten als Parameter Value_vars übergeben

Mit Pandas in Python können wir die Daten in ein computerfreundlicheres Formular umstrukturieren, um die Tabellendatenverarbeitung zu vereinfachen. Die imperative „schmelz ()“ muss ausgeführt werden. Ein Datenrahmen wird von der großen Version mit „Pandas.schmelzen()". Zunächst erstellen wir unseren Datenrahmen. DataFrame wird verwendet, um Informationen in einem zweidimensionalen Format zu speichern. Es ist identisch mit einer Tabelle, in der die Daten in Zeilen und Spalten vorrätig sind. Datensätze werden durch Zeilen dargestellt und Merkmale werden durch Spalten dargestellt.

In diesem Fall lautet der Name unseres Datenrahmens „D1“ mit drei Spalten. "Name" ist die erste Spalte in unserem Datenrahmen und zusätzlich enthalten eine Liste einiger Namen: "Thomas", "Lily" und "Henry". Die zweite Spalte, die wir haben, ist "Alter", das "25", "29" und "31" enthält. Und in der dritten Spalte "Beruf" haben wir "Ingenieur", "Arzt" und "Buchhalter". Mit „PD.DataFrame ”Wir werden den DataFrame auf dem Bildschirm anzeigen.

Lassen Sie uns nun der Funktion „MIMME ()“ zu unserer Anwendung hinzufügen. Die Parameter „Melch ()“ -Funktion „ID var“ und „Value Var“ wurden verwendet. Verwenden Sie „ID _VAR“ und den in diesem Beispiel verwendeten Parameter, um zu definieren, wo der Inhalt geschmolzen und gespeichert wird, um in den zusätzlichen Zeilen zu definieren, um eine Spalte oder Spalten als Bezeichnungsvariablen als Bezeichnungsvariablen zu verwenden. Hier verwenden wir eine "int_var" in einer einzelnen Spalte und einen "value_var" in zahlreichen Spalten. Wir verwenden "value_var" in den Spalten "Alter" und "Beruf" und "id_var" in der Spalte "Name". „PD.Schmelze ”wird verwendet, um den Datenrahmen zu generieren, und„ drucken (df_melted) “zeigt den DataFrame auf dem Bildschirm an.

Zwei Datenrahmen sind im Ausgangsbild des Programms sichtbar. Verwenden der „PD.DataFrame ”-Funktion, wir haben den ersten Datenrahmen generiert, in dem wir drei Spalten„ Name “,„ Alter “und„ Beruf “haben. Durch Anwenden der Parameter "id_var" und "value _var" auf die "pd" anwenden.Melt () ”” Methode, der zweite Datenrahmen wird generiert. "Id_var" wird in einer einzelnen Spalte angewendet, die "Name" ist. Dies bedeutet, dass die Spalte genau so angezeigt wird, wie sie mit ihren Werten ist und der "value_var" in zwei Spalten "Alter" und "Beruf" verwendet wird. Es erstellt zwei Spalten im DataFrame, eine ist "variabel" und der andere ist "Wert" in der Spalte Wert, der Spaltenname wird angezeigt.

Ein entscheidendes Tool, das bestimmte Zeilen und Datenspalten aus einem Datenrahmen auswählt, wird als Pandas -Index bezeichnet. Die Aufgabe besteht darin, die Daten für schnellen Zugriff und Organisation einzurichten. Es wird auch als Untergruppe beschrieben. Der individuelle Wert des Index wird als Etikett bezeichnet und die Werte werden im Index fett geschrieben. Die Indexgröße des anfänglichen DataFrame beträgt „3“, die von „0 bis 1“ reicht, und wenn die Parameter angewendet werden, beträgt die Indexgröße „6“, die von „0 bis 5“ reicht, die von „0 bis 5“ reicht.

Beispiel 2: Verwenden der Schmelzfunktion können Sie mehrere Spalten als Int_VARS -Parameter übergeben

Sehen Sie, was passiert, wenn Sie mehr als eine Spalte für die Option id_vars angeben. Ähnlich wie beim letzten Beispiel gilt dieses eine "id_var" auf mehrere Spalten, während "value_var" auf eine einzelne Spalte angewendet wird. Im vorherigen Programm wurde "value_var" auf mehrere Spalten angewendet, während "id_var" auf eine einzelne Spalte angewendet wurde.

Das allererste, was wir tun, ist, einen dreispaltigen Datenframe zu erstellen. Der Name der Spalte lautet "Name", "Marks" und "Subjekt". Die Namen in der ersten Spalte sind "Ava", "Isla" und "Leo". In der zweiten Spalte haben wir die Liste der Markierungen "45", "22" und "31". Für die dritte Spalte haben wir den Namen des Themas, einschließlich „Management“, „OOP“ und „Java“, einschließlich „Management“, „OOP“ und „Java“. Nun, „PD.DataFrame ”generiert den DataFrame und„ Print (df) “zeigt den DataFrame auf dem Bildschirm an.

Lassen Sie uns nun die Methode „Melt ()“ in unseren Code einbeziehen. Die Argumente „ID_VAR“ und „Wert _var“ der Funktion „MIMME ()“ wurden verwendet. Das "ID_VAR" wird in zwei Spalten verwendet. "Name" und "Marks" und "Value_var werden in einer Spalte" Betreff "verwendet. Verwenden Sie „PD.schmelzen". Jetzt wird der DataFrame auf dem Bildschirm von "Drucken (DF geschmolzen) angezeigt" angezeigt. ".

Das Ergebnis der Funktion „MIMME ()“ mit ihren beiden Argumenten, die "id_var" und "value_var" sind, wird in der Ausgabe angezeigt. Durch die Anwendung von "id_var" auf die beiden Spalten "Name" und "Marks" werden seine Werte so angezeigt, wie sie ist und wie wir "Value_var" auf die Spalte "Betreff" angewendet haben. Dann ist es in diese beiden Spalten "Variable" und "Wert" unterteilt. In der Spalte "Variable" zeigt es den Spaltennamen "Subjekt" und in der Spalte "Wert" angezeigt die Werte der Spalte "Subjekt". Der Index ist in der Größe „3“ und variiert von „0 bis 2“.

Abschluss

Die Methode „Melt ()“ in Pandas ist eine vielseitige Methode, um den Pandas DataFrame zu ändern. Wir haben gelernt, wie man Pandas 'Melt () -Funktion nutzt, um einen Big DataFrame in einen langen Datenrahmen mit einem einfachen Anwendungsfall umzuwandeln. Sie sollten einen Abschnitt der Teile in unserem Material ständig umstrukturieren, während Sie mindestens ein Segment als Indikatoren an Ort und Stelle halten. Die Funktion „MIMME ()“ in Pandas ist ein fantastisches Tool zum Ändern von Daten. Wenn Sie viele vielfältige wirtschaftliche und geldbezogene Informationen verwalten und diese in einer datenbankfreundlicheren, langwierigeren Form benötigen, ist dies besonders hilfreich.

Python

Python findet den Index aller Vorkommen in einer Liste

Die Funktion für -Schloop, enumerate () , index () oder die Funktion defaultDict () kann verwendet ...

Frederik Rodehau

Python

Numpy Astype

Die Methode „Astype ()“ des Numpy -Moduls wird verwendet, um den Datentyp eines Numpy -Arrays in and...

Fr. Chris Frisch

Python

Pandas read_csv multiprocessing

Verbesserung der Datenbelastungsgeschwindigkeit, einschließlich ihrer Vorteile und Einschränkungen d...

Christopher Lammert