Pandas verschmelzen mit mehreren Spalten

Pandas verschmelzen mit mehreren Spalten
Pandas ist im Wesentlichen ein Python -Paket, das häufig zur Arbeit mit Datensammlungen verwendet wird. Es ist eine Open Source, die bei genauen maschinellen Lernaufgaben verwendet werden könnte. Zusätzlich werden die mehrdimensionalen Arrays unterstützt. Die Hauptmerkmale von Pandas sind Datenausrichtungs- und Datensatzumbauten. Es kann über der Python -Programmiersprache konstruiert werden, die mit Open Source verwendet wird.

Zusammenführen auf multiple () Spaltenmethode

Es gibt verschiedene Techniken, um die Datensätze zu betreiben. Die Zusammenführungsmethode ist eine von ihnen. Mehrere Spalten von zwei oder mehr zwei Datenrahmen können zusammengeführt werden, um die Daten gut zu pflegen. Wann immer wir zwei Pandas -Datenrahmen für mehrere Spalten zusammenführen müssen, verwenden wir die „Pandas.merge () ”Methode. Dies ist eine effiziente Möglichkeit für den Datenwissenschaftler, da er ihre Zeit sparen könnte, um die Datenbank besser zu pflegen. Um die Wiedergabetreue des Codes zu verbessern, müssen wir unsere Datenrahmen in Pandas zusammenführen.

In unserem Artikel werden wir uns untersuchen.merge () ”Methode. Wenn wir die DataFrame -Sätze ohne Schlüsselspalte zusammenführen möchten, verschmelzen sie alle gemeinsamen Spalten im DataFrame. Es ersetzt jedoch jede gemeinsame Spalte durch eine einzelne Spalte aus beiden Datensätzen.

Syntax:

Beispiel 1: Anzeige der Methode merge () in mehreren Spalten mit einer ähnlichen Spalte in Pandas von zwei Datenrahmen

Hier betrachten wir die Verschmelzung mehrerer Spalten in Datenframes. Selten verwenden wir die "Merge" -Technik, um zwei Datenrahmen zu kombinieren. Jetzt erstellen wir unsere beiden Datenrahmen. Zunächst importieren wir die Open-Source Pandas als "KD". Dann erstellen wir unseren ersten Datenrahmen mit dem „KD.DataFrame "und nannte es" CD1 ", das die drei Variablen deklariert, die" m "," k "und" a "sind.

Grundsätzlich sind „M“, „K“ und „A“ die drei Spalten des "CD1" -Datenrahmens. Die Werte, die der Spaltenvariable "M" zugewiesen werden, sind "10", "10", "20", "20" und "30". Die an "k" zugewiesenen Werten sind "10", "10", "20", "20" und "20". Die der Variablen "A" zugewiesenen Werte sind "130", "90", "120", "50" und "50". Hier wird unser erster Datenrahmen „CD1“ erstellt. Kommen Sie nun zum zweiten Datenrahmen, der als "CD2" bezeichnet wird und drei Spalten hat, indem drei Variablen "M", "K" und "N" deklariert werden. Die an "m" zugewiesenen Werten sind "10", "20", "20", "20" und "30". Die der Variablen "k" zugewiesenen Werte sind "10", "10", "10" "20" und "20". Und die zugewiesenen Werte von „n“ sind „150“, „160“, „170“, „180“ und „130“. Hier wird unser Datenrahmen "CD2" erstellt.

Jetzt kommen wir zu unserer Hauptfunktion „KD.merge () “, den wir angewendet haben, um die mehreren Spalten unseres Datenrahmens zusammenzuführen. Hier wenden wir den Parameter "links" auf unsere Spalten "M" und "K" an, da sie in beiden Datenrahmen ähnlich sind. Danach wenden wir einfach unsere Funktion „print ()“ an, um die "Zusammenführung" von zwei Spalten anzuzeigen. In diesem Beispiel diskutieren wir die "Zusammenführungen" von zwei Spalten in "CD1 "- und" CD2 "-Datenrahmen mit ähnlichen Spalten, die" M "und" k "sind. Es verschmilzt einfach beide ähnlichen Spalten der verschiedenen Datenrahmen.

Jetzt diskutieren wir die Ausgabe unseres Codes. Die erste Spalte, die von "0" bis "4" beginnt, sind die Indexnummern. Da die Spalte „M“ in beiden Datenrahmen ähnlich ist, wird sie mit Werten zusammengeführt und angezeigt, die „10“, „10“, „20“, „20“ und „30“ sind. Danach ist die nächste angezeigte Spalte „K“, die auch eine ähnliche Spalte ist. Es wird auch zusammen mit den Daten von „10“, „10“, „20“, „20“ und „20“ zusammengeführt und nur einmal angezeigt. Die verschiedenen Spalten beider Datenrahmen sind „A“ und „N“, die entlang der ihnen angezeigt werden. Die Werte dieser ähnlichen Spalte "A" sind "130", "90", "120", "50" und "50", "90", "120", "50" und "50". Die letzte in der Ausgabe angezeigte Spalte lautet "n" zusammen mit den Daten, die "150", "150", "180", "180" und "130" sind.

Ähnliche Spalten werden auf der linken Seite verschmolzen, weil die Methode „links“ angewendet wird. Der Rest der UN-Common-Spalten wird standardmäßig rechts angezeigt. Da "M" und "K" -Spalten in beiden Datenrahmen ähnlich waren, können sie nach der Implementierung der "Pandas" einmal in der Ausgabe angezeigt werden.Merge () ”-Methode zusammen mit den verbleibenden Spalten„ A “und„ N “.

Beispiel 2: Anzeige merge () in mehreren Spalten mit unterschiedlichen Namen in zwei Datenrahmen anzeigen

Jetzt diskutieren wir die Zusammenführung mehrerer Spalten mit unterschiedlichen Spaltennamen in diesem Beispiel. In diesem Fall importieren wir die Bibliothek des Pandas als „FB“. Zunächst erstellen wir unsere Datenrahmen als "PK1" und "PK2". Der DataFrame "PK1" deklariert mit drei Variablennamen, die "Subjekte", "Gebühren" und "Time_period" sind, die als Spalten fungieren. Die Werte, die in "Themen" gespeichert sind, sind "Web", "Grammatik", "sozial", "elektronisch" und "IKT". Die Datenwerte, die in Spalte "Gebühren" gespeichert sind, sind "10000", "20000", "30000", "40000" und "50000". Die letzte Spalte des Datenrahmens "PK1" ist "time_period", der die Werte von "4 Stunden", "5 Stunden", "6 Stunden", "5" speichert.5 Stunden “und„ 5 Stunden “.

Der zweite Datenrahmen mit dem Namen "PK2" enthält drei Spalten, die "Subjekte", "Gebühren" und "Perzentil" sind. Der Wert, den wir "Subjekte" zuweisen, sind "IKT", "Grammatik", "sozial", "elektronisch" und "Datenbank". In der zweiten Spalte "Gebühren" des DataFrame zuweisen wir die Werte von "10000", "20000", "30000", "40000" und "50000". Die letzte Spalte "Perzentil" speichert die Werte, die "5%", "10%", "20%", "10%" und "5%" sind. Nach dem Erstellen der DataFrames zeigen wir sie einfach mit der Funktion „print ()“ an.

Wenn unsere Datenrahmen erstellt werden, wenden wir die Implementierung der „Pandas an.merge () ”Funktion. Wir fusionieren den ersten DataFrame „PK1“ zusammen mit dem zweiten Datenrahmen „PK2“. Hier möchten wir die verschiedenen Spalten von Datenrahmen zusammenführen, daher verwenden wir die Parameter von "Left_on" und "Right_on". Wir verwenden diese Parameter in der Spalte von „Probanden“ beider Datenrahmen. Danach werden beide Datenrahmen zusammengeführt und wir zeigen sie einfach von der Funktion „print ()“ an.

Schauen Sie sich nun unsere Ausgabe des jeweiligen Codes an. Wie wir in unserer Ausgabeanzeige vom ersten Index von „0“ bis „4“ sehen können, zeigt es unseren ersten Datenrahmen von „PK1“ der ersten Spalten „Probanden“, die „Web“, „Grammatik“, „sozial“ enthalten, „soziale Spalten“ enthalten. , "Elektronisch" und "IKT". Die zweite Spalte "Gebühren" enthält die numerischen Werte von "10000", "20000", "30000", "40000" und "50000". Die dritte Spalte "Time_period" enthält die Werte "4 Stunden", "5 Stunden", "6 Stunden", "5.5 Stunden “und„ 5 Stunden “.

Als nächstes werden die Daten des Datenrahmens „PK2“ angezeigt, der auch drei Spalten enthält: "Probanden", "Gebühren" und "Perzentil". In der Spalte "Subjekt" werden "IKT", "Grammer", "sozial", "elektronisch" und "Datenbank" angezeigt. In der Spalte „Gebühren“ werden ihre Werte von "10000", "20000", "30000", "40000" und "50000" angezeigt. Die dritte Spalte "Perzentil" zeigt Daten von „5%“, „10%“, „20%“, „10%“ und „5%“ an.

Endlich nach Anwendung der „Pandas.merge () ”-Funktion, sie kombiniert die Daten beider Frames. Standardmäßig werden die Spalte "Subjekt" beider Datenrahmen mit ähnlichen Werten verschmilzt und sie zusammen mit den mehreren verschiedenen Spalten beider Datenrahmen angezeigt. Nach der Zusammenführung beider Datenrahmen zeigen wir die fünf verschiedenen zusammengeführten Spalten an, die "Subjekte", "Lades_x", "Time_period", "Lades_Y" und "Perzentil" sowie alle von uns zugewiesenen Daten sind.

Abschluss

Wir haben beschrieben, wie man die mehreren Spalten in diesem Artikel kombiniert. Wir haben es anhand der Beispiele für das Zusammenführen von zwei Datenrahmen diskutiert, die sowohl ähnliche als auch verschiedene Spalten enthalten. Um die ähnlichen Spalten zusammenzuführen, verwenden wir nur den einfachen „KD“.Merge () ”-Funktion und verschmilzt die ähnliche Spalte standardmäßig nach der Funktion. Um die verschiedenen Mehrfachspalten zusammenzuführen, verwenden wir das „FB.merge () ”zusammen mit den Parametern" Left_on "und" Right_on ".