Pandas Cross beitreten

Pandas Cross beitreten
Python ist eine gut gebaute Sprache für die Datenanalyse, hauptsächlich aufgrund des starken Ökosystems datenzentrierter Python-Tools. Pandas hat Attribute für die Durchführung eines linken, rechten, inneren oder äußeren Join und fusioniert über zwei Datenrahmen oder Serien. Darüber hinaus gibt es derzeit keine Technik, um einen Cross -Join für das Zusammenführen oder Kombinieren von zwei Operationen mit dem Argument von How = "Cross" durchzuführen. Wir werden dies tun, indem wir die Methode Pandas „Merge ()“ in diesem Artikel mit zwei Beispielen verwenden.

Pandas merge () Methode

Der „PD.merge () ”kann von der folgenden gegebenen Syntax verwendet werden:

Hier sind einige notwendige Parameter „links“, was den linken Datenrahmen bedeutet, das „rechte“, was den rechten Datenrahmen bedeutet, das „Wie“, wie man den DataFrames verbindet, das „Ein“, das sich auf die Spalte bezieht, die wir für das Verbinden der Spalte verwendet haben zwei Datenrahmen., und die "links_on" und "right_on", die dazu beitragen.

Wir werden einige praktische Beispiele durchführen, um diese Methode in diesem Lernen zu implementieren, um eine Kreuzung zwischen zwei Datenrahmen zu finden.

Beispiel 1: Verwendung von Pandas PD.Merge () -Methode, um eine Kreuzung zwischen zwei Datenrahmen mit einer einzelnen Spalte zu erhalten

Beginnend mit der ersten Abbildung für die praktische Implementierung von Python Code zur Durchführung eines Cross -Join auf Pandas DataFrames müssen wir nach einem Tool oder einer Software suchen, mit der unsere Python -Codes ausgeführt werden können. Viele Tools unterstützen die Python -Sprache. Unter diesen verschiedenen Auswahlmöglichkeiten wählen wir das "Spyder" -Tool aus. Wir müssen zunächst das Setup des "Spyder" -Tools installieren. Sobald es fertig ist, starten wir das Tool. Öffnen Sie eine neue Datei, indem Sie auf die Schaltfläche "Datei" klicken, das Dateisymbol drücken oder die Tasten „Strg+n“ drücken.

Unsere neue Datei mit der “.PY ”-Erdition, die sich auf„ Python “bezieht, ist bereit, mit der Arbeit zu beginnen. Konzentrieren wir uns nun auf den Code. Sie könnten beobachtet, dass das erste Wort des Titels unseres Artikels „Pandas“ ist, was bedeutet, dass etwas getan wird, indem die "Pandas" -Bibliothek verwendet wird. Wir verstehen, dass unsere Voraussetzung für die Implementierung dieses Code darin besteht, die Pandas -Bibliothek in die Python -Datei zu importieren. Wir haben eine Codezeile "Pandas als PD importieren" geschrieben, die. Dies importiert alle Funktionen der Pandas -Bibliothek. Außerdem haben wir das „As PD“ verwendet, was bedeutet, dass wir dort, wo wir in diesem Code auf eine Pandas -Methode zugreifen müssen, „PD“ schreiben müssen, anstatt die vollständige Form „Pandas“ zu schreiben, anstatt das vollständige Formular zu schreiben.

Während wir den Cross -Join ausführen, müssen wir zwei Pandas -Datenrahmen haben, in denen wir diese Methode ausüben. Sie werden hier erfahren, wie Sie einen benutzerdefinierten Datenframe erstellen. Um einen Datenrahmen zu erstellen, gibt Pandas uns eine „PD“.DataFrame () ”-Funktion, wobei„ PD “die„ Pandas “ist. Wir greifen also auf eine Pandas -Methode zu. Das "DataFrame ()" ist das Schlüsselwort dieser Funktion, das beim Aufrufen einen Datenrahmen generiert. Wir erstellen einen Datenrahmen mit dieser „PD.DataFrame () ”-Methode und initialisieren Sie sie mit einer einzelnen Spalte„ Num “. Diese Spalte enthält zwei Werte, die "4" und "5" sind. Rufen Sie die „PD an.DataFrame () ”-Methode generiert einen Datenrahmen mit diesen bereitgestellten Werten.

Um diesen Datenrahmen zu speichern, erstellen wir nun ein DataFrame -Objekt "v1". Der neu generierte Datenrahmen ist jetzt durch diese Variable "v1" zugegriffen. Um diesen Datenrahmen am Terminal zu sehen, verwenden wir die Methode „Print ()“. Anschließend erstellen wir unseren zweiten Datenrahmen, indem wir dieselben Schritte befolgen, während der erste Datenrahmen „v1“ erstellt wird. Rufen Sie die „PD an.DataFrame () ”Um einen Datenrahmen zu erstellen, der durch eine Spalte mit drei Werten„ R “,„ S “und„ T “initialisiert wurde. Um diesen Datenrahmen zu speichern, erstellen wir eine Variable "V2". Um den Datenrahmen "v2" anzuzeigen, verwenden wir erneut die Methode "print ()".

Wenn Sie neu im Tool „Spyder“ sind, fragen Sie sich möglicherweise, wie Sie den Code ausführen werden. Um diese Python -Datei auszuführen, klicken Sie auf die Schaltfläche "Datei ausführen" oder drücken. Jetzt können Sie zwei gerade erstellte Datenrahmen sehen, die auf dem Terminal des "Spyder" -Tools angezeigt werden.

Die Hauptaufgabe beginnt von hier aus. Wir müssen jetzt den Cross -Join auf beiden Datenrahmen anwenden. Um einen Cross -Join auf zwei Datenrahmen durchzuführen, muss es eine "Schlüssel" -Spalte geben, die in beiden Datenrahmen vorhanden ist, um eine Verbindung zwischen ihnen zu erstellen, damit wir sie durch die Verwendung dieser Verwendung zusammenführen können. Wie wir sehen können, gibt es nichts davon, daher fügen wir jetzt eine in beiden Datenfrüchten "v1" als auch in "v2" hinzu, was eine gemeinsame Spalte ist. Wir fügen den beiden Datenfrüchten dieselbe Spalte "Schlüssel" wie "v1 ['Schlüssel] = 0" und "v2 [' Schlüssel '] = 0 hinzu. Jetzt können wir sie in dieser Spalte "Schlüssel" zusammenführen.

Um sie zusammenzuführen, verwenden wir die „PD.merge () ”Methode. Zwischen seinen Klammern bieten wir sowohl Datenfaktoren "v1" als auch "v2" an, und "V2" stellen wir sowohl DataFrames "und" V2 "bereitet an. Der Parameter „On“ fordert uns auf, den gemeinsamen Spaltennamen zu geben, auf dem wir sie verschmelzen können. Es sieht also aus wie "on = 'Key'". Mit dieser Funktion verwenden wir die “.Drop () ”Methode, um die Spalte„ Schlüssel “zu fallen, sobald die Zusammenführung durchgeführt wurde. Die Funktion „Drop ()“ enthält zwei Parameter - den Namen der Spalte „Schlüssel“ und die „Axis = 1“, was bedeutet, dass der Tropfen die Spalte ist. Wir erstellen eine variable "speichern", um die Ausgabe des „PD“ zu halten.merge () ”Funktion. Wir nennen die Methode "print ()", um die Ausgabe zu sehen.

Die Ausführung des angegebenen Programms gibt uns einen Datenrahmen, der alle möglichen Zeilenkombinationen aus dem angegebenen Datenrahmen enthält.

Beispiel 2: Verwendung von Pandas PD.Merge () -Methode, um eine Kreuzung zwischen zwei Datenrahmen mit mehreren Spalten zu erhalten

Wir werden hier ein weiteres Beispiel zum gleichen Thema ausführen, das Pandas Cross Join. Dafür starten wir unser "Spyder" -Tool und öffnen eine neue Datei, indem wir das „Strg+N“ drücken. Die wichtigste Anforderung des Codes besteht darin, die erforderlichen Bibliotheken zu importieren. Wir verwenden eine Pandas -Methode, sodass wir die Pandas -Bibliothek als PD importieren. Jetzt konstruieren wir unseren ersten Datenrahmen mit dem „PD.DataFrame () ”Methode.

Wir initialisieren diesen Datenrahmen mit zwei Spalten - "Farbe" und "Num". Die Spalte "Farbe" enthält drei Werte, die "rot", "grün" und "blau" sind. Während die Spalte "Num" die gleiche Wertelänge hat, die "101", "110" und "100" sind. Wir erstellen eine variable „p1“, um die Ausgabe des Aufrufens der PD zu speichern.DataFrame () ”Methode. Jetzt können wir den Datenrahmen mit dieser Variablen erhalten. Wir verwenden die Funktion „print ()“, um den ersten Datenrahmen am Terminal anzuzeigen.

Unser erster Datenrahmen wird erfolgreich erstellt. Wir generieren jetzt den zweiten Datenrahmen. Auch hier verwenden wir die „PD.DataFrame () ”Methode und erstellen Sie eine Spalte in ihren Klammern. Diese Spalte "Serien" speichert vier Werte. Diese Werte sind "C1", "C2", "C3" und "C4". Um diesen Datenrahmen zu speichern, erstellen wir eine Variable „P2“. Anschließend rufen wir die Funktion „print ()“ auf, um den Datenrahmen "P2" anzuzeigen.

Das Ausführen des vorherigen Python -Codes ergibt uns die folgende Ausgabe, in der 2 Datenframes angezeigt werden:

Wir generieren in jedem Datenrahmen eine Spalte "Schlüssel", in der wir sie verschmelzen können. Hier verwenden wir den Wert "2" sowohl für die "p1 [" Schlüssel "als auch für" P2 ['Key'] ". Schließlich rufen wir die „PD) auf.merge () ”Funktion zum Zusammenführen der Datenrahmen in den Basen der Spalte„ Schlüssel “. und das ".Drop () ”Methode zum Entfernen der Spalte„ Schlüssel “nach dem Zusammenführen beider Datenrahmen. Wir erstellen eine "Lack" -Variable, um den zusammengeführten Datenfrequer zu speichern. Das "print ()" wird verwendet, um den endgültigen, gekreuzten Datenrahmen anzuzeigen, der in "Paint" gespeichert ist.

Dadurch werden die folgenden einzeln gekreuzten Datenframes angezeigt, die aus dem Zusammenführen von zwei Datenrahmen generiert wurden.

Abschluss

Das Zusammenführen von zwei Datenrahmen in einen einzelnen Kreuzungsdatenfream ist eine sehr einfache und wichtige Technik zum Lernen. Dieser Artikel betonte und erklärte das Konzept des Cross -Join auf Pandas DataFrame. Wir haben in allen kleinen Details ausgestattet, das erforderliche Tool auf die Erreichung der gewünschten Ausgabe herunterzuladen. Durch praktische Beispiele für Python-Codes, die im Tool „Spyder“ implementiert und ausgeführt wurden.