Pandas verkettet zwei Datenrahmen

Pandas verkettet zwei Datenrahmen
Die Informationen, die wir benötigen, treten oft in zahlreichen Quellen in realen Szenarien auf. Um die Statistiken zu bewerten, benötigen wir häufig die Integration mehrerer Dateien in einen einheitlichen Datenrahmen. Mit Hilfe von Pandas ist es möglich, die Serie sowie den Datenrahmen schnell mit den verschiedenen Arten der vordefinierten Logik für die Indizes plus relationale Algebra-Funktionen für die Funktionen des Join- und Merge-Typs zu kombinieren. Darüber hinaus verfügen Pandas mit Tools, mit denen Sie zwei Serien oder Datenrahmen vergleichen und alle Varianzen auflisten können. Möglicherweise müssen Sie die Daten mit einer Vielzahl von Ansätzen kombinieren. Zum Beispiel können Sie die Datensätze verkettet, um sie zusammenzuführen. Die Verkettung der Datensätze kann in einer Vielzahl von Methoden durchgeführt werden.

Verkettungsaktionen über die Achse werden von der concat () -Methode behandelt, und die zusätzliche Einstellungslogik für die Indizes auf angrenzenden Flugzeugen wird ebenfalls durchgeführt. Wir müssen bestimmte Auswahlen berücksichtigen, während wir die Datenrahmen verkettet oder anhängen. Solche Entscheidungen können Dinge beinhalten, wenn wir die ursprünglichen Indizes behalten, mehr vorteilhafte Schlüssel hinzufügen und mehr.

Die Verwendung der Pandas -Concattenate -Methode erfordert die folgende Syntax:

Wir haben eine Schuppenlast zahlreicher Einstellungen mit dieser Methode, um die Verkettung der Daten weiter zu montieren. Sie müssen nicht unbedingt jeden dieser von diesen verstehen, um zu navigieren. Trotzdem ist es wichtig, sich ihrer Existenz und dem, was sie ausführen, bewusst zu sein, wenn Ihr Anwendungsfall sie verlangt.

Beispiel 1: Verkettieren Sie ähnliche Spalten von zwei Datenrahmen mithilfe der Pandas -Concattenate -Funktion

Am einfachsten und am einfachsten am einfachsten ist es, die gleichen Spalten der beiden verschiedenen Datenrahmen zu verkettet.

Wie wir wissen, erfordert die Arbeit mit Pythons Pandas -Modul den Import der Pandas -Bibliothek. Wir beginnen also unsere praktische Implementierung der Beispielcodes, indem wir die Pandas -Bibliothek in Python als PD importieren.

Sobald wir fertig sind, sind wir jetzt bereit, an unserem Hauptskript zu arbeiten, da die Pandas -Funktionen uns derzeit für uns zugänglich sind.

Wir erstellen dann unsere grundlegenden Datenrahmen. Wir brauchen hier zwei Datenrahmen, da wir die Verkettung durchführen müssen.

Die Variablen "D1" und "D2" wurden erzeugt und sind im angegebenen Beispiel gezeigt. Wir haben die Pandas -Datenfunktion verwendet, um die Datenrahmen zu konstruieren. Die PD.Datenfreame () -Methode wird aufgerufen. In seinen Zahnspangen haben wir ihm 2 Werte gegeben - ID und Name. Die Werte für beide Spalten der Datenrahmen sind zugewiesen. Wir haben die Print () -Methode verwendet, um sowohl die DataFrames D1 als auch D2 anzuzeigen.

Das folgende Ausgabebild zeigt 2 Datenrahmen mit denselben Spalten:

Wir haben unsere Datenrahmen erfolgreich erstellt. Der nächste Schritt besteht darin, sie zu verkettet. Zu diesem Zweck verwenden wir die Pandas Concatenate -Methode - PD.concate (). Diese Methode verschmilzt die Daten derselben Spalten sowohl der DataFrames D1 als auch der D2.

Wir haben eine Variable "con_output" konstruiert, die das Ergebnis des Aufrufens der PD speichert.concat () Funktion. Sie müssen nur die PD liefern.concat () Funktion mit den Objekten, die Sie verkettet möchten, damit die Liste der Variablen einfach übergeben werden kann. In Anbetracht dessen können wir die [D1, D2] betreten. Stellen Sie sicher, dass wenn Sie die Liste direkt in die PD einstellen.concate () Funktion müssen die Klammern „[]“ verwenden. Andernfalls gibt es eine Fehleraufforderung. Wir rufen die Print () -Methode auf und passe sie die Variable "con_output", um alles anzuzeigen, was wir darin gespeichert haben.

Die verketteten Datenrahmen, die die ähnlichen Spalten enthalten.

Die Datenrahmen werden zusammengeführt, als ob sie keine Parameter eingegeben haben. Aufgrund dieser Faktoren sind die tatsächlichen Indizeseinstellungen enthalten. Der Index kann gelegentlich eine Anpassung erfordern. Der Parameter Ignore Index = True kann dazu verwendet werden.

Als Ergebnis werden die Indizes ab 0 geändert, die bis zum Endpunkt der Größe gehen. Die modifizierten Indexwerte sind im folgenden Snapshot angezeigt:

Beispiel 2: Verkettieren Sie verschiedene Spalten von zwei Datenrahmen mithilfe der Pandas -Concattenate -Funktion mit dem Join -Parameter

Wir fügen unsere Datenrahmen einander vertikal an, um sie zu verkettet. Die Verwendung der Spalten aus jedem Datensatz mit ähnlichen Werten wie eine freigegebene eindeutige ID ist eine weitere Methode zur Kombination der Datenfaktoren. "Joining" ist das Zusammenführen der Datenrahmen durch die Verwendung eines gemeinsam genutzten Feldes. Die "Join -Schlüssel (en)" bezieht sich auf die Spalten, die die gemeinsam genutzten Daten enthalten. Diese Methode zur Kombination der Datenrahmen ist häufig vorteilhaft, wenn ein Datenrahmen als „Nachschlagetabelle“ für den zusätzlichen Inhalt dient, den wir in der zweiten Tabelle integrieren möchten. Identisch mit der Verbindung der Tabellen in einer relationalen Datenbank verbindet diese Methode viele Datensätze miteinander.

Sie besitzen Flexibilität, um die zusätzlichen Achsen zu behandeln, wenn wir zahlreiche Datenrahmen insgesamt binden, ausgenommen die, die kombiniert wird.

Es gibt zwei Ansätze, um dies zu erreichen. Der erste Ansatz besteht darin, das join = "äußere" einzugeben, um die Kombination all dieser diese zu erhalten. Die genannte Einstellung ist die Standardeinstellung, da keine Daten beeinträchtigt sind. Die andere Strategie besteht darin, die Überquerung mit dem Join = "Inner" zu berücksichtigen.

Betrachten wir die folgende Abbildung:

Hier haben wir zwei Datenrahmen mit verschiedenen Spalten erstellt. Der erste DataFrame "D1" besteht aus 2 Spalten - ID und Name. Während der zweite Datenfreame „D3“ 2 Spalten aufweist - Stadt und Alter. Wir haben eine variable „Ergebnis“ erstellt, um die Ausgabe des Aufrufens der PD zu speichern.concat () Funktion.

Zwischen den Klammern der Pandas -Concattenate -Funktion haben wir den Namen der Datenrahmen als D1 und D3 angegeben. Die endgültige Zeile des Skripts ruft die Print () -Methode auf.

Dies ergibt uns die folgende Ausgabe:

Die beiden Datenrahmen in der zuvor genannten Instanz werden zusammengeführt. Da einige Spalten bei beiden Datenfrüchten nicht vorhanden waren, wurden sie mit den leeren Einträgen geliefert. Diese Einträge werden eingefügt, da der Standardwert des Arguments "join =" der Argument "äußerlich" ist, was ihre Aufnahme erklärt. Infolgedessen bleiben alle Daten unter den Entitäten beibehalten.

"Inner" ist ein anderes lebensfähiges Argument für die Methode.

In diesem Fall haben wir die Argumente "Join" und "Achse" verwendet. Für das Argument "Join" setzen wir den Wert "inner", während es für das Argument "Achse" auf "1" festgelegt ist. Die „Achse“ ist die Achse, in der wir unsere Datenrahmen verkettet. Es ist standardmäßig auf 0 gesetzt. Die zusätzlichen Spalten werden eingeführt, wenn es erforderlich ist, die Anzahl der Objekte über die Achse zu erhöhen = 1. Die PD.concat () führt standardmäßig einen äußeren Join über die Zeilen durch. Jetzt haben wir die Standardwerte geändert, sodass sie die spaltenweise innere Beschäftigung auf den Datenrahmen für die Verkettung durchführen.

Die Ausgabe, die wir aus dem zuvor ausgeführten Code erhalten, ist im Folgenden angezeigt:

Abschluss

Diese Diskussion konzentrierte sich auf die Pandas -okatenat -Funktion. Wir gaben eine detaillierte Einführung in die Pandas Concatenate -Funktion und die Notwendigkeit, diese Methode anzuwenden. Die Syntax für die Verwendung dieser Technik wird zu Beginn bereitgestellt und alle Parameter, die Sie in dieser Funktion verwenden können. Wir haben die Verkettung der beiden Datenrahmen mit einer praktischen Demonstration der Beispielcodes ausgearbeitet. Das Kombinieren der gleichen Spalten der verschiedenen Datenrahmen sowie die Kombination des Datenrahmens mit verschiedenen Spalten wird in diesem Schreiben erläutert. Lernen, mit den Pandas zu arbeiten.concat () function berücksichtigt Sie bei der Behandlung und Analyse der Daten.