Pandas verschmelzen nach Index

Lars Daub

Das Verfahren zur Kombination von zwei Datensätzen in einem und die Zeilen nach gemeinsam genutzten Attributen oder Spalten wird als "Pandas merge ()" bezeichnet. Unter Verwendung eines Verbindungsvorgangs im Datenbankstil werden zwei DataFrames-Objekte mithilfe der Funktion Pandas DataFrame "merge ()" kombiniert. Eine zweidimensionale Datenstruktur, die als PANDAS-Datenframe bezeichnet wird, ist in einem tabellarischen Format ausgerichtet. Es gibt zahlreiche Möglichkeiten, diese Datenrahmen zu integrieren, einschließlich „join ()“ und „merge ()“. Pandas 'vollständige Verfahren und herausragende Leistung sind vergleichbar mit denen einer SQL Relational Database. Verbinden Sie Operationen zwischen DataFrames -Objekten können mit der Funktion „merge ()“ erreicht werden. Auf Spalten oder Indizes erfolgt das Verbinden. Indizes werden beim Verbinden von Spalten nicht berücksichtigt. Die Source DataFrame -Objekte sind unberührt und ein neuer Datenrahmen wird von dieser Funktion zurückgegeben.

Obwohl sie in unterschiedlichen Situationen verwendet werden, werden Pandas „Join“ und „Merge“ verwendet, um Verbindungen zu Pandas DataFrames durchzuführen. Während die Prozedur „merge ()“ flexibler ist und Ihnen ermöglicht, Datenrahmen sowohl für Indizes als auch auf Spalten zu verbinden, wird die Funktion joje () normalerweise zum Verbinden von Datenfaktoren im Index verwendet. Das "links_index" wird als Join -Schlüssel verwendet und "rechts _index", der den Index aus dem "rechten Datenrahmen" verwendet, wird als andere Link -Taste verwendet. Die Technik „Join ()“ kann eingesetzt werden, um den linken Datenrahmen in eine Spalte zu verbinden, aber der rechte Datenrahmen erfordert, dass sie an seinen Index angehängt wird.

Die Syntax zum Kombinieren von zwei Datenrahmen mit dem Index mit der Merge () -Methode

Mit dieser Syntax können zwei Datenrahmen basierend auf ihren Indizes kombiniert werden.

Die Syntax zum Verbinden von zwei Datenrahmen per Index unter Verwendung der join () -Methode

Beispiel 1: Durch die Verwendung ihres Index kann die Funktion merge () verwendet werden, um zwei Datenrahmen zu verbinden.

Panda ist ein Modul für die Datenverarbeitung. Tabuläre Daten können in Python unter Verwendung eines Datenrahmens gespeichert werden. Sie können schnell tabellarische Daten wie Zeilen und Spalten mit dem DataFrame speichern und arbeiten. Pandas bietet eine Vielzahl von Einrichtungen an, um Serien oder Datenframe mit verschiedenen Arten von Set-Argumentation für die Indizes und strukturellen Mathematikfunktionen im Falle eines Join- oder Merge-Operationen zu kombinieren.

In diesem Beispiel werden wir die Funktion „merge ()“ verwenden, um zwei Datenrahmen zu verbinden, indem wir ihre Indexwerte übereinstimmen. In diesem Beispiel werden zwei Datenrahmen erstellt. Der erste DataFrame hat zwei Spalten und heißt "Data1". "Alter" und "Namen" sind die Spalten von "Data1". Wir haben eine Liste von Werten in jeder Spalte. Die Werte für "Alter" haben "28", "37", "29" und "32" und für den Spalte "Name" haben wir "George", "James", "Arthur" und "Henry". In diesem Datenrahmen beträgt die Größe des Index „4“. Der Index "ID" sind "1", "2", "3" und "4". Die Indexinformationen des DataFrame werden über die Indexeigenschaft zurückgegeben. Die Etiketten für die Zeilen sind in den Indexinformationen enthalten. Die Indexeigenschaft erzeugt ein Range Index -Objekt mit den Start-, End- und Phasenwerten, wenn die Zeilen keine benannten Indizes haben.

Als nächstes erstellen wir einen weiteren DataFrame "Data2". Es hat zwei Spalten "ID" und "Beruf". In diesen beiden Spalten haben wir eine Liste von Werten. In der Spalte "ID" haben wir "1", "2", "3" und "4" . Die Kolumne "Beruf" hat "Doktor" und "Lehrer" und "Ingenieur". Dann erwähnen wir den Index hier "1", "2", "3", "6" und "7".

Jetzt verwenden wir die Funktion "merge ()", um den beiden Datenrahmen "Data1" und "Data2" zu verbinden. Es werden zwei Parameter der Merge -Funktion verwendet: „Left_index = true“ und „right_index = true. Bestimmte Zeilen und Datenspalten müssen aus einem Datenrahmen ausgewählt werden. Als kombinierter Schlüssel wird der „linke Index“ aus dem linken DataFrame und einer anderen Connect -Taste verwendet. Der "Right _Index" verwendet den Index aus dem rechten Datenrahmen.

Indexierung ist der Prozess der Auswahl aller Zeilen und einige der Spalten, einige Zeilen und alle Spalten oder ein Stück jeder Zeile und jeder Spalte. Ein anderer Name für die Indizierung ist die Subset -Auswahl. "Merge ()" ist die Funktion, die Sie benötigen, wenn Sie Datenelemente basierend auf einem oder mehreren Schlüssel zusammenführen möchten, ähnlich wie in einer relationalen Datenbank. Das Zusammenführen von Zeilen insbesondere mit ähnlichen Daten wird am besten mit der Funktion „merge ()“ erreicht. Jetzt werden die beiden Datenrahmen mit ihrer Indexadresse zusammengefasst und auf dem Bildschirm angezeigt, indem sie die Funktion „Print ()“ verwenden.

In diesem Beispiel wird im Ausgabebild ein Datenrahmen angezeigt. Wenn also die Merge -Funktion die beiden Datenrahmen angeschlossen hat, können wir sehen, dass nur die Werte, deren Indexadressen übereinstimmte, angezeigt wurden. Die letzten beiden Zeilen des zweiten Datenrahmens und die vierte Zeile des ersten Datenrahmens konnten nicht angezeigt werden, da ihre Indexadressen nicht übereinstimmten. Die Größe des Datenrahmens, den wir jetzt haben, beträgt drei nach Verwendung des Index.

Beispiel 2: Verwenden Sie die Funktion Joy (), um zwei Datenrahmen abhängig von ihren Indizes zu kombinieren.

Es gibt Situationen, in denen das Zusammenführen von zwei Datenrahmen einen Datenrahmen mit einem Indexmuster erzeugt, das unsere Anforderungen nicht entspricht. Wir möchten den Index ändern, der sich aus der Zusammenführung ergibt. Wenn wir die Datenrahmen verschmelzen, werden wir den Index aus diesem Grund zurücksetzen. Die geringste Steuerung ist mit dieser Funktion basierend auf einer gemeinsamen Spalte oder einem Index möglich. Die Zeilen aus den beiden Tabellen werden verbunden.

Für unser zweites Beispiel, das dem ersten ähnlich ist, enthält dieses Programm zwei Datenrahmen „DF1“ und „DF2“. Wir haben zwei Spalten "Namen" und "Marks" im ersten Datenrahmen. Die Werte, die wir in der ersten Spalte haben, sind "Emma", "Watson", "Jhon", "Lilly", "Edward", "Noah", "Smith" und "Enna" und die Werte in der Spalte "Markierungen" sind "25", "20", "14", "16", "27", "20", "12" und "15". Anschließend hatten wir eine Indexliste "A", "B", "C", "D", "E", "F", "G" und "H". Ebenso befinden sich zwei Spalten im zweiten Datenrahmen „Subjekt“ und „Bemerkungen“. In der Spalte "Betreff" haben wir eine Liste von Themen, die "OOP", "PF", "Python", "Java", "PHP" und "Calculus" enthält, und wir haben eine Liste von Kommentaren in der Spalte "Bemerkungen" das sind entweder "Pass" oder "scheitern". Die Indexliste für den zweiten DataFrame lautet "A" C "," D "," G "," M "und" N ".

Basierend auf den Indizes der beiden Datenrahmen fusionieren wir sie mit der Technik "join ()". Die Join -Strategie funktioniert am besten bei der Verknüpfung von Datenfaktoren mit ihren Indizes, obwohl wir eine andere Spalte für den linken Datenrahmen auswählen können, um mitzumachen. Die Zusammenführungstechnik ist nicht nur zu, sondern auch Spalten als den Index für beide Datenrahmen zur Verfügung gestellt, sondern auch flexibler. Es wird DF1 und DF2 nach dem Abgleich des DF2 -Index mit dem Index von DF1 zusammenführen.

Drei Datenrahmen sind im resultierenden Bild zu sehen. Die ersten beiden Datenrahmen "DF1" und "DF2" sind diejenigen, die wir erstellt haben. Wir können sehen, dass der dritte DataFrame die Funktion „join ()“ verwendet. Diejenigen, deren Index nicht übereinstimmte, wurden dort „Nan“ angezeigt.

Abschluss

Der Datenrahmen wird mit der PANDAS -Technik "merge ()" kombiniert. Die Spalten aus beiden Datenrahmen werden während des als Zusammenführungsvertrags bezeichneten Verbindungsvorgangs kombiniert. Der Teilnehmer, Indizes oder eine Kombination der beiden wird ebenfalls durch Zusammenführen unterstützt. Dieser Artikel hat den Betrieb der Funktionen „Joins () und„ Merge () “in der Pandas Python Library behandelt. Sie können problemlos zwei Datenrahmen anschließen, indem Sie ihre Indexpositionen anhand der oben genannten Methoden verwenden, und Sie haben auch gelernt, wie Sie die Join -Verfahren implementieren können.

Python

Konvertieren Sie eine Schnur in JSON Python

Das JSON -Modulfunktion, die Funktion „AST“ -Modul oder die Funktion „eval ()“ wird verwendet, um ei...

Frederik Rodehau

Docker

Was ist der Unterschied zwischen Docker und Podman?

Docker verwendet eine Client-Server-Architektur, während Podman ein Dämon weniger Container-Engine i...

Christopher Lammert

Docker

Was ist Docker -Bindungshalterungen?

Ein Docker Bind -Mount ist eine Art von Mount, mit der Benutzer ein Verzeichnis oder eine Datei im H...

Christopher Lammert