Pandas prüfen, ob zwei Spalten gleich sind

Pandas prüfen, ob zwei Spalten gleich sind
Häufig möchten Sie Daten in zwei Spalten in einem PANDAS -Datenrahmen vergleichen und die Ergebnisse in einer dritten Spalte anzeigen. Wir werden alle Richtlinien zum Vergleichen der Spalten in einem Pandas -Datenframe in diesem Beitrag lernen. Pandas ist ein nützliches Python -Paket für Datenanalysen, Visualisierung, Datenreinigung und andere Aktivitäten. Lesen Sie diesen Artikel weiter, um alle Details zum Vergleich von zwei Spalten in einem PANDAS -Datenframe mit Beispielen zu finden.

Pandas -Modul in Python

Das Python Pandas -Modul ist im Wesentlichen ein kostenloses Python -Paket. Es verfügt über eine breite Palette von Anwendungen in Rechnen, Datenanalysen, Statistiken und anderen Bereichen.

Das Pandas -Modul verwendet die Kernfunktionen des Numpy -Moduls. Numpy ist eine Datenstruktur auf niedriger Ebene. Es ermöglicht Benutzern, mehrdimensionale Arrays zu manipulieren und verschiedene mathematische Operationen auf sie anzuwenden. Pandas bieten eine fortschrittlichere Benutzeroberfläche. Es umfasst auch eine robuste Zeitreihenkapazität und eine verbesserte Tabellendatenausrichtung.

Der Datenrahmen ist die primäre Datenstruktur von Pandas. Es handelt sich um eine 2-D-Datenstruktur, mit der Sie Daten speichern und manipulieren können, die sich in tabellarischer Form befinden.

Pandas verfügt über viele Funktionen für den Datenrahmen. Datenausrichtung, Schnitt, Datenstatistik, Gruppierung, Verkettungsdaten, Zusammenführen usw. sind Beispiele sind Beispiele.

Warum zwei Spalten in Pandas vergleichen??

Wenn wir die Werte von zwei Spalten vergleichen oder sehen möchten, wie ähnlich sie sind, müssen wir sie vergleichen. Wenn wir beispielsweise zwei Spalten haben und feststellen möchten, ob die Spalte mehr oder weniger als die andere Spalte oder ihre Ähnlichkeit ist, ist der Vergleich der Spalten die geeignete Möglichkeit, dies zu tun.

Um die Werte in Pandas und Numpy zu verbinden, gibt es eine Vielzahl von Ansätzen. In diesem Editorial werden wir zahlreiche Strategien und die Handlungen durchführen, die mit der Inszenierung in die Praxis umgehen müssen.

Nehmen wir an, wir haben zwei Spalten: Spalte A enthält verschiedene Projekte, und Spalte B enthält die zugehörigen Namen. In Spalte D haben wir mehrere nicht verwandte Projekte. Basierend auf den Projekten in Spalte D möchten wir die zugehörigen Namen aus Spalte B zurückgeben. Wie können Sie in Excel die Spalten A und D vergleichen und die relativen Werte aus Spalte B erhalten?? Schauen wir uns einige Beispiele an und verstehen, wie Sie dies erreichen können.

Beispiel 1:

Der NP.Wo () Technik wird in diesem Beispiel verwendet. Die Syntax ist numpy.wo (Zustand [, a, b]). Diese Methode empfängt die Bedingung, und wenn die Bedingung wahr ist, ist der Wert, den wir bereitstellen ('a' in der Syntax) der Wert, den wir ihnen bereitstellen.

Wir importieren die notwendigen Bibliotheken Pandas und Numpy in den folgenden Code. Wir haben ein Wörterbuch erstellt und die Werte für jede Spalte aufgeführt.

Wir erhalten die Bedingung, die Spalten mit der Methode WHO () in Numpy zu vergleichen. Wenn 'First_Column' kleiner als 'Second_Column' und 'First_Column' kleiner als 'Third_Column' ist, werden die Werte von 'First_Column' gedruckt. Wenn die Bedingung fehlschlägt, wird der Wert auf 'Nan gesetzt.'Diese Ergebnisse werden in der neuen Spalte des DataFrame gespeichert. Schließlich wird der Datenrahmen auf dem Bildschirm angezeigt.

Pandas importieren
Numpy importieren
Data =
'First_Column': [2, 3, 40, 5],
'Second_Column': [8, 5, 30, 10],
'Third_Column': [4, 9, 12, 40]

d_frame = pandas.DataFrame (Daten)
d_frame ['new'] = numpy.Wo ((d_frame ['first_column'] <= d_frame['Second_Column']) & (
d_frame ['first_column'] <= d_frame['Third_Column']), d_frame['First_Column'], numpy.nan)
print (d_frame)

Der Ausgang ist unten gezeigt. Hier sehen Sie den First_Column, Second_Column und Third_Column. Die Spalte 'neu' zeigt die resultierenden Werte nach Ausführung des Befehls.

Beispiel 2:

In diesem Beispiel wird gezeigt, wie die Methode Equals () verwendet wird, um zwei Spalten zu vergleichen und das Ergebnis in der dritten Spalte zurückzugeben. Datenrahmen.Gleich (andere) ist die Syntax. Diese Methode prüft, ob zwei Spalten die gleichen Elemente haben.

Wir verwenden dieselbe Methode im folgenden Code, bei dem Bibliotheken importiert und ein Datenrahmen erstellt werden. Wir haben in diesem Datenrahmen eine neue Spalte (benannt: viertes_Column) erstellt. Diese neue Spalte entspricht 'Second_Column', um anzuzeigen, was die Funktion in diesem Datenrahmen ausführt.

Pandas importieren
Numpy importieren
Data =
'First_Column': [2, 3, 40, 5],
'Second_Column': [8, 5, 30, 10],
'Third_Column': [4, 9, 12, 40],
'Viertes Kolumn': [8, 5, 30, 10],

d_frame = pandas.DataFrame (Daten)
print (d_frame ['viertes_column'].Equals (d_frame ['Second_Column'])))

Wenn wir den oben angegebenen Beispielcode ausführen, gibt er 'true' zurück, wie Sie im angehängten Bild anzeigen können.

Beispiel 3:

Diese Methode ermöglicht es uns, die Methode und ansonsten im endgültigen Beispiel unseres Artikels zu übergeben und die gleiche Funktion in der Pandas DataFrame -Serie auszuführen. Mit dieser Strategie minimieren wir Zeit und Code.

In diesem Beispiel wird auch der gleiche Code verwendet, um einen Datenrahmen in Pandas zu erstellen. Wir erstellen eine temporäre anonyme Funktion in apply () selbst unter Verwendung von Lambda mithilfe der Methode apply (). Es bestimmt, ob 'Spalte1' kleiner als 'Spalte2' und 'Spalte1' kleiner als 'Spalte3' ist. Wenn wahr, wird der Wert 'Spalte1' zurückgegeben. Es zeigt Nan an, wenn es falsch ist. Die neue Spalte wird verwendet, um diese Werte zu halten. Infolgedessen wurden die Säulen verglichen.

Pandas importieren
Numpy importieren
Data =
'First_Column': [2, 3, 40, 5],
'Second_Column': [8, 5, 30, 10],
'Third_Column': [4, 9, 12, 40],

d_frame = pandas.DataFrame (Daten)
d_frame ['new'] = d_frame.anwenden (lambda x: x ['first_column'] if x ['first_column'] <=
x ['Second_Column'] und x ['First_Column']
<= x['Third_Column'] else numpy.nan, axis=1)
print (d_frame)

Das angehängte Bild zeigt den Vergleich von zwei Spalten.

Abschluss:

Dies war ein kurzer Beitrag über die Verwendung von Pandas und Python, um eine oder mehrere Spalten von zwei Datenrahmen zu vergleichen. Wir haben die Equals () -Funktion (die prüft, ob zwei Pandas -Objekte die gleichen Elemente haben), die NP).wobei () Methode (die Elemente von x oder y abhängig von den Kriterien zurückgibt) und die Methode apply () (die eine Funktion akzeptiert und sie auf alle Werte in einer PANDAS -Serie anwendet)). Wenn Sie mit dem Konzept nicht vertraut sind, können Sie diesen Leitfaden verwenden. Für Ihre Bequemlichkeit enthält der Beitrag alle Details sowie zahlreiche Stichproben.