Pandas wählen Spalten mit Namen aus

Pandas wählen Spalten mit Namen aus
Eine der häufigsten Vorgänge bei der Verarbeitung der Daten besteht darin. Um die Spalten und Zeilen abzurufen, gibt der DataFrame den Indexierungskenner „loc []“ an. Diese Methode wählt nur Spalten oder Zeilen nach Beschriftungen/Namen aus.

Die Syntax für diese Methode lautet wie folgt:

In diesem Artikel sehen Sie die praktische Implementierung über die verschiedenen Techniken, um die Spalten mit Namen auszuwählen.

Beispiel 1: Verwendung von Pandas loc [] Eigenschaft, um eine einzelne Spalte mit Namen auszuwählen

Um die jeweilige Einzelspalte des DataFrame zu extrahieren. Lassen Sie uns dazu eine Schritt-für-Schritt-Anleitung erhalten.

Aus einer Vielzahl alternativer Tools haben wir uns für das "Spyder" -Tool entschieden, um unsere Python -Codes auszuführen. Nach dem Start des Tools beginnen wir mit dem Skript zu arbeiten. Wenn wir zum Python -Programm kommen, checken wir zunächst die Voraussetzungen für die unruptive Ausführung des Skripts ein. Hier, wie der Titel erklärt, ist „Pandas“ die erforderliche Bibliothek, um mit seinen Funktionen zu arbeiten. Wir laden das Pandas -Toolkit in unsere Python -Umgebung, indem wir die „Pandas als PD importieren“ skriptieren. Das „PD“ wird als Alias ​​für Pandas in diesem speziellen Programm anstelle von „Pandas“ hergestellt, die verwendet werden sollen.

Um an Spalten zu arbeiten, benötigen wir einen Datenrahmen, der die Spalten enthält. Mit Pandas können wir einen Datenrahmen konstruieren, indem wir seine sehr einfache Methode verwenden, nämlich „PD.DataFrame () ”. Diese Methode hat zwei Abschnitte: "PD" und "DataFrame". Das „PD“ ist wie zuvor beschrieben der Alias ​​für „Pandas“, was bedeutet, dass wir etwas aus dem Pandas -Modul aufrufen. Der zweite Teil „DataFrame“ ist das Schlüsselwort, mit dem der DataFrame erstellt wird. Wir berufen die „PD.DataFrame () ”Funktion zum Generieren eines Datenrahmens. Die Spaltennamen und ihre Werte können zwischen den Klammern dieser Funktion definiert werden.

Wir initialisieren unseren Datenrahmen mit 6 Spalten mit den Namen "Mercury", "Venus", "Erde", "Mars", "Jupiter" und "Saturn". Jede Spalte erhält einen bestimmten Wert von Werten. Für "Merkur" haben wir Werte "13", "2", "24", "19", "9", "52" und "65". Die Spalte "Venus" speichert die Werte "32", "15", "3", "18", "39", "31" und "7". In der dritten Spalte haben wir "Erden" -Werte "5", "7", "21", "15", "1", "3" und "13", die "15", "1", "3" und "13". Die Werte für die "Mars" sind "8", "21", "22", "34", "14", "21" und "2". Der "Jupiter" enthält die Werte, die "11", "1", "35", "62", "5", "15" und "12" sind. Die letzte Spalte im DataFrame "Saturn" enthält die Werte "21", "23", "45", "2", "11", "12" und "9". Jede Spalte im DataFrame bewahrt die gleiche Wertelänge bei. Jetzt sind wir mit der Definition der Spalte unseres Datenrahmens und deren entsprechenden Werte fertig.

Die Pandas “PD.DataFrame () ”-Funktion erstellt einen Datenrahmen mit den bereitgestellten Daten. Aber es hat keinen Raum, um es zu bewahren. Um diesen Datenrahmen irgendwo zu speichern, damit wir ihn später verwenden können, erstellen wir ein DataFrame -Objekt. Dieses DataFrame -Objekt ist als "Planeten" gekennzeichnet. Der „PD.Die DataFrame () ”-Methode erstellt, wenn sie aufgerufen wird. Um den DataFrame auf dem Bildschirm zu visualisieren, haben wir die Funktion des Python "print ()". Diese Methode zeigt den Inhalt „Planeten“ auf der Python -Konsole beim Aufrufen an.

Wir können den Ausgabedatenrahmen sehen, nachdem wir die Option "Datei ausführen" im Tool "Spyder" gedrückt haben. Unser DataFrame mit 6 Spalten und 7 Zeilen wird auf der Konsole angezeigt, die im folgenden Ausgangsbild angezeigt werden kann:

Unser Beispieldatenrahmen für diese Demonstration ist bereit zu arbeiten und Änderungen vorzunehmen, indem Sie Funktionen anwenden. Wir sollen eine Spalte extrahieren, indem wir den Spaltennamen verwenden. Wir werden Sie auf den Ansatz anweisen, dies durchzuführen.

Um eine einzelne Spalte per Namen auszuwählen, bietet der Pandas DataFrame uns das Attribut „loc []“. Es ermöglicht uns, die Spalten oder Zeilen auszuwählen, indem wir ihre Namen erwähnen. Wir verwenden das „DF. loc [] ”Attribut. Der Name des DataFrame wird als "Planeten" geliefert. Zwischen den quadratischen Klammern drücken wir den Spaltennamen "Erde", nachdem wir den Reihenplatz mit ":" Colon verlassen haben. Dies bedeutet, dass die Auswahl die Spalte erfolgt. Um das Ergebnis zu speichern, initialisieren wir eine variable „Single“, die den Inhalt der einzelnen Spalte in der Eigenschaft „loc []“ speichert. Um die Ausgabe auf dem Bildschirm auszustellen, müssen die Funktion „print ()“ aufrufen. Wir übergeben die "einzelne" Variable an die Funktion "print ()", um das Ergebnis anzuzeigen.

Hier finden Sie unseren resultierenden Datenrahmen mit nur einer ausgewählten Spalte. Die Spalte „Erde“ wird auf dem Bildschirm mit ihrem Inhalt dargestellt. Der Name der Spalte sowie der Datentyp des Wertes wird unten in der extrahierten Spalte erwähnt.

Beispiel 2: Verwendung der PANDAS -LOC [] -Methode zum Auswählen der Mehrfachspalten mit Namen

Das Auswählen einer einzelnen Spalte in einem Pandas -Datenframe wird in der vorherigen Instanz gelernt. Darüber hinaus können wir mehr als eine Spalte extrahieren, in der die Eigenschaft des DataFrame „loc []“ verwendet wird. Wir haben dieses Konzept durch diese Illustration in die Praxis umgesetzt.

Wir verwenden den in der vorherigen Instanz erstellten Datenrahmen. Dieser Datenrahmen hat 6 Spalten. Wir müssen mehrere Spalten unserer Wahl auswählen. Das „df.loc [] “wird aufgerufen. Hier lautet der Name unseres Datenrahmens „Planeten“, die wir mit dem angeben.loc [] ”Eigenschaft. Es wird angegeben, dass wir die bestimmten Zeilen oder Spalten aus dem bereitgestellten Datenrahmen auswählen möchten. Zwischen den quadratischen Klammern der Eigenschaft „loc []“ haben wir zwei Auswahlen. Der erste Ort besteht darin, die Zeilen auszuwählen, während der andere für die Auswahl der Spalten bestimmt ist. Wir werden für diesen Leitfaden den ersten Platz überspringen und einfach einen Dickdarm hinzufügen: "Da wir keine Auswahl auf Zeilen treffen müssen.

An der Spalte stellen wir einen Einweisbetreiber „[]“ vor, den wir auch die Quadratklammern nennen. Schreiben Sie in diesem Einweisbetreiber den Namen der Spalten. Wir wählen 3 Spalten "Quecksilber", "Mars" und "Saturn" aus. Die Ausgabe dieser Eigenschaft wird in der Variablen "Multi" gespeichert. Zuletzt verwenden wir die Methode „Print ()“, um das Ergebnis auf dem Bildschirm anzuzeigen.

Der resultierende Datenrahmen zeigt uns 3 Spalten, die mit der Eigenschaft „loc []“ ausgewählt werden. Die ausgewählten Spalten erscheinen am Terminal, während der Rest ignoriert wird.

Beispiel 3: Verwendung der Pandas -LOC [] -Methode zum Auswählen eines Spaltenbereichs mit Namen

Das Auswählen von Spalten durch Drücken ihrer Namen nach eins wird manchmal zu einer hektischen Aufgabe, wenn Sie eine große Anzahl von Spalten extrahieren müssen. Wenn Sie die Spalten aus einer angegebenen Spaltenliste bis zu einem bestimmten Punkt extrahieren müssen, können Sie dies tun, indem Sie den Spaltenbereich im Attribut „loc []“ bereitstellen. Lassen Sie uns seine praktische Übung sehen.

Wir beschäftigen die „DF.loc [] ”Eigenschaft. An der Spalte liefern wir den Spaltenbereich, den wir abrufen müssen. Der erste Spaltenname, von dem der Bereich startet, und der zweite Spaltenname, bei dem der Bereich endet. Hier wählen wir die Spalte "Venus" aus, um den Bereich von und die Spalte "Jupiter" zu starten, in der der Bereich endet. Zwischen diesem Bereich extrahiert die Methode „loc []“ alle Spalten, die alle extrahiert werden. Wir speichern das Ergebnis in der Variablen „Name“ und zeigen es mit der Methode „Print ()“ an.

In der Ausgangs -Snapshot können wir sehen, dass alle Spalten von „Venus“ bis „Jupiter“ auf dem Bildschirm ausgestellt sind.

Abschluss

Diese Anleitung basiert auf der Auswahl der Spalten in einem PANDAS -Datenframe. Pandas DataFrame liefert uns ein Attribut, das „df ist.loc [] “, um eine Auswahl auf Zeilen oder Spalten oder sogar beides zu treffen. Wir haben in diesem Artikel an 3 Beispielen gearbeitet. Das erste Beispiel enthält eine detaillierte Erläuterung der Auswahl einer einzelnen Spalte in einem Datenrahmen. Das zweite Beispiel bearbeitete sich für die Auswahl mehrerer Spalten. Die dritte Abbildung basiert auf der Idee, einen Spaltenbereich in einem Datenrahmen auszuwählen.