Pandas setzen Index

Pandas setzen Index
Pandas '"set_index" -Funktion wird verwendet, um den Datenrahmen oder die Serie als Schlüssel eines Datenrahmens zu definieren. Pandas '"set_index ()" -Funktion erstellt den DataFrame -Index, indem bereits bestehende Spalten nutzt. Der Index kann den vorliegenden Index ersetzen oder erweitern.

Die Syntax für diese Methode lautet wie folgt:

Der erste Parameter „Schlüssel“ klassifiziert den Spaltennamen, den wir als Index festlegen möchten. Das Attribut „Append“ fügt die bereitgestellte Spalte hinzu, wenn der Wert des Index auf true festgelegt ist. Der Parameter "Drop" löst die Spalten ab. Sein Standardwert ist „wahr“. Der „Inplace“ führt, wenn er als „wahr“ bewertet wird, die Änderungen im Originaldatenrahmen vor und erstellt keine Kopie davon. Der letzte Parameter "verify_integrity" prüft die Duplikation des neuen Spaltenindex.

Wir werden die praktische Ausführung dieser Methode durch verschiedene Techniken in diesem Artikel lernen.

Beispiel Nr. 1: Verwendung der Methode set_index () zum Ändern der Indexspalte

Diese Demonstration wird die Verwendung der Pandas „DF.set_index () ”Methode zum Ändern der Standard-Indexliste in einem Datenrahmen in eine benutzerdefinierte Indexspalte.

Das Tool „Spyder“ wird gestartet, um an der Zusammenstellung und Ausführung des Skripts zu arbeiten. Wir haben die erforderlichen Bibliotheken zuerst in das Programm geladen. Das Paket, das wir hier brauchten, ist die "Pandas". Also haben wir es als "PD" importiert.

Wir haben einen Datenrahmen generiert, indem wir die Pandas -Methode „PD anwenden.DataFrame () ”. Sie haben die Wahl, entweder eine CSV -Datei zu importieren oder einen Datenrahmen mit dem PD zu erstellen.DataFrame () ”Methode. Der „PD.DataFrame () ”-Funktion in aufgerufen mit 4 Spalten„ EMP_NAME “,„ Erfahrung “,„ Einkommen “und„ Bonus “. Jede Spalte speichert 11 Werte.

Wir haben Werte für die Spalte "EMP_Name" als "A", "B", "C", "D", "E", "F", "G", "H", "I", "J", und "k". Die Einträge für die Spalte "Erfahrung" sind "5", "2", "17", "21", "9", "20", "11", "32", "23", "14" und "20", "11", "32", "14" und " "30". Die dritte Kolumne, die wir haben, ist "Einkommen", das diese Werte "40000", "30000", "100000", "50000", "40000", "70000", "200000", "95000", "60000", "70000", "200000", "95000", speichert, speichert. "27000" und "98000". In der Spalte "Bonus" hält diese Werte "30000", "40000", "60000", "30000", "86000", "50000", "60000", "95000", "76000", "27000" und "60000", "95000", "27000" und " "78000".

Der „PD.Die DataFrame () ”-Methode erstellt einen Datenrahmen mit diesen bereitgestellten Werten. Um den DataFrame zu speichern, haben wir ein DataFrame -Objekt "Aufzeichnung" erstellt. Wir haben es zur Ausgabe des Aufrufens der „PD“ zugeteilt.DataFrame () ”-Funktion. Zuletzt wird der Inhalt auf der Konsole durch Ausübung von Pythons „print ()“ -Funktion ausgestellt.

Wenn wir das Python -Programm ausführen, indem wir auf die Option "Datei ausführen" klicken, sehen wir einen Datenrahmen mit 4 Spalten und 11 Zeilen. Dieser Datenrahmen wurde mit der Standard -Indexliste angezeigt, die mit „0“ beginnt und auf die Länge des Datenfrequellen führt.

Möglicherweise müssen Sie manchmal die Indexspalte des Datenrahmens ändern. Hier lernen wir, die Indexspalte in einem Datenrahmen mit dem „DF) zu ändern.set_index () ”Methode. Durch die Verwendung dieser Methode werden wir die Standard -Indexspalte mit einer vorhandenen Spalte in dem bereitgestellten Datenrahmen ändern.

Wir haben den „DF angerufen.set_index () ”Methode. Der Name des Datenrahmens wird mit der Funktion "set_index ()" als "Aufzeichnung" geliefert. Zwischen den Klammern dieser Funktion haben wir den Namen der Spalte angegeben, den wir als Indexspalte im resultierenden Datenrahmen festlegen müssen. Die von uns erwähnte Spalte ist "emp_name". Die Methode "set_index ()" wird also in den Datenrahmen "Datensatz" untersucht, die als "EMP_NAME" gekennzeichnete Spalte finden und als Indexspalte festgelegt. Das Ergebnis wird in der Variablen „Einstellung“ gespeichert. Mit Hilfe der Funktion „print ()“ haben wir sie auf dem Bildschirm angezeigt.

Die Indexspalte des Ausgabedatens wird aus der Standardliste in den „EMP_NAME“ geändert. Die resultierende Ausgabe ist im Bild unten bereitgestellt.

Beispiel Nr. 2: Verwenden der Methode set_index (), um den Index in mehrere Indexspalten zu ändern

Wenn wir den Index des Datenrahmens ändern, können wir noch mehr als eine Spalte als Indexe des Datenrahmens festlegen. Erforschen wir das Konzept durch das Python -Programm.

Für diese Abbildung haben wir den Datenrahmen verwendet, der im vorhergehenden Beispiel erstellt wurde. Das „df.set_index () ”wird aufgerufen. Wir haben die Funktion mit den folgenden Parametern aufgerufen: "Schlüssel", "inplace", "anhängen" und "Drop". Die hier bereitgestellten Indexschlüssel sind "EMP_NAME" und "Einkommen". Es wurden zwei Spalten ausgewählt, da wir mehr als eine Spalte als Indizes im DataFrame festlegen müssen. Der Parameter „Inplace“ ist „True“ festgelegt, was bedeutet, dass die Chancen im tatsächlichen Datenrahmen erfolgen, ohne eine Kopie davon zu erstellen.

Wir haben den Wert "wahr" für das Attribut "Anhang" festgelegt. Wenn Sie es true, werden die neuen Indexspalten mit der bereits vorhandenen oder Standard -Indexspalte angehängt. Die letzte Eigenschaft, die wir hier verwendet haben, ist "Drop" mit dem Wert "falsch". Daher werden die Spalten, die wir für den Index aus dem DataFrame festgelegt haben, nicht fallen lassen. Da die Änderungen im tatsächlichen Datenrahmen bevorzugt werden, müssen wir kein Objekt erstellen. Drucken Sie den tatsächlichen Datenrahmen nach dem Einstellen des Index die Änderungen an. Wir haben die Funktion „print ()“ verwendet, um das Ergebnis anzuzeigen.

Unser aktualisierter tatsächlicher Datenrahmen wird angezeigt, der eine Standardindexspalte sowie die beiden neu angegebenen Indexspalten als "EMP_NAME" und "Einkommen" enthält.

Beispiel Nr. 3: Verwendung der Methode set_index () zum Ändern der Indexspalte mit der Spalte Float Value

Wir können auch die Standardindexspalte ändern und eine Float -Spalte als Indexer im DataFrame festlegen. Wir werden hier die praktische Umsetzung sehen.

Wir müssen zuerst eine Spalte mit Float -Werten im DataFrame erstellen. Der Datenrahmen von der ersten Instanz wird erneut verwendet, mit Ausnahme der Werte in der Spalte „Bonus“ sind jetzt float. Wir haben diese Werte für die Spalte „Bonus“ bereitgestellt: „30.87 ”,„ 40.16 "," 60.98 ”,„ 30.87 ”,„ 86.32 ”,„ 50.92 ”,„ 60.11 ”,„ 95.12 ”,„ 76.24 ”,“ 27.35 ”und„ 78.52 ”. Anschließend drucken wir den aktualisierten Datenrahmen mit der Funktion "print ()".

Der Datenrahmen mit der aktualisierten Spalte „Bonus“ wird ausgestellt.

Wir haben den „DF angerufen.set_index () "Methode und setzen Sie die Spalte der Indexschlüssel als" Bonus "fest. Der Parameter „Inplace“ wird als "wahr" bewertet. Daher werden die Änderungen im tatsächlichen Datenrahmen vorgenommen.

Die Float -Spalte wird als Indexspalte im Datenrahmen festgelegt, der im Bild unten angezeigt werden kann.

Beispiel Nr. 4: Verwenden der Methode set_index () zum festgelegten MultiIndex in der Kopie des Datenrahmens

Wir können MultiIndex im DataFrame mit der Methode "set_index ()" festlegen. Die Methode "set_index" wird mit dem Namen des DataFrame "Record" aufgerufen. Innerhalb der runden Klammern haben wir den Indexbetreiber initialisiert und die Namen der Spalten als "EMP_NAME" und "Experience" definiert. Hier haben wir es vorgezogen, die Funktion mit den Standardeinstellungen auszuführen, bei denen „in Place“ als „falsch“ festgelegt wird. Manipulationen werden in der Kopie des Datenrahmens durchgeführt.

Um diese DataFrame -Kopie zu speichern, haben wir eine Variable "multi_index" erstellt. Schließlich haben wir den Inhalt der Kopie des in der Variablen „multi_index“ gespeicherten Datenfreframe unter Verwendung der Funktion „print ()“ ausgestellt.

Dies gibt uns das folgende Ergebnis:

Abschluss

In dieser Lernsitzung haben wir gezeigt, dass die Indexspalte in einem Datenrahmen geändert werden muss. Pandas stellte Methode „DF zur Verfügung.set_index ”wird in diesem Tutorial verwendet, um das gewünschte Ergebnis zu erzielen. Wir haben die Syntax zur Verfügung gestellt, um diese Funktion mit einer kurzen Beschreibung der Parameter zu verwenden. Alle Techniken zum Ausüben der Funktion „set_index ()“ werden praktisch im Spyder -Tool implementiert. Wir können die Methode entsprechend unserer Notwendigkeit verwenden, ob wir eine einzelne Spalte als Indexschlüssel oder mehrere Spalten festlegen möchten.