Pandas Shuffle

Pandas Shuffle
„Wenn wir einen Datenrahmen neu ordnen müssen, bietet uns Pythons Panda -Modul mehrere Techniken zum Mischen seiner Reihen an. Die Daten werden mit der Methode „Sample ()“ mit dem Parameter „farc = 1“ zufällig gemischt. Die Zeilen des DataFrame können gemischt werden, ohne die Indexspalte zu ändern, indem „reset_index (drop = true)“ verwendet werden. Um einen neuen Datenrahmen mit dem Index -Reset zu erstellen, können wir die Funktion „Reset _index ()“ verwenden. Dies ist nützlich, wenn der Index als Spalte behandelt werden muss oder wenn er vor dem folgenden Prozess auf den Standardwert zurückgesetzt werden muss.”

Die Syntax zum Mischen von Pandas DataFrame

Die Syntax zum Mischen von Pandas DataFrame und Reset Index

Beispiel 1: Durch Verwendung der Sample () -Methode die Zeilen des Datenrahmens mischen

In dieser Abbildung verwenden wir die Funktion „Sample ()“, um zufällige Elemente aus der Achse eines Objekts abzurufen. Wir können die Zeilen unseres Datenrahmens mischen, indem wir die Funktion „sample ()“ verwenden, um die Zeilen zu „verschmelzen“.

Beginnen wir also mit unserem ersten Beispiel. Um unseren Code zu implementieren, verwenden wir hier das Tool "Spyder". Der erste Schritt besteht darin, die Bibliothek des Pandas als „PD“ zu importieren. Wir erstellen jetzt einen Datenrahmen, nachdem wir die Bibliothek importiert haben. Der Titel des Datenrahmens in diesem Code haben wir "Student". Dieser Datenrahmen "Student" hat drei Spalten "Name", "Marks" und "Bemerkungen". In jeder dieser drei Spalten sind Werte gespeichert. Die Namen mehrerer Schüler sind "Thomas", "Enna", "Ponting", "Watson" und "Emma" in der Spalte "Name". In der Kolumne "Marks" haben wir die Markierungen des Schülers "469", "202", "430", "190" und "398". Die dritte Spalte, "Anmerkungen", enthält die Liste der Kommentare, entweder "Pass" oder "Fail".

Um diesen Datenrahmen zu generieren, verwenden wir „PD. DataFrame ”. Zu diesem Zeitpunkt wird der Datenrahmen auf dem Bildschirm mit der Funktion „Print ()“ ausgestellt.

Nachdem wir den entscheidenden Abschnitt des Codes erreicht haben, müssen wir die Zeilen unseres Datenrahmens mischen. Beim Mischen können Datenmischungsalgorithmen möglicherweise logische Verbindungen zwischen den Spalten aufbewahren, während sie die Daten neu anordnen. Es mischt Daten aus einem Datensatz in einem Attribut zufällig. Hier verwenden wir die Methode „Sample ()“ mit seinem Parameter „Frac = 1“. Dieses „Frac = 1“ wird verwendet, um die Reihenfolge der Zeile zu mischen.

Mit dieser Sample -Methode () werden alle Zeilen des DataFrame ausgelöst und wird als Schaumstoff eines neuen DataFrame -Schaums angezeigt. Jetzt zeigen wir einen Datenrahmen noch einmal, nachdem wir die Zeile mit der Funktion „print ()“ gemischt haben.

Sie können die Ausgabe des Programms auf dem Bildschirm sehen, nachdem Sie den Code ausgeführt haben. In unserem Ausgabebild sind zwei Datenrahmen sichtbar. Der erste Datenrahmen wird gebildet, indem Spalten und Werte hinzugefügt werden, und der zweite Datenrahmen wird nach dem Absetzen der Zeilen mit der Methode „Sample ()“ mit seinem Parameter „Frac = 1“ angezeigt.

Wenn wir die ersten und zweiten Datenrahmen vergleichen, ist es offensichtlich, dass die Zeilen im zweiten Datenrahmen neu angeordnet sind. Ihr Index wurde ebenfalls gemischt. Der Index des ersten DataFrame beginnt bei „0“ und endet mit „4“, und der Index des zweiten DataFrame wird neu angeordnet, um „2“, „4“, „0,“ 3, und „1“ zu enthält.

Beispiel 2: Verschlurken der Zeilen des Datenrahmens, ohne Änderungen in der Indexspalte vorzunehmen

In diesem Fall werden die Zeilen des DataFrame gemischt, aber der Index des DataFrame ändert sich nicht. Der Index über den Zeilen wurde auch im vorherigen Beispiel gemischt, wie man sich zeigt, aber da wir hier „Reset Index (Drop = True)“ verwenden, wird der Index nicht neu angeordnet.

Beginnen wir zuerst unseren Code. Wir haben die Bibliothek des Pandas als „PD“ importiert. Der nächste Schritt besteht darin, einen Datenrahmen zu konstruieren. Der Datenrahmen wird in seinem Namen als "Daten" bezeichnet. In diesem Datenrahmen "Name", "Markierungen" und "Subjekt" enthält dieser Datenrahmen "Name", "Markierungen" und "Subjekt". Alle drei Spalten halten Werte in jedem von ihnen. In der Spalte "Name" haben wir einige Namen von Schülern "Noah", "Pitbul", "Jack", "Arthur" und "George". Die zweite Spalte, "Marks", enthält eine Liste von Noten, die "460", "304", "431", "192" und "398" enthält, und im Thema der dritten Spalte haben wir "Python", ",", ",", ",", ",", ",", ",", "," Java "," OOP "," PF "und" Calculus ". Nun, „PD.DataFrame ”wird zum Erstellen des DataFrame verwendet, und zum Anzeigen des Datenrahmens verwenden wir die Funktion„ print () “.

Um die Zeilen des Datenrahmens zu mischen, verwenden wir jetzt die Methode „Sample ()“ mit dem Parameter FRAC = 1; In diesem Fall verwenden wir jedoch auch "Reset Index (Drop = true)", wodurch der Index nicht mischt wird, der nur die Zeilen des Datenrahmens mischt. Der Index kann auf die Standardeinstellung "0", "1", "2", "3", usw. zurückgesetzt werden. Indizes unter Verwendung der Methode reset_index (). Wenn Sie vermeiden möchten, die vorherigen Indizes standardmäßig in der Spalte "Index" zu behalten, verwenden Sie das Drop -Argument. Jetzt zeigen wir den Datenrahmen erneut, nachdem wir die Zeilen mit der Funktion „print ()“ verwendeten.

In diesem Ausgabebild werden zwei Datenrahmen angezeigt, wie zu sehen ist. Durch die Verwendung des Arguments Reset „Index (Drop = true)“ mit der Methode „Sample ()“ können wir feststellen, dass die Zeilen des zweiten DataFrame gemischt sind, seine Indizes jedoch nicht geändert werden. Wenn wir uns jedoch das vorhergehende Beispiel ansehen, können wir sehen, dass der Index ebenfalls neu angeordnet wurde, da der Parameter „Reset Index (Drop = True)“ nicht verwendet wurde.

Beispiel 3: Ändern der Reihenfolge der Zeile durch Numpy -Permutation mit der Iloc [] -Methode

Mit „Numpy Permutation“ und der „Iloc []“ -Technik ordnen wir den Datenrahmen in diesem Beispiel neu an. Die „Permutation“ -Methode verwendet zufällige Stichproben aus einer Sequenz von Permutationen, um uns die Sequenz zu liefern und die Sequenz zurückzugeben. Wenn z ein mehrdimensionales Array ist, ist es mit seinem ersten Index gemischt.

Bevor wir den Code ausführen, müssen wir zwei Bibliotheken als „PD“ und Numpy als „NP“ importieren. Das nächste besteht darin, einen Datenrahmen mit dem Namen "Daten" zu erstellen. In diesem Datenrahmen haben wir zwei Spalten. Das „Auto“ ist der Name der ersten Spalte, und das „Modell“ ist die zweite Spalte. Für diese beiden Spalten sind bestimmte Werte aufgeführt. In der Spalte "Name" haben wir "Suzuki", "Ford", "Toyota", "Mercedes" und "Honda" und die Werte für die Kolumne "2011", "2008", "2019", "2019", "2019", "2019". und "2017". Dieser Datenrahmen wird nun von „PD) generiert.DataFrame ”.

Hier verwenden wir die „Iloc []“ -Technik mit der Methode „Permutation ()“ und dem Indexparameter. Wir können die Methode „Iloc []“ verwenden, um eine charakteristische Spalte oder Zeile aus dem angegebenen Datensatz auszuwählen. Durch die Verwendung von Indexwerten können wir einen bestimmten Wert aus einer Spalte oder Zeile mit der Methode „Iloc []“ schnell erhalten. Da wir hier den Parameter "reset_index (drop = true)" verwenden, ändert sich der Index des DataFrame nicht nicht. Verwenden wir also die Funktion "print ()", um unseren Datenrahmen nach der Umgestaltung der Zeilen anzuzeigen.

Zwei Datensätze wurden in der Ausgabe angezeigt, von denen einer der ursprüngliche Datensatz war und der andere der gemischte Datensatz. Hier können wir sehen, dass die Zeilen im zweiten Datenrahmen gemischt wurden und sich der Index nicht geändert hat. Der Index des ersten DataFrame startet mit „0“, während der Index des zweiten DataFrame in ähnlicher Weise bei „0“ beginnt, die Zeilen jedoch geändert werden.

Abschluss

In Pandas gibt es zahlreiche Methoden zur Neuanordnung der Daten in den Zeilen und Spalten des DataFrame. In diesem Artikel haben wir einige einfache Methoden verwendet, um die Zeilen des Datenframe zu mischen. Wir haben die Zeile gemischt und alle Zeilen des Datenrahmens mit der Funktion „Sample ()“ mit dem Parameter „farc = true und der„ Permutation “-Methode mit Iloc [] abgerufen. "Reset_index (drop = true)" wird verwendet, wenn wir die Zeilen ändern müssen, aber nicht den Index des Datenrahmens. Diese Panda -Strategien sind einfach, und wir glauben, dass Ihre Aufgabe durch die Implementierung leicht verwaltet wird.