Pandas DataFrame GroupBy

Pandas DataFrame GroupBy
Um die Daten in Kategorien zu gruppieren und eine Funktion auf die Kategorien anzuwenden, verwenden wir die PANDAS -Methode "GroupBy ()". Eine effektive Datenaggregation wird auch dadurch unterstützt. Die Funktion "GroupBy () wird verwendet, um die Daten in Gruppen zu unterteilen. Objekte von „Pandas“ können entlang jeder Achse aufgeteilt werden. Wir können sagen, dass das Objekt in einer „GroupBy ()“ -Methode aufgeteilt wird, eine Funktion angewendet wird und ihre Ergebnisse kombiniert werden. Große Daten können mit der Methode „GroupBy ()“ gruppiert werden, und die Vorgänge können auch in diesen Gruppen berechnet werden. In diesem Handbuch wird die Methode „GroupBy ()“ im Detail erläutert und gibt Ihnen die richtigen Richtlinien zur Methode „GroupBy ()“.

Beispiel # 01:

Wir implementieren auch diese Funktion „GroupBy ()“ im Code „Pandas“ in diesem Handbuch, sodass Sie schneller über die Funktion „GroupBy ()“ erfahren werden. Wir importieren zuerst die "Pandas als PD" im Tool "Spyder" und generieren dann eine Liste mit dem Namen "Daten" und fügen einige Informationen in sie ein. Wir haben den Namen „Team“ als Header der Kolumne und die Teams, die wir hinzufügen, „Fahrer, Fahrer, Teufel, Teufel, Könige, Könige, Könige, Könige, Fahrer, Royals, Royals, Reiter“ eingestellt. Die nächste Kolumne, die wir hier erstellen, ist die Kolumne „Jahr“, in der wir Jahresdaten als „2014, 2015, 2014, 2015, 2014, 2015, 2016, 2017, 2016, 2014, 2015, 2014“ hinzufügen.

Dies ist unsere Liste, und wir ändern diese "Daten" -Liste in den Datenrahmen. Dafür haben wir die „PD“ verwendet.DataFrame () ”-Funktion, die diese Liste in den Datenrahmen„ Pandas “umwandelt. Der hier erstellte DataFrame wird in der Variablen „DF“ gespeichert und wir drucken ihn, indem wir den „DF“ als Parameter von „print ()“ platzieren. Das Hauptziel des Schreibens dieses Code ist nun die Implementierung der Methode „GroupBy ()“ für diese Daten. Wir verwenden die „GroupBy ()“ -Methode und wenden sie auf „Jahr“ an. Dies gruppiert die Daten basierend auf den Jahren, die wir eingefügt haben. Nach der Gruppierung wendet es die Methode „count ()“ auf diese Gruppe an. Es wird die gleichen Jahre zählen und sie dann in "DF1" speichern. Danach haben wir den „Druck“, der dies rendern wird.


Um die Ausgabe zu erhalten, klicken Sie einfach auf die Schaltfläche "Ausführen" in der App "Spyder". Der Datenrahmen, der Teams und Jahre enthält. Da es das Jahr „2014“ gruppiert und „5“ zeigt, was bedeutet, dass das Jahr 2014 in diesem Datenrahmen fünfmal erscheint. Diese Gruppierung erfolgt, weil wir die Methode „GroupBy ()“ für diesen Datenrahmen verwenden.

Beispiel # 02:

Nachdem wir die „Pandas als PD“ importiert haben, generieren wir den Datenrahmen direkt mit dem Namen „Tiere“ und enthält zwei Spalten: „Tier“ und „maximale Geschwindigkeit“. Die "Tier" -Säule enthält "Sparrow, Falcon, Papagei, Papagei, Sparrow und Falcon". Die Spalte „maximale Geschwindigkeit“ enthält „210, 30, 37, 24, 260 und 390“. Es erstellt einen Datenrahmen, der diese Spalten enthält, wie wir den „PD“ verwendet haben. DataFrame () ”Methode hier.

Dann zeigen wir diesen "Tier" -Datenrahmen. Danach wenden wir die Methode "GroupBy ()" auf den Datenrahmen "Tiere" an und fügen die Spalte "Animal" als Parameter ein. Dadurch werden Gruppen von den gleichen Tiernamen abhängig. Dann verwenden wir auch die Funktion „Mean ()“ hier, die den Mittelwert jener Gruppen finden, die hier erstellt werden, und wir initialisieren die "Gruppen" -Variable mit dieser "GroupBy ()" -Methode, sodass das Ergebnis, das wir nach der Gruppierung erhalten wird darin aufbewahrt. Wir möchten auch das Ergebnis zeigen, das in „Gruppe“ gespeichert ist. Dafür verwenden wir die Funktion „Print ()“ erneut.


Die Tiere und ihre maximalen Geschwindigkeiten werden im ersten Datenrahmen ohne Gruppierung angezeigt. Danach wird die Funktion „GroupBy ()“ hier angewendet und gruppiert alle gleichnamigen Tiere und findet dann ihren Mittelwert und zeigt sie unten an.

Beispiel # 03:

Wir erstellen eine neue Liste in diesem Code, bei der die Liste „summer_courses“ ist, und fügen vier eindeutige Spalten hinzu. Die Headernamen der Spalten sind "Subjekt, Sub_fee, Tage und dis_amount". Wir fügen auch die Fachnamen, die Fachgebühren, die Dauer des Kurses in Tagen und den Rabattbetrag für die Gebühr in diesen Spalten hinzu. In dem „Subjekt“ fügen wir hier hinzu: „Webentwicklung, Wengineering, CSS, HTML, CSS, Webentwicklung, CSS, HTML und auch NA“. Das "sub_fee" enthält die Gebühr, die "22000, 25000, 23000, 24000, 25000, 26000, 25000, 25000, 22000 und 15000" beträgt. Die Tage, an denen wir hier eintreten, sind „30, 50, 55, 40, 60, 35, 30, 50 und 40“, und auch die Spalte „dis_amount“ enthält „1000, 2300, 1000, 1200, 2500, None, 1400, 1600 und 0 ”.

Jetzt müssen wir diese Liste in den Datenrahmen ändern. Um die Liste in DataFrame umzuwandeln, verwenden wir die „PD.DataFrame () ”-Funktion und nennen Sie den DataFrame„ summer_course_df “. Wir machen hier auch "summer_course_df". Die Variable "summer_course1" wird mit der Technik "GroupBy ()" initialisiert, sodass die Ergebnisse der Gruppierung darin gespeichert werden. Die Methode "GroupBy ()" wird dann auf die Spalte "Subjekt" angewendet.

Infolgedessen werden Gruppen erstellt, die auf ähnlichen Subjektnamen basieren. Die Funktion „sum ()“ wird dann verwendet, um die Summe der gerade gebildeten Subjektgruppen zu berechnen. Diese „Summe ()“ berechnet die Summe der Gebühren, Tage und Rabattbeträge für dieselben Themen. Wir möchten auch das Ergebnis zeigen, das in „summer_course1“ gespeichert wurde, daher verwenden wir die Funktion „print ()“ erneut.


Hier können Sie feststellen, dass es alle Probanden im ersten Datenrahmen getrennt macht. Dann kombiniert es die gleichen Themen oder stellt Gruppen derselben Betreffnamen und zeigt auch einmal denselben Namen an. Es wendet die Summenfunktion auf die Spalten Sub_fee, Tage und dis_amount mit denselben Betreffnamen an und macht hier ihre Summen.

Beispiel # 04:

In diesem Code verwenden wir den Datenrahmen des vorherigen Beispiels, aber hier führen wir die Funktion „GroupBy ()“ in mehreren Spalten aus. Wir übergeben zwei Namen von Spalten an die Funktion „GroupBy ()“, die „Subjekt“ und „Tage“ sind. Platzieren Sie dann die "sum ()", die die Zusammenfassung der hier erstellten Gruppen durchführt, und speichern Sie sie in der Variablen "summer_course2". Danach machen wir am Ende den „summer_courses2“.


Dieses Ergebnis zeigt, dass es sowohl in den Spalten "Subjekt" als auch in "Days" die Funktion "GroupBy ()" ausführt und das Ergebnis hier nach der Gruppierung veranstaltet.

Abschluss:

Sie können diesen Leitfaden verwenden, um zu untersuchen. Unser Hauptziel ist es, Ihnen eine prägnante und verständliche Erklärung für die Idee der „GroupBy ()“ -Methode in „Pandas“ zu geben. Wir haben erklärt, dass diese Methode uns hilft, Gruppen abhängig von bestimmten Kriterien zu machen. Wir haben vier Beispiele in diesem Leitfaden gemacht, in denen wir Gruppen durch die Verwendung der Methode „GroupBy ()“ in „Pandas“ herstellen,. Nachdem Sie dieses Tutorial gelesen haben, erhalten Sie ein bescheidenes Wissensgrad, aus dem Sie zu einer überlegenen Bühne kommen können.