Pandas DataFrame -Abfrage

Pandas DataFrame -Abfrage
Das Python -Paket macht es zu einer großartigen Sprache für die Durchführung von Datenanalysen. Eines der Programme, die es ermöglichen, Daten erheblich zu erfassen und zu analysieren, ist Pandas. Wir haben einen Datenrahmen und filtern die Daten nach unseren Anforderungen aus diesem Datenrahmen in Pandas. Die Datenanalyse erfordert zahlreiche Filtertechniken. Es gibt zahlreiche Möglichkeiten, die Daten aus dem angegebenen Datenrahmen mit den PANDAS -Methoden zu filtern. Eine von ihnen ist die Methode „Query ()“, die uns hilft, einige Daten aus dem DataFrame zu filtern. Wir können den Datenrahmen abfragen, indem wir die Funktion „query ()“ in Pandas verwenden. Ein Abfrageausdruck wird an die Funktion „query ()“ übergeben und gibt das Ergebnis durch die zurückgegebene Abfrageanweisung zurück. Wir werden die Methode „Query ()“ in diesem Handbuch verwenden und erklären, wie sie in Pandas hilft, die gewünschten Daten aus dem Datenrahmen zu filtern.

Syntax:

Datenrahmen.Abfrage (expr, inplace = false, ** kwargs)

Hier setzen wir die Bedingung als erster Parameter der Methode „Query ()“ ein. Der Eingang ist optional. Wenn wir dies nicht hinzufügen, ist der Standardwert „falsch“, was automatisch angepasst wird. Wir können es auch auf "True" einstellen, das den Datenrahmen aktualisiert.

Jetzt verwenden wir die Methode „Query ()“ in Pandas in diesem Handbuch und werden sie hier erklären.

Beispiel 1:

Wir dämonstart die Methode „query ()“ in Pandas in diesem Leitfaden. Wir verwenden die "Spyder" -App, um den Pandas -Code zu schreiben. Wir sind uns bewusst, dass wir einige Pandas -Methoden als „PD“ importieren müssen. Wir entwickeln die "list_data" und platzieren den "p_name" und "p_age" in die "list_data". Der "P_Name" enthält "Smith, Oscar, Mary, Theo, Teddy und John". Das „P_age“ enthält „50, 33, 56, 29, 45 und 30“ darin. Wir ändern die verschachtelte Liste "list_data" in den Datenrahmen "my_df". Wir ändern es im DataFrame, da wir die Methode „Query ()“ auf den DataFrame anwenden müssen. Diese "my_df" wird hier auch erstellt, die auch angezeigt wird, da wir sie in die folgende Funktion "print ()" einfügen.

Jetzt verwenden wir die Methode „query ()“, um einige Daten zu extrahieren. Wir erhalten die Daten, deren Alter größer als 30 ist. Zu diesem Zweck fügen wir die Bedingung in der Methode "query ()" hinzu und verwenden diese Methode im Druck. Das Ergebnis liefert auch für uns. Jetzt filtert es die Daten, deren Alter größer als 30 ist, und zeigt sie auf der Ausgabe an.

Es gibt zwei Methoden, um den gewünschten Code auszuführen, während wir ihn kompilieren und in "Spyder" ausführen und ". Einer von ihnen ist es, die "Shift+Enter" zu drücken. Die andere Methode besteht darin, das Symbol "Spyder" -App "Run" zu verwenden, um den Code auszuführen. Wir erhalten die angegebene Ausgabe bei der Ausführung. Erstens wird der vollständige Datenrahmen gerendert. Dann filtern wir die Daten aus diesem Datenrahmen, dessen Alter größer als 30 ist. Die gefilterten Daten werden auch im Folgenden angezeigt. Wir filtern diese Daten nur mit der Methode "query ()" in Pandas.

Beispiel 2:

Wir erstellen eine "Player_Data" -Stestliste und fügen eine Spalte "Player_Name" hinzu, in der wir "Emma, ​​Samuel, Robert, Smith, Noah, Jessica und Harper" haben. Als nächstes fügen wir die Spalte "Player_age" hinzu, in der „22, 26, 21, 25, 29, 24 und 28“ enthält. Dann kommt die Spalte "Score_1", die "29, 28, 16, 17, 35, 20 und 15" enthält. Die Spalte "Score_2" enthält "28, 45, 49, 62, 70, 55 und 40". Das "Score_3" enthält "24, 13, 59, 62, 72, 64 und 66". Und das letzte, was wir haben, ist die Spalte "Score_4", die "38, 44, 69, 72, 81, 71 und 79" enthält. Diese Liste "Player_Data" wird mithilfe der PANDAS -Methode in den Datenrahmen umgewandelt. Wir nennen diesen Datenrahmen als "Player_df".

Da fügen wir die folgende "print ()" -Funktion "Player_df" hinzu und zeigen sie an. Jetzt geben wir die Bedingung in die Funktion „query ()“ ein und verwenden diese Methode innerhalb der Print () -Methode, um die Daten zu erwerben, deren „Score_1“ mehr als 20 beträgt. Wir setzen es in „Druck“, was auch das Ergebnis für uns macht. Die Daten, deren "Score_1" mehr als 20 ist, werden jetzt gefiltert und auf der Konsole angezeigt.

Wie Sie sehen können, gibt es nur drei Zeilen, in denen der „Score_1“ größer als 20 ist. Diese Daten „Query ()“ rendert diese Daten nach der Anzeige des vollständigen Datenfrequers auf dem Bildschirm.

Beispiel 3:

Die "fruit_data" wird erstellt. Die "fruit_name" und "fruit_quantity" werden hinzugefügt. Die „Apple, Orange, Mango, Apple, Banane, Apple, Lychee und Apple“ sind unter "Fruits_Name" aufgeführt. Ihre Mengen, die „5 kg, 7 kg, 2 kg, 4 kg, 5 kg, 7 kg, 2 kg und 4 kg“ sind, sind unter "Fruit_Quantity" aufgeführt. Wir verwandeln die verschachtelte Liste "fruits_data" in den DataFrame "fruits_df"."Diese" FRUITS_DF "wird hier gebildet und wird auch angezeigt, da wir es in der folgenden" print () "-Funktion eingeben. Jetzt filtern wir einige Daten mit der Technik "query ()". Wir möchten den „Apple“ aus diesem Datenrahmen filtern, also setzen wir die Bedingung ein, in der der „FRUITS_NAME“ gleich „Apple“ entspricht. Wir zeigen auch die „Äpfel“ am Terminal an.

In diesem Ergebnis werden die Zeilen, die den „Apfel“ enthalten, nach dem gesamten Datenrahmen herausgefiltert. Die gefilterten Daten werden auch in der folgenden Abbildung angezeigt. Wir verwenden die Methode pandas query (), um diese Daten zu filtern.

Beispiel 4:

Wir entwickeln die verschachtelte Liste „result_9“ nach dem Importieren der Pandas -Methode. Wir fügen einer Spalte "Name" zu unserer "result_9th" -Stestliste hinzu und füllen sie mit "Samuel, George, James, Melissa, William, Farnham und Smith". Die Spalte "subJ1" enthält die Werte "47, 30, 54, 71, 68, 16 und AB". Das "SubJ2" wird dann mit den folgenden Werten hinzugefügt: "81, 23, 48, 34, 21, 15 und AB". Die Spalte "SubJ3" kontiert die folgenden Werte: "29, 14, 28, 55, 29, 27 und AB". Die Spalte "subJ4" enthält die folgenden Werte: "59, 27, 58, 75, 59, 17 und AB". Das "SubJ5" enthält die folgenden Werte: "90, 4, 82, 85, 95, 22 und AB". Dann fügen wir auch die Spalte "Pass/Fail" hinzu, die den Status "Pass" und "Fail" der Schüler enthält.

Wir verwenden die PANDAS -Technik hier, um diese Liste "result_9th" in einen Datenrahmen zu konvertieren, den wir als "result_9" bezeichnet habenth_df ”. Das „Ergebnis_9th_df ”wird aufgrund unserer Ergänzung zu der folgenden" print () "-Methode gerendert. Jetzt filtern wir die Daten des Schülers, dessen Name „James“ lautet. Wir setzen diesen Namen als Bedingung der Methode „Query ()“ ein. Wir platzieren den Spaltennamen "Name" und geben ihm "James" gleich. Dann speichern wir die Daten des „James“ -Studenten im „DF2“. Dann platzieren wir diesen "DF2" in den "Druck", um die Daten von "James" anzuzeigen.

Der erste DataFrame enthält das Ergebnis von 7 Studenten, die wir dem DataFrame hinzufügen. Wir extrahieren die "James" -Daten aus diesem Datenrahmen. Auf diese Weise können wir die Daten, die wir aus dem Datenrahmen in Pandas erhalten, leicht extrahieren oder filtern.

Abschluss

Dieser Leitfaden ist hier, um die Methode „Query ()“ in Pandas zu untersuchen. Wir haben verschiedene Beispiele in diesem Leitfaden demonstriert und jeweils ausführlich erklärt, um Ihnen ein ordnungsgemäßes Verständnis der Methode „Query ()“ zu vermitteln. Wir haben die Verwendung der Methode „query ()“ zum Filtern der spezifischen Daten aus dem Datenrahmen diskutiert. Zu Ihrem Vorteil werden jedes Beispiel in diesem Leitfaden und die Syntax dieser „Query ()“ -Methode sorgfältig vorgestellt. Sie sollten in der Lage sein, dieses Konzept „Query ()“ in Pandas mit Hilfe dieses Handbuchs zu lernen.