Pandas Qcut

Pandas Qcut

"Das" Python "enthält viele Bibliotheken, und wenn wir Daten analysieren oder manipulieren wollen. Die "Pandas" -Bibliothek wird im Bereich Data Sciences verwendet und auch in Aktivitäten für maschinelles Lernen verwendet. Der "Pandas" -Datenfreame hilft uns beim Speichern der Daten. In "Pandas", wenn wir Datenbinning wollen, verwenden wir die Methode "qcut ()". Die Methode „QCUT ()“ wird zum Umwandeln kontinuierlicher Merkmale in kategorische Umwandlung verwendet. Wir können verschiedene Arten von Parametern in dieser Methode „QCUT ()“ hinzufügen, um verschiedene Arten von Ergebnissen zu erhalten. In diesem Tutorial geht es um die Methode „QCut ()“, und wir werden hier die Methode „QCUT ()“ ausführlich erklären. Wir werden Ihnen erklären, wie wir das Datenbinn mit Hilfe der Funktion „QCUT ()“ in „Pandas“ in diesem Tutorial machen.”

Beispiel # 01

Wir werden die Methode „QCut ()“ in diesen Codes anwenden und diese Codes in der "Spyder" -App durchführen. Wenn wir mit den „Pandas“ arbeiten müssen, können wir nur auf die Funktionen zugreifen, wenn wir die „Pandas“ -Bibliothek in unsere Codes importieren. Zuerst setzen wir "Import" und dann schreiben wir "Pandas als PD". Jetzt müssen wir die Methode „QCUT ()“ anwenden. Dafür erstellen wir hier den Datenrahmen. Wir konstruieren "random_df", das "r_id, r_name und r_age" als Spalten enthält, und auch in "r_id" platzieren wir "r_17, r_21, r_24, r_29, r_31, r_34, r_44, r_46, r_50, r_51, r_55, R_61, r_73 und r_81 ”. Dann fügen wir "Theodore, Teddy, Noah, Leo, Ivy, Henry, Freddie, Evelyn, Ava, Willow, Theo, Oscar, Jacob und Harper" in der Spalte "r_name" hinzu. Danach fügen wir "21, 33, 12, 43, 22, 7, 21, 51, 72, 19, 10, 10, 9, 37 und 40" in der Spalte "r_age" ein. Jetzt verwenden wir den "print ()", der "random_df" enthält, und es hilft dabei, den Datenrahmen "random_df" zu rendern. Wir haben gerade den Datenrahmen erstellt und wenden die Methode „QCut ()“ noch nicht an.


Das "Run" -Symbol hilft uns bei der Ausführung der Codes. Wenn wir dieses Symbol „Ausführen“ drücken, wird das Ergebnis dieses Code am Terminal der "Spyder" -App angezeigt. Der Datenfarm „random_df“ wird als Ergebnis des Codes angezeigt, den wir in diesem Beispiel geschrieben haben. Jetzt werden wir die Methode „QCut ()“ anwenden und auch ihr Ergebnis zeigen.


Wir verbließen die Daten hier. Wir verblieben die Spalte "r_age" und platzieren die "PD".QCUT () ”-Methode, die Methode von„ Pandas “ist, die beim Datenbinn hilft. In dieser Methode fügen wir den Namen des Datenrahmens und auch den Spaltennamen ein, auf den wir diese "qcut ()" -Methode anwenden möchten. Wir setzen auch den Wert von „q“ auf „5“ und er wird zum Schneiden der Daten der Spalte „r_age“ in fünf gleiche Quantile verwendet. Wir fügen die Methode "QCut ()" in die "print ()" hinzu, sodass auch die Binning -Daten auf dem Terminal angezeigt werden.


Hier wird die Daten nach dem Binning angezeigt und schneidet die „r_age“ in fünf Quantile aus. Es zeigt auch die Kategorien an, in denen die Spaltendaten „r_age“ abgeskt werden. Die kategoriale Reihe repräsentiert die Behälter "r_age".


Wir können das Etikett auch für diese Behälter einstellen. Wir fügen diese Bin -Etiketten hinzu, damit sie leicht zu interpretieren sind. Wir fügen der Spalte "r_age_qcut" der Spalte "random_df" hinzu, in der wir die Beschriftungen dieser Behälter hinzufügen. Wir verwenden wieder die „PD.qcut () ”Methode zur Kennzeichnung. Wir fügen die Etiketten hinzu, die „wenig, nicht so wenig, mittelmäßig, hoch und höchst“ sind. Dann setzen wir wieder "random_df" in "print ()" ein ".


Alle Behälter werden in diesem Ergebnis gekennzeichnet und präsentiert. Die Spalte "r_age_qcut" wird in diesem Datenrahmen angezeigt, in dem gekennzeichnete Behälter angezeigt werden.

Beispiel # 02

Zum Erstellen des DataFrame fügen wir zunächst "Noten" hinzu, die "3, 6, 8, 7, 2, 5, 1, 9, 4, 7 und 8" sind. Dann fügen wir Namen von Studenten in "Studenten" hinzu, die "Peter, Bromley, James, David, Verbündete, John, James, Samuel, William, Howard und Alexander" sind. Dann generieren wir die "grade_df", in der wir die "PD" hinzugefügt haben.DataFrame () ”-Methode und in dieser Methode setzen wir„ STD_NAME “ein, die als Spaltenname angezeigt werden, und weisen deren Werte von„ Studenten “zu. Anschließend setzen wir die "student_grades" als Spaltenname des Datenrahmens und weisen hier auch „Noten“ zu, die wir oben erstellt haben. Danach haben wir den "print ()", in dem wir "grade_df" zum Drucken hinzufügen.


Der Datenrahmen mit zwei Spalten wird im Ergebnis dieses Codes angezeigt. Jetzt werden wir die Methode „QCUT ()“ auf die Spalte „student_grades“ anwenden, um die Daten der Spalte dieser Spalte zu verblassen.


Wir fügen hier eine neue Spalte "Note" hinzu, in der wir „PD“ angewendet haben.qcut () ”zur Spalte„ student_grades “und wir haben auch„ 4 “für den Wert des„ Q “verwendet, sodass die Daten in vier gleiche Quantile schneiden. Danach geben wir diese Quantile hier an, indem wir Werte in „q“ platzieren, die „0“ sind, .4, .8 und 1 ”. Dann zeigen wir dies auch an. Jetzt kennzeichnen wir diese Binned -Daten, und die Beschriftungen, die wir hier hinzufügen, sind „D, C, A und B“ und werden auch in der Spalte „Note“ gespeichert.


Hier werden die Daten nach dem Binning hier in der Spalte „Grade“ angezeigt und schneiden die Daten der "student_grades" in vier gleiche Quantile aus.


Der Datenrahmen, den wir nach der Anwendung der Methode „QCUT ()“ erhalten und die Quantile angegeben haben, wird in diesem Ergebnis angezeigt.


Nach dem Hinzufügen der Beschriftungen zu diesen Behältern werden in diesem Ergebnis auch in der Spalte „Note“ angezeigt, und Sie können sehen, dass die Beschriftungen gemäß den Bin -Werten zugewiesen werden.

Beispiel # 03

Wir können auch die Methode „QCut ()“ auf die Daten der CSV -Datei anwenden. Zuerst haben wir zuerst die Daten der CSV -Datei mit Hilfe der Methode „Read_csv ()“ gelesen. Wir lesen die Daten des „Office2.CSV ”-Datei, und dann werden die Daten dieser Datei in" Office_DF "platziert. Diese Methode konvertiert die Daten der "Office2" -Datei in den Datenrahmen und speichert sie in "Office_DF". Anschließend zeigen wir diese Daten auch, indem wir das "Office_DF" in "print ()" eingeben ". Danach fügen wir eine neue Spalte mit dem Namen "Einheiten_Qcut" hinzu, auf die wir die Funktion „PD anwenden“ anwenden.qcut () ”zur Spalte„ Einheiten “.

Zusätzlich setzen wir den Wert der Variablen „Q“ auf „5“, wodurch die Daten in fünf gleiche Quantile unterteilt werden. Die Daten werden nach dem Schneiden von 5 gleichen Quantilen in der Spalte „Units_qcut“ gespeichert, und diese Spalte wird auch zum "Office_DF" hinzugefügt, und hier wird hier mit "print ()" hier erneut "office_df" gerendert. Wir kennzeichnen diese Binned -Daten jetzt, fügen die Beschriftungen in der Methode "QCUT ()" hinzu, die "Einheit 1, Einheit 2, Einheit 3, Einheit 4 und Einheit 5" sind und sie auch in der Spalte „Etiketten“ speichern. Wir machen diesen Datenrahmen auch, in dem die Spalte „Labels“ hinzugefügt wird.


Die Daten, die wir nach dem Lesen des „Office2.CSV ”-Datei wird hier in Form von DataFrame wiedergegeben. Dann wird die Spalte "Einheiten_Qcut" hinzugefügt, in der die Spalte "Einheiten" angezeigt werden. Danach wird auch die Spalte "Beschriftungen" hinzugefügt, die diesen Banned -Werten die Beschriftungen zuweist. Dies alles wird durch die Verwendung der Methode "QCut ()" in "Pandas" durchgeführt.

Abschluss

Wir haben in diesem Tutorial die Methode „QCUT ()“ im Detail erläutert, das bei der Banning der Daten in „Pandas“ hilft. Wir haben diskutiert, dass die Daten gemäß dem quantilen „Q“ -Wert, den wir in der Methode „QCUT ()“ hinzugefügt haben. Wir haben die Methode „QCUT ()“ untersucht und diese Methode auf die Spalten des Datenrahmens angewendet. Außerdem haben wir diese "QCUT ()" -Methode auf die Daten der CSV -Datei angewendet, nachdem wir die CSV -Dateien gelesen haben. Wir haben das Ergebnis aller Codes in diesem Tutorial vorgestellt, um das Ergebnis der Methode „QCUT ()“ klar zu erklären und zu zeigen.