Pandas -Schnittfunktion

Mohamed Flore

In der Datenanalyse sind numerische Daten allgegenwärtig. Häufig können Sie numerische Daten begegnen, die bei extrem großen Größen kontinuierlich oder stark verzerrt sind. Es könnte im Allgemeinen vorzuziehen sein, die Daten in unterschiedliche Zeiträume zu ordnen. Sobald die Daten in nützliche Abteilungen unterteilt sind, können die beschreibenden Statistiken effektiver durchgeführt werden.

Die Umwandlung der statistischen Daten in Datensätze ist ein Kinderspiel mit der integrierten Cut () -Funktion von Pandas. Nur die eindimensionalen Array-ähnlichen Elemente sind mit der Cut () -Methode kompatibel. Wenn wir eine Reihe numerischer Daten haben und eine statistische Bewertung durchführen müssen, ist die Cut () -Methode praktisch.

Stellen wir uns zur Illustration vor, dass wir eine Reihe von Werten von 5 bis 15 erhalten. Dann teilen wir diese Zahlen in 2 Kategorien ein und klassifizieren sie. Wir bezeichnen diese Sammlungen als Behälter. Infolgedessen trennen wir diese Daten in die Behälter 1 und 2, die 5 bis 10 bzw. 10 bis 15 sind. Mit beiden Behältern können wir bewerten, welche Zahlen größer sind und welche kleinen sind. Daher sind 10 bis 15 größer als 5 bis 10 und umgekehrt. Dies führt zu den Begriffen „Tiefs“ und „Höhen“, die sich auf die niedrigeren bzw. die größeren Werte beziehen.

Dieser Ansatz wird als Markierung der Daten mit Pandas 'cut () -Technik bezeichnet. Verwenden Sie die Cut () -Funktion, wenn Sie die Daten jemals in Segmente unterteilen und die Zahlen in Mülleimer eingeben müssen. Die genannte Methode ist auch vorteilhaft, um einen unendlichen Wert in kategoriale Daten umzuwandeln.

Pandas cut () Methodensyntax

Das eindimensionale Array, das in den Behälter platziert werden mussXSymbol. Für die Klassifizierung “,“Behälter”Definiert die Bingrenzen. Der "RechtsGibt an, ob die Grenze rechts beibehalten werden sollte oder nicht; Die Standardeinstellung ist wahr. Der "Etiketten”Hilfe bei der Darstellung und Klassifizierung der Behälter entweder Hochs oder Tiefs. Es gibt Anweisungen für die Kennzeichnung der zurückkehrenden Behälter und sollte die genaue Größe als die der daraus resultierenden Mülleimer haben. Boolesche oder Arrays sind beide in Etiketten akzeptabel. Der "RetbinsStellen Sie fest, ob die Behälter zurückgegeben werden sollen oder nicht. Der Begriff "Präzision”Beschreibt die Genauigkeit, die beim Aufbewahren und Präsentieren der Etiketten für die Mülleimer verwendet wird. Der "am niedrigsten einschließenBestimmt, ob das anfängliche Intervall umfassend bleibt oder nicht. Wann immer die Grenzen der Mülleimer nicht charakteristisch sind, “Duplikate”Legen Sie an, ob Sie einen ValueError werfen oder ein nichtdistantes Entfernen entfernen sollen.

Beispiel 1: Segmentierung von Werten in Behälter

Wir beginnen die praktische Demonstration der Funktion pandas cut () mit dem grundlegenden und einfachen Beispiel, um die Werte eines Datenrahmens in die Behälter zu setzen, indem sie segmentieren.

Das erste, was Sie tun müssen, bevor Sie an der Arbeit am Hauptcode arbeiten, ist, die erforderlichen Bibliotheken in Python zu importieren. In dieser Illustration haben wir zwei Python -Bibliotheken importiert, die "Panda" und "Numpy" sind.

Die Pandas -Bibliothek ermöglicht es uns, die Pandas -Funktionen einschließlich der Cut () -Funktion zu nutzen, die heute unser Diskussionsthema ist. Während die andere Bibliothek, die wir importiert haben. Um das DataFrame -Objekt zu füllen, verwenden wir den Numpy, um die willkürlichen Ganzzahlen zu erstellen.

Jetzt beginnen wir mit dem Hauptcode, der im vorherigen Bild zu sehen ist.

Hier haben wir eine Variable als "new_df" erstellt, die ein Array von zufällig generierten Zahlen speichert. Der „PD.DataFrame ”wird aufgerufen, um einen Datenrahmen zu generieren. Es sind 2 Parameter erforderlich: den Spaltentitel „Wert“ und der „NP.willkürlich.Randint ”-Funktion. Das „NP.willkürlich.Randint ”generiert zufällige Zahlen für den definierten Datenrahmen. Es dauert drei Parameter - Mindestwert, Maximalwert und die Länge/Größe des Arrays. Wir haben den Mindestwert als 5 und den maximalen Wert als 50 definiert, und die Länge des Arrays ist auf 10 eingestellt. Es erzeugt also 10 Zufallszahlen von 5 bis 50. Anschließend verwendeten wir den Ausdruck "print ()", um den Datenrahmen "new_df" zu drucken.

Hier sehen Sie einen Datenrahmen mit der Spalte „Werte“ mit 10 Werten.

Jetzt erstellen wir eine andere Spalte als "value_bins" im vorhandenen Datenrahmen, ich.e. NEW_DF. Wir nennen dann die Pandas Cut (). Wir übergeben die Parameter an die Schnittmethode. Dem "X" wird der Name des DataFrame/Array zugewiesen, den wir in den Bin legen müssen. In unseremik. Der zweite Parameter des von uns verwendeten Schnittparameters ist der „Bin“, um die Kanten des Behälters zu definieren. Hier möchten wir die Daten in 4 Behälter aus (5, 20], (20, 30], (30, 40], (40, 50] unterteilt, (40, 50].

In der letzten Druckanweisung haben wir die Funktion „Unique ()“ bezeichnet, die ein Array von eindeutigen Werten erzeugt.

Das Ausgabebild zeigt den DataFrame mit Bin an. Sie können feststellen, dass „20“ auch dem Behälter hinzugefügt wird. Es ist ein Ergebnis der Standardeinbeziehung der rechten Kante. Wenn wir es nicht brauchen, verwenden Sie die methode cut () mit der rechten = falschen Option.

Beispiel 2: Kennzeichnung der Mülleimer

Wir können den Behältern mit der Pandas cut () -Funktion Etiketten hinzufügen.

Zu Illustrationszwecken haben wir einen Datenrahmen mit der Pandas -Datenfunktion erstellt, wie wir im vorherigen Beispiel erstellt wurden. Dieser DataFrame enthält eine Spalte „Nummer“, in der ein Array mit der Größe 10 mit zufällig generierten Werten von 11 bis 32 gespeichert ist. Anschließend erstellen wir eine andere Spalte im selben Datenrahmen und nennen es "numbers_labels". Wir berufen die Pandas cut () -Funktion. In dieser Funktion erwähnen wir den Namen der Spalte unseres Datenrahmens, um die Funktion cut () anzuwenden. Da wir die Daten in 2 Behälter schneiden und segmentieren müssen, liefern wir 2 Grenzen des Bin als (11, 22], (22, 32].

Das nächste ist, die Etiketten der Mülleimer zu definieren. In dem Argument „Beschriftungen“ bestehen wir die beiden Ausdrücke als „Tiefs“ und „Höhen“.

Wir verwenden das gleiche Verfahren wie zuvor, aber zusätzlich zur Teile der Ergebnisse in Behälter, die die Behälter nun als Höhen und Tiefs bezeichnen.

Die statistischen Werte werden in Behälter unterschieden. Dann können wir beobachten, welche Zahlen größer sind und welche kleiner sind. Im Funktionsaufruf von cut () setzen wir das rechte = false, weil wir 10 ein Element von Höhen sein müssen.

Das Ausgabebild zeigt die Behälter mit „Tiefs“ und „Hochs“ -Getiketten an. Die kleinen Werte werden als Tiefst.

Abschluss

Dieser Artikel basiert auf der Funktion pandas cut ()). Es enthält die Einführung in die Funktion pandas cut () sowie die Notwendigkeit, diese Methode zu verwenden. Wir haben alle notwendigen Details erläutert und Sie mit den Grundlagen der Cut () -Funktion vertraut gemacht. Wir haben jeden Parameter dieser Funktion in leicht verständlichen Begriffen ausgearbeitet. Wir haben die auf Spyder implementierten praktischen Codebeispiele durchgeführt, damit Sie diese Methode mit ihnen üben können. In ähnlicher Weise können Sie die anderen Parameter der Cut () -Funktion üben. Wir haben uns absichtlich bemüht, Ihnen die beste und praktischste Lernübung zu bieten und Ihnen dabei zu helfen, neue Konzepte in der Programmierung zu lernen.

Python

Etiketten der Seeborn -Achse

Die „Äxte.set () ”-Funktion, Matplotlib -Bibliotheksfunktionen oder die Funktionen„ set_xlabel () “u...

Mohamed Flore

Python

Python Nicht alle Argumente, die während der String -Formatierung konvertiert wurden

Dieser Fehler kann durch Korrektur der Syntax des % -Operator....

Prof. Dr. Julien Plank

Python

Pandas read_csv multiprocessing

Verbesserung der Datenbelastungsgeschwindigkeit, einschließlich ihrer Vorteile und Einschränkungen d...

Christopher Lammert