Pandas -Mülleimer

Pandas -Mülleimer
In diesem Tutorial erfahren Sie die beiden verschiedenen Pandas -Methoden, um Ihre Daten abzulenken. Sie können die Daten in gleichgroße und benutzerdefinierte Behälter befestigen. Wenn Sie die Daten in maßgeschneiderte Mülleimer einfügen, können Sie einen Einblick in die klassifizierenden Klassifizierungen der logischen Kategorisierung erhalten. In den gleichen Behältern können Sie die Verteilung einfach verstehen. Das Binning der Daten kann mit den Funktionen Cut () und QCut () durchgeführt werden.

Cut () Funktion

Wenn es erforderlich ist, die Datenwerte in Bins zu sortieren und zu segmentieren, verwenden Sie die Cut () -Methode. Die Cut () -Methode funktioniert nur mit den Objekten wie eindimensionalen Arrays. Die Cut () -Methode führt eine statistische Analyse auf einem großen Satz skalarer/numerischer Daten durch. Diese Funktion kann auch die Elemente eines Arrays in verschiedene Behälter umwandeln.

Syntax:

Pandas.Schnitt (Daten, Mülleimer, rechts, Beschriftungen, Retbins)

Parameter:

  1. X: Eindimensionales Array; Das Array, das wir abbinden wollen.
  2. Mülleimer: Behälterkanten werden für die Segmentierung definiert.
  3. Rechts: Dies wird standardmäßig auf wahr eingestellt. Es zeigt an, ob die rechte Kante der Behälter enthalten ist oder nicht
  4. Etiketten: Kann ein Bool oder ein Array sein und es ist optional. Die Etiketten für die nachgefüllten Behälter sind angegeben. Die Länge muss mit den produzierten Behältern übereinstimmen. Wenn es falsch ist, werden nur die Ganzzahl -Bin -Indikatoren zurückgegeben.
  5. Retbins: Bool, standardmäßig falsch falsch. Ob die Behälter zurückgegeben werden oder nicht. Wenn die Behälter als Skalar geliefert werden, ist es nützlich.

Beispiel 1: Mit dem Parameter von Bins
Lassen Sie uns einen Datenrahmen haben, der 12 Ganzzahlen in der Spalte „Werte1“ enthält. Erstellen Sie 8 Behälter im Bereich von jeweils 15 und speichern Sie die Behälter in der Spalte „Mülleimer“.

Pandas importieren
numerisch = pandas.DataFrame ('values1': [12,34,56,44,45,34,45,32,67,89,100,34])
drucken (numerisch)
# 8 Mülleimer erstellen
numerisch ['Bins'] = Pandas.Cut (numerisch ['values1'], Bins = [1,15,30,45,60,75,90,105])
drucken()
drucken (numerisch)
drucken()
print (numerisch ['Bins'].einzigartig())

Ausgang:

Erläuterung:
Die Behälter werden für alle Werte erstellt. Wir zeigen auch die Bin -Größen mit der Funktion "Unique ()) an. Jetzt können Sie sehen, dass ein Behälter für jeden Wert zugewiesen wird.

Beispiel 2: Mit dem Parameter der Etiketten
Erstellen Sie 5 Behälter im Bereich von jeweils 10 und speichern Sie die Behälter in der Spalte „Mülleimer“ für den Datenrahmen mit 7 Zeilen.

Pandas importieren
numerisch = pandas.DataFrame ('values1': [2,5,12,32,20,3,10])
# Erstellen Sie 5 Behälter und geben Sie Etiketten für jeden Behälter an.
numerisch ['Bins'] = Pandas.cut (numerisch ['values1'], Bins = [1,10,20,30,40], Labels = ['First', 'Second', 'Third', 'Last'])
drucken()
drucken (numerisch)

Ausgang:

Erläuterung:
Die Behälter werden für alle Werte erstellt.

  1. Für den [1-10] Bin ist das Etikett "First". Die Werte 2, 5, 3 und 10 fallen unter den ersten Behälter.
  2. Für den [11-20] Bin ist das Etikett "zweiter". Die Werte 12 und 20 fallen unter den zweiten Behälter.
  3. Für den [21-30] Bin ist das Etikett "dritter". In diesem Bereich sind keine Werte vorhanden.
  4. Für den [31-40] Bin ist das Etikett "Letzte". Der Wert 32 fällt unter diesen Behälter.

Qcut () Funktion

Die QCUT () -Funktion ist als „quantilbasierte Diskretisierungsmethode“ bekannt. Dies bedeutet, dass QCUT () verwendet wird, um die gleich großen Behälter zu erstellen, indem die zugrunde liegenden Daten geteilt werden. Die QCUT () -Funktion ist auch als "quantilbasierte Diskretisierungsfunktion" bekannt. Dies bedeutet, dass der QCUT () verwendet wird, um die zugrunde liegenden Daten in die Behälter gleicher Größen zu unterteilen.

Syntax:

Pandas.Schnitt (Daten, Q, rechts, Beschriftungen, Retbins)

Parameter:

  1. X: Eindimensionales Array, das Array, das wir abbinden wollen.
  2. Q: Anzahl der Quantile.
  3. Rechts: Dies wird standardmäßig auf wahr eingestellt. Es zeigt an, ob die rechte Kante der Behälter enthalten ist oder nicht.
  4. Etiketten: Kann ein Bool oder ein Array sein und es ist optional. Die Etiketten für die nachgefüllten Behälter sind angegeben. Die Länge muss mit den produzierten Behältern übereinstimmen. Wenn es falsch ist, werden nur die Ganzzahl -Bin -Indikatoren zurückgegeben.
  5. Retbins: Bool, standardmäßig falsch falsch. Ob die Behälter zurückgegeben werden oder nicht. Wenn die Behälter als Skalar geliefert werden, ist es nützlich.

Beispiel 1:
Lassen Sie uns einen Datenrahmen haben, der 12 Ganzzahlen sowohl in "Werten" als auch in "valuer2" -Säulen enthält. Erstellen Sie 2 Quantile für beide Spalten.

Pandas importieren
numerisch = pandas.DataFrame ('values1': [12,34,56,44,45,34,45,32,67,89,100,34],
'Werte2': [11,22,33,44,55,66,77,88,99,100,12,12]))
drucken (numerisch)
# Erstellen 2 Quantile für Werte1 -Spalte
numerisch ['Binwerte 1'] = Pandas.QCUT (numerisch ['values1'], 2)
# 2 Bins für die Werte -1 -Spalte erstellen
numerisch ['Bin -Werte 2'] = Pandas.QCUT (numerisch ['Werte2'], 2)
drucken()
drucken (numerisch)

Ausgang:

Erläuterung:
Wir haben 2 Quantile für jede Spalte erstellt. Jetzt können Sie sehen, dass jedes Quantil eine gleiche Anzahl von Werten hat.

  1. In der Spalte „Werte1“ sind die Quantile (11.999, 44.5] und (44).5, 100.0]. Es gibt 6 für beide Quantile.
  2. In der Spalte "values2" sind die Quantile (10.999, 49.5] und (49).5, 100.0]. Es gibt 6 für beide Quantile.

Beispiel 2: qcut () vs cut ()
Lassen Sie uns einen Datenrahmen haben, der 12 Ganzzahlen sowohl in "Werten" als auch in "valuer2" -Säulen enthält. Erstellen Sie nun mit Cut () zwei Mülleimer. Und mit qcut () erstellen 2 Quantile für die Spalte „Werte2“.

Pandas importieren
numerisch = pandas.DataFrame ('values1': [12,34,56,44,45,34,45,32,67,89,100,34],
'Werte2': [11,22,33,44,55,66,77,88,99,100,12,12]))
# Erstellen 2 Quantile für Werte2 Spalte
numerisch ['qcut ()'] = pandas.QCUT (numerisch ['Werte2'], q = 2)
# 2 Bins für Werte2 Erstellen
numerisch ['cut ()'] = pandas.cut (numerisch ['values2'], Bins = 2)
print (numerisch ['qcut ()'])
drucken()
print (numerisch ['cut ()'])

Ausgang:

Erläuterung:
Jetzt sehen Sie den tatsächlichen Unterschied:

Die qcut () gruppiert die Daten in gleiche Teile. Sechs (6) Werte kommen unter (10.999, 49.5] und weitere 6 unter (49.5, 100.0]. Während in cut () 7 Werte unter (10) kommen (10).911, 55.5] und weitere 5 Werte kommen unter (10.911, 55.5].

Abschluss

Wir haben über die Funktionen Cut () und QCut () besprochen, um die Daten in Pandas Python abzustimmen. Wir haben die Syntax beider Funktionen gesehen und ihre Parameter beschrieben, um Ihnen bei der Verwendung dieser Funktionen zu helfen. In den Beispielen dieses Tutorials haben wir Ihnen gezeigt, wie Sie die Daten in Behälter unterteilt, die Behälter beschriften und die Binning-Daten mit gleich großer Größe unter Verwendung von Cut () und QCut () verwenden können. Jetzt können Sie die Daten möglicherweise selbst mit diesen Funktionen abbinden.