Pandas kategorisch

Pandas kategorisch
Die in Statistiken verwendeten kategorialen Variablen werden durch die kategorialen Pandas -Datentyp dargestellt. Echtzeitdaten enthalten normalerweise Textspalten mit sich wiederholenden Daten. Es gibt immer einige Wiederholungen in den Merkmalen wie Geschlecht, Blutgruppe und Codes. Sie können als Beispiele für kategoriale angenommen werden. Es gibt nur eine feste und begrenzte Anzahl oder einen begrenzten Bereich möglicher Werte für kategoriale Variablen. Kategoriale Daten haben möglicherweise eine Bestellung zusätzlich zur festen Länge, sie können jedoch keine numerischen Operationen ausführen. In diesem Tutorial lernen wir, wie Sie in Pandas kategoriale Erstellung erstellen und verschiedene Datentypen in kategoriale ändern.

Wann zu kategorisch verwendet werden soll?

In den folgenden Szenarien können wir den kategorialen Datentyp verwenden:

  • Eine Zeichenfolgevariable mit nur wenigen unterschiedlichen Werten. Zum Speichern des Speichers kann die Variable in eine Kategorievariable verarbeitet werden.
  • Die logische Reihenfolgevariable ("eins", "zwei" und "drei") und eine Variable mit lexikalischer Reihenfolge sind nicht gleich. Sortieren und Minimum/Maximum verwenden die logische Reihenfolge im Gegensatz zur lexikalischen Reihenfolge, wenn das Problem in eine Kategorie umgewandelt wird und die Kategorien eine Reihenfolge erhalten.
  • Andere Python -Bibliotheken sollten die Spalten als kategoriale Variablen behandeln (z. B. um geeignete statistische Plottypen oder -funktionen zu verwenden).

So erstellen Sie Pandas -Kategorikale?

Es gibt eine Vielzahl von Möglichkeiten, um in Pandas kategorisch zu erstellen. Einige Funktionen und Attribute zum Erstellen von Kategorikern in Pandas werden in den folgenden Beispielen erörtert:

Beispiel Nr. 1: Erstellen kategoriöser mithilfe der PANDAS -Serie

In Pandas kann eine Kategorik mit der PD erstellt werden.Serie () Funktion. Zum Erstellen einer Serie werden wir zuerst das Pandas -Modul importieren.

Wir haben eine Liste von Zeichenfolgen verwendet ["ASD", "123", "def", "456"] innerhalb der PD.Serie () Funktion als Argument. Wir haben auch den Parameter „DTYPE“ in „Kategorie“ angegeben, um die Daten als kategorisch zu speichern. Betrachten wir die Kategorik, indem wir die Variable „String“ drucken.

Wie in der Ausgabe zu sehen ist, wird unsere Serie durch Angabe der DTYPE = 'Kategorie' in kategorisch konvertiert.

Beispiel Nr. 2: Erstellen kategorischer Datenframe in Pandas

Durch Verwendung von Pandas.DataFrame (dType = ”Kategorie), kategoriale Daten können konstruiert werden. Genau wie die Serie ist das DTYPE -Attribut der Funktion der DataFrame () auf „Kategorie“ eingestellt, um einen kategorialen Datenrahmen zu erstellen. Durch Einstellen von DTYPE = "Kategorie" im DataFrame Constructor können alle Spalten im Datenrahmen während oder nach dem Bau kategorisch gemacht werden. Erstellen wir einen Beispieldatenrahmen, um den Unterschied zwischen gewöhnlichen und kategorialen Datenrahmen anzuzeigen.

Für das Erstellen unseres DataFrame "DF" haben wir zuerst die Pandas und Numpy -Module importiert, um ihre Funktionen und Funktionen zu verwenden. Nachdem wir die Module importiert haben, haben wir ein Wörterbuch „Daten“ mit zwei Schlüssel erstellt, „Col1“ und „COL2“, mit zwei Schlüssel, „Col1“ und „Col2“, die. Das "Daten" -Dictionary wird dann an die PD übergeben.DataFrame () -Funktion zum Erstellen des Datenrahmens „DF“.

Es handelt sich um ein gewöhnlicher Pandas -Datenfrequer mit Spalten, die numerische Daten speichern. Um die Datenatypen der Spalten im Datenrahmen „DF“ zu bestimmen, wird das Attribut dypes verwendet.

Der Datenatyp der Spalten 'Col1' und 'col2' ist "int64". Jetzt zeigen wir Ihnen, wie Sie einen kategorialen Datenrahmen mit denselben Spaltenbezeichnungen und -werten erstellen können.

Wie in diesem Datenrahmen zu sehen ist, haben wir den DTYPE in "Kategorie" angegeben. Lassen Sie uns die Datentypen dieses Datenrahmens überprüfen:

Wie gezeigt, ist der Datentyp der Spalten dieses Datenrahmens "Kategorie". Dies ist also ein kategorischer Datenrahmen.

Beispiel 3: kategoriale Erstellung der Funktion astype () erstellen

Ein Pandas -Objekt kann mit dem „DataFrame" in einen bestimmten DTYPE konvertiert werden.Asttype () ”Methode. Zusätzlich bietet die Asttype () -Methode die Möglichkeit, eine geeignete vorhandene Spalte in einen Kategoriestyp zu ändern. Wenn wir den Datentyp einer bestimmten Datenspalte in einen anderen Datentyp konvertieren müssen, konvertieren wir den DataFrame.Die Funktion von Astype () kann verwendet werden. Zunächst erstellen wir einen Beispieldatenrahmen. Dann werden wir die DataFrame -Spalten in kategoriale Konvertierung konvertieren.

Wir haben unseren Datenrahmen erstellt, indem wir das Wörterbuch innerhalb der PD übergeben haben.DataFrame () -Funktion als Argument.

Wie aus dem vorherigen Datenframe „DF“ zu sehen ist, gibt es drei Spalten, A, B und C, die Werte speichern [1, 3, 5, 7], [2.1, 4.2, 8.3, 16.4] und ["John", "Tim", "Clay", "Mike"]. Um den Datentyp jeder Spalte zu bestimmen, verwenden wir das DTYPES -Attribut.

Der Datentyp der Spalte "A" ist 'int64', während die Datenatypen der Spalte "B" und "C" "Float64" bzw. "Objekt" sind. Jetzt werden wir die Funktion astype () verwenden, um den Datentyp spezifischer Spalten zu ändern.

Im DF.Asttype () -Funktion, wir haben das Python -Wörterbuch mit den Beschriftungen der Spalten „A“ und „C“ als Schlüssel übergeben, und der Datenatyp „Kategorie“ wird als Wert für beide Spaltenbezeichnungen angegeben. Lassen Sie uns überprüfen, ob die Datentypen in die Kategorie geändert werden oder nicht.

Beachten Sie, dass die Spalten "A" und "C" erfolgreich in die Kategorie konvertiert wurden.

Beispiel Nr. 4: Verwenden Sie die Funktion categorical (), um die Kategorik zu erstellen

Wir können kategoriale Variablen in Pandas unter Verwendung der kategorischen () -Funktion erstellen. Zuerst werden wir uns die Syntax der Funktion () ansehen und dann die kategoriale Erstellung verwenden.

Syntax:

Pandas.Kategorisch (Val, Kategorien = keine, bestellt = keine, dType = keine)

Parameter:

Kategorien: Indexartig. Die charakteristischen Kategorien für die kategoriale. Es wird angenommen.

Bestellt (optional): Wenn diese kategoriale als geordnete kategoriale angesehen wird. Wenn wahr, wird die kategoriale Ausgabe sortiert. Bei sortierter Sortierung respektiert ein geordnetes kategorisch.

DTYPE: CategoricalDtype. Eine Instanz, die für kategoriale Verwendung verwendet werden muss.
Lassen Sie uns nun Pandas kategorisch mit der PD erstellen.Kategorische () Funktion. Zunächst werden wir das Pandas -Modul importieren, um unsere kategorische Erstellung zu erstellen.

Wie zu sehen ist, haben wir zwei Kategorien erstellt, "Cat1" und "Cat2", indem wir eine Liste von Werten innerhalb der Klammern der kategorischen () -Funktion übergeben haben. Sie werden in der Ausgabe bemerken, dass kategoriale „Cat1“ aus 3 Kategorien [1, 3, 4, 6] besteht, während kategoriale "Cat2" aus 6 Kategorien ['A', 'D', 'G', 'J' besteht , 's', 'w'].

Lassen Sie uns nun die Ausgabe überprüfen, indem Sie den Parameter "Ordered" auf "True" angeben.

Wie Sie beobachten können, wird die kategoriale Ausgabe nun sortiert [1 < 3 < 4 < 6].

Versuchen wir nun ein anderes Beispiel, wenn der Parameter „Kategorien“ angegeben ist.

In der PD.Categorical () Funktion, die Liste ['1', '2', '3', '2', '1', '4', '2'] wird übergeben, um in kategorische Konvertierung zu konvertieren, während die Liste ['3 ',' 1 ',' 2 '] wird als Parameter „Kategorien“ angegeben. Drucken wir die kategorische „Katze“, um die Ausgabe zu sehen.

Infolgedessen wird jeder Wert, der in der Kategorienliste nicht vorhanden ist. Aus der Liste "Val" ist der Wert '4' in der Argumentliste „Kategorien“ nicht vorhanden, daher wird er als NAN betrachtet.

Sie können auch unterschiedliche Funktionen mit kategorialen Funktionen wie Umbenennen der Kategorien, Anhängen neuer Kategorien, Löschen von Kategorien usw. erfüllen.

Abschluss

In diesem Tutorial haben wir gesehen. Eine kategoriale Variable hat einen festen, typischerweise eingeschränkten Satz möglicher Werte. Nachdem Sie dieses Tutorial durchlaufen haben, sind Sie möglicherweise mit kategorialen in Pandas vertraut und können in der Lage sein, kategoriale selbst zu erstellen. In diesem Tutorial haben wir einige Beispiele implementiert, um Ihnen beizubringen, wie Sie mit Reihen, Datenfunktionen, Funktionen von Asttype () kategorisch und mit der Funktion categorical () () kategorisch erstellen und die Funktion kategorisch ().