Pandas faktorisieren

Pandas faktorisieren

"Pandas" ist die leistungsstärkste Python -Bibliothek für die Arbeit mit DataFrames. Es dient einer Vielfalt von Zwecken. Eine davon ist die PANDAS -Funktion „faktorisieren ()“. Wir müssen häufig eine bereitgestellte Variable in Zahlen konvertieren, insbesondere bevor wir an Algorithmen weitergegeben werden, die nur numerische Eingaben akzeptieren. Mit der PANDAS -Methode „Faktorize ()“ können Sie Strings leicht in Zahlen umwandeln. Es identifiziert die unterschiedlichen Werte des Arrays und gibt sie als numerische Zahl zurück. In Pandas transformiert die Funktion „Faktorize ()“ ein Objekt in eine kategoriale Variable. Dies ist nützlich, um eindeutige Werte zu identifizieren.”

Die Syntax für die Verwendung der PANDAS -Methode „Faktorize ()“ ist unten bereitgestellt:

Die Syntax zeigt uns vier Parameter dieser Funktion. Lassen Sie uns diese Parameter kurz beschreiben.

Der Parameter "Werte" impliziert ein eindimensionales Array wie eine Liste. Der "Sortieren" Der Parameter wird verwendet, um die Assoziation zu halten, unterschiedliche Werte zu sortieren und Swap -Codes zu sortieren. Es akzeptiert einen BOOL -Wert. Es ist standardmäßig auf false gesetzt. Der "Na_Sentinel" bezieht sich auf den Wert, der als „nicht gefunden“ gekennzeichnet werden sollte. Wenn keine, wird die NAN nicht aus der Unterscheidungskraft der Daten beseitigt. Der "Size_hint" gibt einen Hinweis auf den Hashing Sizer.

Für die Verwendung der Funktion „Faktorize ()“ ist das einzige obligatorische Argument „Werte“, die "Werte" sind. Alle anderen Funktionen sind optional.

Zwei Objekte, "Codes" Und "einzigartig", werden durch die Funktion „Faktorize ()“ zurückgegeben. Der Begriff „Codes“ bezieht sich auf ein numerisches NDArray, das als Indexer für „Uniques“ dient, während die gültigen eindeutigen Werte als „Einheit“ bezeichnet werden.

In seinem Artikel werden wir das Konzept der Erstellung von Faktoren in der Python -Programmierung unter Verwendung der Pandas „Faktorize ()“ -Methode mit einigen seiner meist trainierten Parameter untersuchen.

Beispiel Nr. 1: Verwendung der Methode "pandas" faktorize () "

Die praktische Implementierung des Python -Programms zur Ausführung der PANDAS -Methode „Faktorize ()“ wird in dieser Abbildung durchgeführt.

Das Werkzeug, das wir hier für die Zusammenstellung der Python -Codes verwenden, ist „Spyder“. Dieses Tool erfüllt unsere Systemanforderungen am besten. Wir haben das Tool gestartet. Die Benutzeroberfläche ist erschienen, und wir können unser Python -Skript darauf schreiben. Das erste, was wir in der Python -Datei gemacht haben, war, die Bibliothek zu laden, auf die wir auf ihre Methoden zugreifen können. Für die Anforderungen unseres Falls müssen wir die Python -Bibliothek „Pandas“ laden,. Wir haben das Skript für diese Bibliothek als "Pandas als PD importieren" geschrieben. Der Alias ​​„PD“ arbeitet, um uns die „Pandas“ -Methoden zu ermöglichen, indem wir die Abkürzung anstelle der vollständigen Form eingeben.

Das Pandas -Toolkit wird in die Python -Datei geladen. Jetzt müssen wir zum nächsten Schritt umziehen. In der nächsten Zeile des Skripts haben wir eine Liste von Strings generiert. Wir haben eine Variable „MyList“ erstellt, um den Inhalt dieser Liste in sie zu speichern, damit wir später darauf zugreifen können. Die Saiten, die wir in dieser Liste gespeichert haben, sind "y", "y", "x", "z", "y", "x", "z" und "z". Sie können sehen, dass diese Liste wiederkehrende Werte enthält. Insgesamt enthält es acht Werte darin. Um diese Liste der Zeichenfolgen auf dem Bildschirm anzuzeigen, haben wir Pythons "print ()" -Funktion verwendet. Wir haben zuerst den Text "Dies ist unsere Liste der Zeichenfolgen" zur Anzeige "Print ()" zur.

Um das oben geschriebene Skript zu kompilieren, klicken Sie auf die Schaltfläche „Datei ausführen“. Sie sehen eine auf dem Terminal angegebene Liste mit acht Werten.

Um nun die Faktorisierung dieser Liste zu finden, haben wir eine Pandas -Methode „PD.faktorisieren()". Diese Methode gibt uns zwei Arrays zurück. Der erste wird von Codes sein, während der zweite die eindeutigen Werte in der Liste aufweist.

Wir haben zwei Variablen "cod" und "uniq" erstellt. Der „Kabeljau“ speichert die von der PD generierten Codes.Faktorisieren Sie () () ”-Methode für die angegebene Liste. Das „Uniq“ enthält die Werte, die in der Liste eindeutig sind. Wir haben die „PD“ angerufen.Faktorisieren Sie () () "Methode und bestanden die oben erstellte Liste" MyList "als Parameter für diese Funktion. Diese Funktion generiert Codes für jeden Wert in der Liste und speichert sie in der Variablen „COD“. Und es extrahieren die eindeutigen Werte aus der Liste und platziert sie in die Variable „Uniq“. Dann haben wir die Methode "print ()" bezeichnet, um zuerst den Text "Die Codes für die angegebene Liste" anzuzeigen: "und dann den Inhalt der Variablen" COD ". Die nächste Funktion „Print ()“ wird verwendet, um den Text „Die Einheitlichkeiten für die angegebene Liste zu sehen“ und dann die Daten aus der Variablen „Uniq“.

Die auf dem Terminal erzeugte Ausgabe zeigt uns zwei Arrays. Das erste Array hat Werte als "0", "0", "1", "2", "0", "1", "2" und "2". Die Methode „Faktorize ()“ hat die Zeichenfolgen in numerische Werte umgewandelt. Das "y" wird durch "0" ersetzt, "x" durch "1" ersetzt und "Z" durch "2" ersetzt. Das zweite Array, das es zurückgegeben hat, ist das Array der eindeutigen Werte, die "y", "x" und "z" sind.

Beispiel Nr. 2: Verwendung der PANDAS -Methode „Faktorize ()“ zum Sortieren der Werte

Diese Demonstration dient zum Erlernen der Technik des Sortierens der Werte in den resultierenden Arrays, die aus der „PD“ erzeugt wurden.faktorisieren Sie () ”Methode.

Wir haben die oben erstellte Liste verwendet, um die Sortier- und Mischungstechnik dieser Funktion zu erklären. Hier haben wir zwei Variablen erstellt, "Shuffle" und "Sortieren". Die Variable "Shuffle" speichert die gemischten Codes aus der Variablen "MyList", während die Variable "Sortier" die sortierten eindeutigen Werte der angegebenen Liste hat. Wir haben diesen Variablen die Ausgabe des Aufrufens der „PD“ zugewiesen.faktorisieren Sie () ”Methode.

Der „PD.Faktorisieren Sie () () ”-Methode mit zwei Parametern aufgerufen. Der erste Parameter ist "Werte", der der Name der Liste "MyList" ist und der zweite Parameter "sortieren" ist. Der Parameter „Sortier“ sortiert die eindeutigen Werte und mischt dann die Codes entsprechend. Standardmäßig ist es auf "false" festgelegt, wir haben die Einstellungen geändert und sie auf "True" gesetzt, um Sortierung durchzuführen. Wir haben zwei "print ()" -Funktionen verwendet. Der erste, der den Text "Die gemischten Codes für die angegebene Liste" zeigt: "und dann die Daten in der Variablen" Shuffle ". Die andere Methode „Print ()“ muss den Text „Die sortierten Einflüsse für die angegebene Liste sind:“ gefolgt von dem Inhalt der Sortiervariablen der "Sortiervariablen".

Wenn das Ergebnis am Terminal präsentiert wird, erhalten wir neue Arrays. Das erste Array hat die Liste der numerischen gemischten Werte als "1", "1", "0", "2", "1", "0", "2" und "2". Für Ihre Bequemlichkeit haben wir auch die nicht gescheitelten Codes gedruckt, damit Sie den Unterschied leicht verstehen können. Das zweite Array hat einzigartige Werte als "x", "y" und "z" sortiert. Die eindeutigen Werte in der Liste sind jetzt in alphabetischer Reihenfolge sortiert. Sie können es mit dem unsortierten Array vergleichen, das die Einheitlichkeiten als „y“, „x“ und „z“ hat.

Abschluss

In diesem Artikel haben wir uns darauf konzentriert, die Technik zu lernen, die Saiten in Zahlen zu faktorisieren. Zu diesem Zweck haben wir die Pandas „PD“ verwendet.faktorisieren Sie () ”Methode. Dieser Ansatz ist sehr nützlich, wenn Sie Daten gruppieren und in numerische Werte übersetzen. Wir haben das Verfahren zur Verwendung dieser Methode ausgearbeitet und ihre verschiedenen Parameter beschrieben, die bei Bedarf ausgeübt werden können. Wir haben die praktische Implementierung der Python -Skripte durchgeführt, um die Anwendung dieser Methode zu verstehen. Wir haben die Beispielcodes sowie deren Ausgabe in diesem Tutorial gemacht. Wir empfehlen dringend die praktische Ausübung dieser Techniken, die von grundlegend bis zu komplexen Programmen begangen werden, um das beste Verständnis der Pandas -Techniken zu erreichen.