Pandas fFill -Funktion

Pandas fFill -Funktion
Die Behandlung der fehlenden Daten ist eine integrale Komponente jeder Datenwissenschaftsstrategie. Beim Umgang mit fehlenden Daten sind häufig die fehlenden Werte ignoriert, Einträge mit fehlenden Datensätzen fallen und die fehlenden Daten einzufüllen. In diesem Tutorial werden wir uns die Pandas -Funktion „DataFrame" ansehen.fFill () ”zum Ausfüllen fehlender Daten.

Pandas ffill () Methode

Mit der Pandas fFill () -Methode können wir den NAN -Wert im Datenrahmen eingeben. Die FFILL steht für die Weiterleitungsfüllung, was bedeutet, dass die Nullwerte durch die Daten aus der vorherigen Spalte oder Zeile ersetzt werden.

Die Syntax für die Verwendung dieser Methode wird hier angegeben:


Die „Achse“ ist die Achse, in der NAN -Werte gefüllt werden können. Sein Standardwert beträgt 0. Dieser Parameter wird hier in unseren Beispielen verwendet.

Mit Hilfe von Beispielen für Python -Programmcode werden wir darüber nachgehen.

Beispiel Nr. 1: Verwendung der FFILL () -Methode zum Ausfüllen der Werte entlang der Zeilen

In dieser Abbildung sehen Sie, wie wir die NAN -Werte in einem Datenrahmen entlang der Indexachse mit der Methode „fFill ()“ füllen werden.

Die praktische Implementierung eines Programms beginnt mit der Auswahl eines geeigneten Ausführungstools. Für dieses Tutorial haben wir das "Spyder" -Tool ausgewählt, um das Beispielpython -Skript in die Praxis umzusetzen. Wenn Sie die Pandas -Bibliothek in unsere Python -Datei laden, können wir alle von Pandas bereitgestellten Funktionen verwenden. "PD" wird im Code verwendet, wo wir "Pandas" als Alias ​​verwenden müssen.

Der zweite Teil des Codes besitzt zwei Operationen; So erstellen Sie einen Datenrahmen mit einigen NAN -Werten unter Verwendung der Pandas „PD.DataFrame () ”-Methode und füllen Sie diese NAN -Werte mithilfe der Funktion" fFill () "aus. Wenn wir den ersten Vorgang in die Hände nehmen, die darin besteht.DataFrame () ”Methode hier. Diese Methode generiert einen Datenrahmen mit angegebenen Werten oder einer CSV -Datei.

Hier erstellen wir den Datenrahmen mit benutzerdefinierten Daten, anstatt eine CSV-Datei zu importieren. Der Datenrahmen wird durch vier Spalten mit Titeln initialisiert: „Grün“, „weiß“, „braun“ und „orange.Die Länge jeder Spalte, die wir hier erstellt haben, beträgt vier. Wir müssen alle Spalten zur gleichen Größe für einen Datenrahmen zur gleichen Größe machen. Unsere erste Datenrahmenspalte "Green" enthält die Werte "7", "1", "keine" und "3". Die Spalte "Weiß" enthält Einträge, die "7", "2", "1" und "9" sind. Die Spalte „Brown“ enthält Werte "2", "6", "8" und "keine", während die Spalte "orange" "keine", "6", "9" und "2" speichert.

Um diesen Datenrahmen zu erhalten, benötigen wir ein Datenrahmenobjekt. Also haben wir es mit dem Namen „visuell“ erstellt und es geschafft, den Datenrahmen zu speichern, den wir aus dem „PD“ konstruiert haben.DataFrame () ”Methode. Um diesen Datenrahmen anzuzeigen, haben wir ihn gerade im "visuellen" Datenrahmenobjekt gespeichert, das wir als "print ()" -Methode der Python -Programmierung bezeichnet haben.


Wenn wir dieses Python -Skript ausführen, auf das wir oben ausgearbeitet haben. Hier können Sie sehen, dass dieser Datenrahmen drei NAN -Werte enthält.


Wir haben den ersten Betrieb des Datenrahmens abgeschlossen. Jetzt werden wir zum anderen Teil wechseln, nämlich diese NAN -Werte zu füllen. Wir werden dies tun, indem wir die Pandas „FFill“ -Methode verwenden.

Wir haben "DataFrame" aufgerufen.fFill () “, um alle NAN -Werte in unserem Datenrahmen zu füllen. Wir haben den Namen unseres Datenrahmens angegeben, den wir erst oben „visuell“ mit dem “erstellt haben.fill () ”Methode. Zwischen den Klammern dieser Funktion wird ein Parameter „Achse“ verwendet. Wir haben es auf "0" gesetzt, was die Zeile- oder Indexachse darstellt. Da wir die Methode „FILL ()“ verwendet haben, um die NAN -Werte entlang der Zeilenachse für diese Abbildung zu füllen. Also haben wir das alles als „visuell geschrieben.fFill (axis = 0) ”und dann in die Methode„ print () “platziert, um den Datenrahmen mit den gefüllten NAN -Werten entlang der Zeilenachse zu drucken.


Hier ist der Ausgangsdatenrahmen. Jeder NAN -Wert wird unter Verwendung des entsprechenden Wertes aus der vorherigen Zeile besiedelt, wenn fFill () über die Index- oder Zeilenachse ausgeführt wird. Sie haben beobachtet, dass die Einträge in der ersten Zeile immer noch NAN-Werte sind. Alle anderen NAN -Werte werden durch Kopieren der entsprechenden Zeilenwerte erfolgreich ersetzt.

Beispiel Nr. 1: Verwenden der FFILL () -Methode zum Füllen der Werte entlang der Spalten

Diese Abbildung zeigt, wie Sie die NAN -Werte in einem Datenrahmen entlang der Spaltenachse füllen, indem Sie die Pandas „FILL ()“ -Methode verwenden. Lassen Sie uns an dieser Technik arbeiten.

Wir haben das "Spyder" -Tool gestartet und begonnen, den Python -Code zu schreiben. Zunächst müssen wir die Voraussetzung für das Programm erhalten, das die Pandas -Bibliothek lädt. Wir müssen diese Bibliothek in eine Python -Datei importieren, weil wir Pandas „PD verwenden werden.DataFrame () ”und„ DataFrame.fFill () ”Methoden in dieser Abbildung, die nur angewendet werden können, wenn wir Zugriff auf diese Bibliothek haben.

Wir müssen einen Datenrahmen mit Pandas „PD verwenden.DataFrame () ”Methode. Die Methode wird mit vier Spalten aufgerufen und initialisiert, die "p1", "p2", "p3" und "p4" sind. Die erste Spalte hier, "P1", hat Werte von "1", "12", "7", "4" und "None". "P2" -Dams sind "13", "9", "keine", "4" und "3". "P3" hat Einträge "keine", "14", "1", "8" und "7". Die in "p4" gespeicherten Werte sind "11", "3", "16", "8" und "None". Wir haben diesen Datenrahmen im Datenrahmenobjekt "Score" gespeichert. Um diesen Datenrahmen auf der Konsole anzuzeigen, haben wir die Methode "print ()" bezeichnet.


Dieser Code -Snippet wird ausgeführt, um den erstellten Datenrahmen anzuzeigen. Hier können Sie beobachten, dass der Datenrahmen vier Spalten hat, und in jeder Spalte haben wir einen NAN -Wert gefunden. Insgesamt haben wir vier Nulleinträge im Datenrahmen.


Um diese Nullwerte entlang der Spaltenachse im Datenrahmen zu füllen.ffill () ”Methode. Wir haben den „DataFrame" aufgerufen.ffill () ”Funktion. Hier haben wir es mit dem Parameter „Achsen“ verwendet und auf „1“ eingestellt, was sich auf die Säulenachse bezieht, da wir die Nullwerte entlang der Spalten für diese Demonstration füllen. Die gesamte Skriptlinie ist als „Punktzahl“ geschrieben.fFill (axis = 1) ”und dann haben wir diese Funktion zwischen den Klammern der„ print () “-Methode auf die Konsole auf der Konsole zeigen und aufgerufen.


Dadurch wird der DataFrame unten geschnappt. Wie Sie sehen können, ist der Wert der ersten Spalte Nan, da keine Spalte übrig ist, um sie mit dem Wert aus der vorherigen Spalte entlang der Spaltenachse zu füllen.

Abschluss:

Das Arbeiten mit Datenrahmen und die Bearbeitung der Nullwerte in ihnen ist ein Kern- und grundlegender Bedarf in Datenanalyseprozessen. In diesem Tutorial haben wir gelernt, dass die Pandas „DataFrame“ zur Verfügung gestellt wurden.fFill () ”Methode zum Ausfüllen der NAN -Datensätze im Datenrahmen. Wir haben Sie mit den beiden Techniken zum Füllen des Datenrahmens vertraut gemacht. Jede Strategie wird mit praktisch implementierten Beispiel -Python -Skripten ausgearbeitet, die mit dem Tool „Spyder“ ausgeführt werden. Sie können jede Technik entsprechend Ihren Anforderungen verwenden.