Das sieht nach viel zu decken aus. Lassen Sie uns jetzt anfangen.
Was ist Python Pandas -Paket?
Laut der Pandas Homepage: Pandas ist eine Open Source, BSD-lizenzierte Bibliothek, die leistungsstarke Datenstrukturen und Datenanalyse-Tools für die Python-Programmiersprache bietet, die leicht zu bedienende Datenstrukturen und Datenanalyse-Tools bieten.
Eines der coolsten Dinge an Pandas ist, dass das Lesen von Daten aus gemeinsamen Datenformaten wie CSV, SQL usw. Sehr einfach, was es in Produktionsnote -Anwendungen oder nur einigen Demo -Anwendungen gleichermaßen verwendbar macht.
Installieren Sie Python Pandas
Nur ein Hinweis vor dem Start des Installationsprozesses verwenden wir eine virtuelle Umgebung für diese Lektion, die wir mit dem folgenden Befehl erstellt haben:
Python -m Virtualenv PandasSobald die virtuelle Umgebung aktiv ist, können wir die Pandas -Bibliothek innerhalb der virtuellen Umgebung installieren, damit Beispiele, die wir als nächstes erstellen, ausgeführt werden können:
PIP Installieren Sie PandasOder wir können Conda verwenden, um dieses Paket mit dem folgenden Befehl zu installieren:
Conda Pandas installierenWir sehen so etwas, wenn wir den obigen Befehl ausführen:
Sobald die Installation mit Conda abgeschlossen ist, können wir das Paket in unseren Python -Skripten als:
Pandas als PD importierenLassen Sie uns jetzt Pandas in unseren Skripten verwenden.
Lesen Sie die CSV -Datei mit Pandas -Datenframes
Das Lesen einer CSV -Datei ist mit Pandas einfach. Zur Demonstration haben wir eine kleine CSV -Datei mit folgenden Inhalten erstellt:
Name, Rollno, Zulassungsdatum, NotfallkontaktSpeichern Sie diese Datei wie im Python -Skript im selben Verzeichnis. Wenn die Datei vorhanden ist, fügen Sie den folgenden Code -Snippet in eine Python -Datei hinzu:
Pandas als PD importierenSobald wir das obige Code -Snippet ausgeführt haben, werden wir die folgende Ausgabe sehen:
Die Head () -Funktion in Pandas kann verwendet werden. Warten Sie, DataFrame? Wir werden im nächsten Abschnitt viel mehr über DataFrame untersuchen, aber nur verstehen, dass ein Datenrahmen eine n-dimensionale Datenstruktur ist, mit der Operationen über einen Satz von Daten gedrückt und analysiert werden können oder komplexe Vorgänge haben können.
Wir können auch sehen, wie viele Zeilen und Spalten die aktuellen Daten haben:
Studenten.FormSobald wir das obige Code -Snippet ausgeführt haben, werden wir die folgende Ausgabe sehen:
Beachten Sie, dass Pandas auch die Anzahl der Zeilen ab 0 zählt.
Es ist möglich, nur eine Spalte in eine Liste mit Pandas zu erhalten. Dies kann mit Hilfe von erfolgen Indizierung in Pandas. Schauen wir uns einen kurzen Code -Snippet für dasselbe an:
student_names = student ['name']Sobald wir das obige Code -Snippet ausgeführt haben, werden wir die folgende Ausgabe sehen:
Aber das sieht nicht wie eine Liste aus, tut es? Nun, wir müssen explizit eine Funktion aufrufen, um dieses Objekt in eine Liste umzuwandeln:
student_names = student_names.auflisten()Sobald wir das obige Code -Snippet ausgeführt haben, werden wir die folgende Ausgabe sehen:
Nur für zusätzliche Informationen können wir sicherstellen, dass jedes Element in der Liste eindeutig ist und wir nur nicht leere Elemente auswählen, indem wir einige einfache Überprüfungen hinzufügen, wie:
student_names = student ['name'].Dropna ().einzigartig().auflisten()In unserem Fall ändert sich die Ausgabe nicht, da die Liste bereits keine Foulwerte enthält.
Wir können auch einen Datenrahmen mit Rohdaten erstellen und die Spaltennamen zusammen mit diesem übergeben, wie im folgenden Code -Snippet gezeigt:
my_data = pd.Datenrahmen (Sobald wir das obige Code -Snippet ausgeführt haben, werden wir die folgende Ausgabe sehen:
Datenrahmen schneiden
Das Aufbrechen von Datenrahmen, um nur die ausgewählten Zeilen und Spalten zu extrahieren. Zu diesem Zweck ermöglicht es Pandas, DataFrame als und bei Bedarf mit Aussagen wie:
Im vorherigen Abschnitt haben wir bereits Indexierung und Schnitt mit Spaltennamen anstelle der Indizes gesehen. Es ist auch möglich, das Schneiden mit Indexnummern und Spaltennamen zu mischen. Schauen wir uns einen einfachen Code -Snippet an:
Studenten.loc [: 5, 'name']Sobald wir das obige Code -Snippet ausgeführt haben, werden wir die folgende Ausgabe sehen:
Es ist möglich, mehr als eine Spalte anzugeben:
Studenten.loc [: 5, ['Name', 'Notfallkontakt']]]Sobald wir das obige Code -Snippet ausgeführt haben, werden wir die folgende Ausgabe sehen:
Seriendatenstruktur in Pandas
Genau wie Pandas (was eine mehrdimensionale Datenstruktur ist) ist eine Serie eine eindimensionale Datenstruktur in Pandas. Wenn wir eine einzelne Spalte aus einem Datenrahmen abrufen, arbeiten wir tatsächlich mit einer Serie:
Typ (Schüler ["Name"])Sobald wir das obige Code -Snippet ausgeführt haben, werden wir die folgende Ausgabe sehen:
Wir können auch unsere eigene Serie konstruieren, hier ist ein Code -Snippet für dasselbe:
Serie = PD.Serie (['Shubham', 3.7]))Sobald wir das obige Code -Snippet ausgeführt haben, werden wir die folgende Ausgabe sehen:
Wie aus dem obigen Beispiel klar, kann eine Serie auch mehrere Datentypen für dieselbe Spalte enthalten.
Boolesche Filter in Pandas DataFrame
Eine der guten Sache in Pandas ist, wie es ist, Daten aus einem Datenrahmen basierend auf einer Bedingung zu extrahieren. Wie das Extrahieren der Schüler nur dann, wenn die Rollzahl größer als 6 ist:
Roll_filter = Schüler ['Rollno']> 6Sobald wir das obige Code -Snippet ausgeführt haben, werden wir die folgende Ausgabe sehen:
Nun, das haben wir nicht erwartet. Obwohl die Ausgabe ziemlich explizit darüber ist, welche Zeilen den von uns bereitgestellten Filter erfüllt haben, haben wir immer noch nicht die genauen Zeilen, die diesen Filter erfüllt. Stellt sich heraus Wir können Filter als DataFrame -Indizes verwenden sowie:
Schüler [Roll_filter]Sobald wir das obige Code -Snippet ausgeführt haben, werden wir die folgende Ausgabe sehen:
Es ist möglich, mehrere Bedingungen in einem Filter zu verwenden, damit die Daten auf einem kurzen Filter gefiltert werden können, wie:
Next_filter = (Studenten ['Rollno']> 6) & (Schüler ['Name']> 's'))Sobald wir das obige Code -Snippet ausgeführt haben, werden wir die folgende Ausgabe sehen:
Median berechnen
In einem Datenrahmen können wir auch viele mathematische Funktionen berechnen. Wir werden ein gutes Beispiel für die Berechnung der Median geben. Der Median wird für ein Datum berechnet, nicht für nur Zahlen. Schauen wir uns einen kurzen Code -Snippet für dasselbe an:
Daten = Studenten ['Datum der Zulassung'].ASType ('DateTime64 [NS]').quantil (.5)Sobald wir das obige Code -Snippet ausgeführt haben, werden wir die folgende Ausgabe sehen:
Wir haben dies erreicht, indem wir zuerst die Datumsspalte indexieren und dann einen Datentyp für die Spalte bereitstellen, damit Pandas sie korrekt schließen kann.
In dieser Lektion haben wir verschiedene Aspekte der PANDAS -Verarbeitungsbibliothek untersucht, die wir mit Python verwenden können, um Daten aus verschiedenen Quellen in eine Datenframe -Datenstruktur zu sammeln, die es uns ermöglicht, auf einem Datensatz raffiniert zu arbeiten. Es ermöglicht uns auch, Daten zu erhalten, an denen wir momentan arbeiten möchten, und bietet viele mathematische Operationen.
Bitte teilen Sie Ihr Feedback zur Lektion auf Twitter mit @sbmaggarwal und @linuxHint mit.