Pandas DataFrame von CSV

Lars Daub

Ein Datenrahmen ist eine zweidimensionale Datenstruktur in Python, auf die das PANDAS-Modul zugegriffen wird, das den Inhalt in einem tabellarischen Format speichert. Mit anderen Worten, verwenden Spalten und Zeilen. Jede Spalte in einem Datenrahmen kann eine unterschiedliche Art von Element enthalten.

CSV-Dateien oder „Comma-getrennte Werte“ sind die von Kommas getrennten Werte und können ähnlich wie eine Excel-Datei angesehen werden. "Pandas" ist das wichtigste Datenwissenschaftspaket in Python. Bei der Analyse der Daten müssen wir uns mit großen Datensätzen befassen, die normalerweise im CSV -Format enthalten sind. Es gibt mehrere Ansätze zur Verwendung der CSV -Dateien zum Erstellen eines Pandas -Datenframe. Die Technik, die wir in diesem Artikel erklären und implementieren, ist die Methode "Read_csv ()". Um die CSV -Dateien zu lesen und zu verarbeiten, ist die Methode von Pandas „Read CSV ()“ unerlässlich.

Wir werden seine praktische Demonstration durch das in folgende erklärte und ausgeführte Beispiel sehen:

Beispiel: Verwenden der PANDAS -Methode "read_csv ()", um einen Datenrahmen aus CSV zu erstellen

In dieser Abbildung sehen wir, wie wir einen Datenrahmen aus einer CSV -Datei erstellen können, indem wir die Pandas „PD verwenden.read_csv () ”Methode. Lassen Sie uns dieses Konzept praktisch umsetzen.

Für jede Programmiersprache, mit der Sie entsprechend den Anforderungen arbeiten, müssen Sie eine Software oder ein Tool finden, um diese Sprache zusammenzustellen. Wenn Sie danach suchen, finden Sie eine Reihe von Auswahlmöglichkeiten. In unserem Artikel ist die verwendete Programmiersprache „Python“. Wir müssen das Tool oder die Software erhalten, die die Sprache zusammenstellen und mit unserem System kompatibel ist. Aus verschiedenen Auswahlmöglichkeiten haben wir das "Spyder" -Tool ausgewählt. Wir müssen es von der offiziellen Website von „Spyder“ herunterladen.

Wenn das Herunterladen abgeschlossen ist, starten wir den Installationsassistenten. Sobald die Installation abgeschlossen ist, können Sie auf das Tool zugreifen, indem Sie einfach seinen Namen in der Suchleiste des Laptops schreiben. Wenn Sie darauf klicken, wird die Schnittstelle des "Spyder" -Tools geöffnet. Hier sollen wir mit unserer praktischen Demonstration beginnen.

Klicken Sie auf der Schnittstelle des Tools "Spyder" auf die Schaltfläche "Neue Datei" oder drücken Sie "Strg+N", um eine neue Datei zu öffnen. Diese Datei wird geöffnet und Sie können sehen, dass der Name der Datei eine hat “.Py ”-Erdition. Diese Erweiterung bezieht sich auf die "Python" -Datei. Wir sind alle so eingestellt, dass wir den Code schreiben können. Beginnend mit dem Code ist die erste und wichtigste Anforderung beim Schreiben eines Code, um seine relevanten Bibliotheken zu importieren, auf deren Funktionen Sie zugreifen möchten. In unserem Fall basiert die Abbildung auf der Implementierung der „Pandas“ -Funktionen. Daher importieren wir die Bibliothek zuerst mit der Codezeile "Pandas als PD importieren". Diese „PD“ ist eine Kurzform für Pandas, was bedeutet, dass wir jetzt die Pandas -Methoden mit der „PD“ laden können.

Jetzt sind wir fertig, um die erforderliche Pandas -Bibliothek zu importieren. Die nächste Aufgabe besteht darin, zu erfahren, wie wir einen Datenrahmen mit der CSV -Datei erstellen können. Hier haben Sie zwei Auswahlmöglichkeiten: Entweder müssen Sie Ihre CSV -Datei in Microsoft Excel oder Google -Tabellen oder einem relevanten Tool mit dem „mit dem“ erstellen.CSV ”Erweiterung Wenn Sie einige Vorgänge in Python ausführen müssen oder eine Beispiel -CSV -Datei für Lernzwecke aus dem Internet herunterladen können. Auf der anderen Seite haben wir eine Beispiel -CSV -Datei aus dem Internet für den Lernprozess heruntergeladen. Wir haben die „PD angerufen.Read_csv () ”-Methode, mit der die bereitgestellte CSV -Datei liest. Geben Sie zwischen seinen Klammern den Namen der CSV -Datei an.

Wie wir bereits erwähnt haben, der „Wochentag.CSV ”Dateiname. Eine wichtige Sache, die hier zu berücksichtigen ist, ist, dass die von Ihnen erstellte oder heruntergeladene CSV -Datei in demselben Ordner sein muss, in dem Ihre ““.Py ”-Dateien befinden sich im„ In der “befinden sich.Spyder-Py3 ”Ordner. Andernfalls wird ein Fehler aufgeworfen, wenn Sie versuchen, das Programm auszuführen. Wenn wir die „PD“ nennen.read_csv (“Wochentag.CSV ”)” Methode, der Inhalt dieser Datei liest und einen Datenrahmen erstellt. Um diesen Datenrahmen zu speichern, haben wir nun ein DataFrame -Objekt "Beispiel" erstellt, das die aus der PD generierte Ausgabe enthält.read_csv () ”Methode. Zuletzt haben wir die Methode „Print ()“ aufgerufen, um diesen Datenrahmen auf dem Terminal anzuzeigen.

Wenn Sie "Python" und "Spyder" neuartig sind, denken Sie vielleicht darüber nach, wie Sie den zuvor geschriebenen Code ausführen können. Sie müssen nur die Schaltfläche "Datei ausführen" auf der Schnittstelle "Spyder" drücken oder einfach auf die Tasten "Shift+Enter" klicken, um das Programm auszuführen. Hier ist unser Datenrahmen, der aus der bereitgestellten CSV -Datei erstellt wurde.

Im angegebenen Datenframe haben wir vier Spalten und sieben Zeilen. Die erste Kolumne lautet "Name", der die Namen der Wochentage wie "Monday", "Tuesday", "Mittwoch", "Donnerstag", "Friday", "Samstag" und "Sunday" speichert, die die Namen der Wochentage speichern, und "Dienstag", "Mittwoch", "Donnerstag", "Friday", "Sunday". Die zweite Spalte „Abkürzung“ speichert die kurzen Begriffe für die Daten wie „Mon."," Di.”,„ Mi."Thu.”,“ Fr."," Sa "und" Sonne ". Die dritte und die vierte Spalten sind "numerisch" und "numerisch-2". Sie speichern die Zahlen von "0" auf "7". Beide halten numerische Werte für die Wochentage.

Es kann eine Situation geben, in der Sie nur einen Datenrahmen aus den ausgewählten Spalten der CSV -Datei erstellen möchten. Dies kann mit demselben „PD.Read_csv () ”Funktion, indem nur ein" usecol "-Parameter hinzugefügt wird. Dieser Parameter enthält den Namen der Spalten, die Sie aus der CSV -Datei für den DataFrame abrufen möchten. Wie wir bereits gesehen haben. Anschließend haben wir die Methode "print ()" aufgerufen, um die ausgewählten Spalten im DataFrame anzuzeigen.

Das Ausführen dieses Codes ergibt uns den Ausgabedatenrahmen mit nur zwei Spalten aus der CSV -Datei. Der Datenrahmen ist im folgenden Bild angezeigt:

Abgesehen vom Erstellen eines Datenrahmens mithilfe der ausgewählten Spalten aus der bereitgestellten CSV -Datei können Sie auch einige andere Vorgänge ausführen. Möglicherweise gibt es eine CSV -Datei mit großen Daten, und nicht alles muss für Ihren Datenrahmen angezeigt werden. Also versuchen wir oft, es zu vermeiden. Wir können dies tun, indem wir die irrelevanten Zeilen aus dem Datenrahmen überspringen. Wir müssen einen Parameter „Skiprows“ hinzufügen und die Zeilennummern angeben, die Sie ausschließen möchten. Wir haben die Zeilennummern "[1, 3, 5]" hier angegeben. Die Methode „Print ()“ wird aufgerufen, um den neuen Datenrahmen anzuzeigen.

Hier im Ausgabebild können Sie feststellen, dass der aus der CSV -Datei erstellte Datenrahmen die Zeilen "1", "3" und "5" nicht enthält.

Wir können auch den Namen der Spalte der CSV -Datei gemäß unseren Anforderungen für den Datenrahmen ändern, wenn wir die PD aufrufen.Read_csv () ”Funktion. Um diesen Vorgang abzuschließen, müssen wir eine Liste von Zeichenketten an die „PD“ weitergeben.Read_csv () ”-Funktion„ Namen “-Parameter. Diese Zeichenketten dienen als Namen der neuen Spalten. Darüber hinaus erscheint es logisch, die erste Zeile des Eingabedatensatzes auszuschließen, da er den Originaltitel der CSV -Datei enthält. Wir haben die Namen für die Spalten als "Namen = ['C1', 'C2', 'C3', 'C4'] angegeben. Schließlich haben wir den DataFrame mit neuen Spaltennamen angezeigt.

Dies bringt uns den folgenden Ausgangsdatenfream:

Abschluss

Datenrahmen sind die am häufigsten verwendeten und wichtigsten Blöcke der Python Pandas. Es gibt verschiedene Möglichkeiten, einen Datenrahmen in Pandas zu erstellen. Aus diesem Fall haben wir darüber diskutiert, wie in diesem Artikel ein Datenrahmen aus einer CSV -Datei erstellt werden kann. Wir haben eine PANDAS -Methode "Read_csv ()" verwendet, um die bereitgestellte CSV -Datei zu lesen und dann einen Datenrahmen daraus zu erstellen. Durch die praktische Implementierung der auf „Spyder“ ausgeführten Beispielcodes haben wir uns auf die Verwendung dieser Funktion ausgearbeitet. Wir haben auch die unterschiedlichen nützlichen Parameter erklärt und implementiert, um das gewünschte Ergebnis zu erzielen. Wir gehen davon aus, dass unsere Bemühungen, das Lernen in Pandas -Modulen einfach zu gestalten.

Docker

Was ist Docker -Bindungshalterungen?

Ein Docker Bind -Mount ist eine Art von Mount, mit der Benutzer ein Verzeichnis oder eine Datei im H...

Christopher Lammert

Oracle -Datenbank

Betrachtet man Oracle Fusion als besser als SAP??

Oracle Fusion (Cloud-basierte ERP) verfügt über eine benutzerfreundliche Oberfläche....

Hussein Burkhard

Golang

Einführung in die Golang -Programmiersprache

Golang ist eine von Google entwickelte Open-Source-Programmiersprache. Befolgen Sie diesen Artikel, ...

Prof. Dr. Julien Plank