So exportieren Sie den Datenframe in CSV in Python

So exportieren Sie den Datenframe in CSV in Python

Wenn Sie mit einem Datensatz arbeiten und die erforderliche Vorverarbeitung ausführen. In datenbasierten Anwendungen wird CSV (Comma-getrennte Werte) häufig für die Datenkommunikation verwendet. Wir speichern in der Regel die Daten von Webanwendungen in einem Datenfeld, Array, Liste, Tupel, Wörterbuch usw. Kunden können verlangen, dass die Daten als CSV -Datei exportiert werden,. Die Daten werden in CSV -Dateien als Abfolge von Daten gespeichert. Wir können Python Pandas verwenden, um Daten in eine CSV -Datei wie in anderen Programmiersprachen zu schreiben.

Was ist ein PANDAS -Datenfream??

In Python enthält das Pandas -Modul eine Funktion „Pandas.DataFrame () “, um einen Datenrahmen zu erstellen. Ähnlich wie bei einer Tabelle ist ein Datenrahmen eine Datenstruktur, die Daten in einer 2D -Tabelle mit Spalten und Zeilen organisiert. Aufgrund ihrer Anpassungsfähigkeit und Einfachheit bei der Speicherung und Manipulation von Daten gehören Datenrahmen zu den beliebtesten und effektivsten Datenstrukturen in modernen Datenanalysen.

Syntax:

Pandas.DataFrame (Daten, Index, Spalten, DTYPE, Kopie)

So exportieren Sie einen Datenrahmen in einen CSV in Python?

Die Methode to_csv () in Python Pandas kann einen Datenrahmen in eine CSV -Datei umwandeln. Wir können die Ausgabe in eine Datei schreiben, wenn ein Dateiparameter/Argument bereitgestellt wird. Wenn nicht, wird eine CSV -Zeichenfolge zurückgegeben. Obwohl die Funktion to_csv () viele Attribute hat, haben wir nur diejenigen erwähnt, die hier am häufigsten verwendet werden.

Syntax:

Datenrahmen.to_csv (Pfad, sep, na_rep, float_format, Spalten, Header, Index, Modus, Komprimierung)

Wo,

Weg: Es bezieht sich auf Datei oder STR -Handle. Im Allgemeinen gibt es den Pfad/Speicherort einer Datei oder eines Objekts an. Keine standardmäßig. Wenn keiner geliefert wird, wird ein Stringwert zurückgegeben.

SEP: Es ist ein String -Wert, der eine Länge von 1 hat. Das Komma ist sein Standardwert (,).

na_rep: Ein String -Datenwert, der fehlende oder nullwerte Werte symbolisiert oder darstellt. Der Standardwert ist die leere Zeichenfolge.

float_format: Es enthält einen String-Wert für die Formatierung oder Strukturierung einer Zeichenfolge von Gleitpunktzahlen.

Säulen: Es ist ein Parameter, der optional ist und sich auf eine Reihe bezieht, die die Spalten angibt, die im Ausgang CSV vorhanden sein müssen.

Header: Eine Sammlung von Strings oder einem booleschen Wert. Wenn auf false gesetzt. Die Namen der Spalten werden nicht in die Ausgabe geschrieben. True ist sein Standardwert.

Index: Wenn die CSV -Daten auf TRUE eingestellt sind, enthält die Index den Index. Andernfalls hat der Ausgangs -CSV nicht den Indexwert.

Modus: Im Schreibmodus bezieht es sich auf einen String -Wert. W ist sein Standardwert.

Kompression: Ein Stringwert, der den Modus mit einer der folgenden Optionen komprimiert. Wenn „inferen“ und „Pfad“ Pfad sind, identifiziert es die Komprimierung aus den Dateierweiterungen “.GZ ”,“.Bz2 "," Zip "oder" XZ ". Ansonsten findet keine Komprimierung statt.

Wir erstellen jetzt einen Pandas -Datenfreen.

Erstellen eines Beispieldatenrahmens

Um unseren Datenrahmen zu erstellen, importieren wir zuerst das erforderliche Modul, i.e., Pandas. Nach dem Importieren des Moduls erstellt die Funktion DataFrame () unseren DataFrame.

Wir haben unseren Datenrahmen erstellt, indem wir ein Python -Diktat innerhalb der PD bestanden haben.DataFrame () -Funktion. Unser DataFrame besteht aus drei Spalten (Name, Alter und Markierungen).

Lassen Sie uns nun lernen, wie Sie einen Datenrahmen in eine CSV -Datei exportieren können.

Exportieren von Datenframe in CSV ohne Index

Wenn Sie den DF verwenden.TO_CSV () -Methode zum Exportieren eines Datenrahmens aus Pandas in eine CSV -Datei. Ein Index für den Datenrahmen wird automatisch enthalten. Setzen Sie index = false auf true, wenn Sie es nicht wollen oder einen Index einbeziehen müssen.

Ausgabedatei:

Wenn der Index bedeutungslos ist, kann dies hilfreich sein. Wenn der Index jedoch wichtige oder aussagekräftige Daten speichert, wie z. B. Zeitreihendaten, sollten Sie sie nicht entfernen. True ist der Standardwert für den Indexparameter. Infolgedessen können Sie den Parameter einfach in Ruhe lassen, wenn der Index enthalten ist

Exportieren des Datenframe

Vor dem Export werden Sie sich beim Exportieren der Größe Ihrer Daten möglicherweise bewusst sein. Begrenzung der von Ihnen exportierenden Spalten ist eine Methode zur Reduzierung der generierten CSV -Dateigröße. Mit dem Parameter Spalten können wir eine Liste angeben, die die Namen von Spalten enthält, die wir in unsere Exportdatei aufnehmen möchten. Der Export schließt alle Spalten aus, die in der Liste nicht vorhanden sind.

Ausgabedatei:

Wir haben den Spaltenparameter mit einer Liste angegeben, die Spaltennamen „Name“ und „Markierungen“ enthält, sodass nur diese beiden Spalten in unsere CSV -Datei exportiert wurden.

Exportieren des Datenrahmens in CSV und Ändern des Separators

Wir können die CSV-Datei durch andere Zeichen als ein Komma abgrenzen, obwohl Kommas das Zeichen ist, das ihnen ihren Namen gibt (von Kommas getrennte Wertdateien). Der Tab -Wert ist beispielsweise ein typischer Trennzeichen und wird dargestellt \ t. In Pandas können wir unseren Separator mit dem SEP -Argument ändern.

Ausgabedatei:

Exportieren des Datenframe

Die Informationen zu fehlenden Daten sind standardmäßig in CSV -Dateien nicht enthalten. Eine leere Zelle wird generiert, wenn fehlende Daten in CSV exportiert werden. Mit dem NA_REP -Argument können Sie anstelle aller fehlenden Werte einen alternativen Wert wie Null oder N/A anzeigen. Dies dauert jede Art von Zeichenfolge als Eingabe, aber der Standard ist eine leere Zeichenfolge. Zu diesem Zeitpunkt werden wir einen anderen Datenrahmen verwenden, der einige fehlende Datenwerte enthält.

Setzen wir die Zeichenfolge "NULL" als Wert des Parameters Na_rep fest.

Ausgabedatei:

Exportieren des Datenrahmens in CSV ohne Header

In der Data Science muss ein Datensatz möglicherweise irgendwann ohne Kopfzeile Daten aus einem Datenrahmen exportieren. Dies ist häufig der Fall, wenn Sie riesige Datensätze exportieren, die später miteinander verbunden werden müssen. Ein Datenrahmen kann ohne den Header leicht in CSV konvertiert werden. Um dies zu erreichen, kann das Header -Argument verwendet werden. Standardmäßig gilt es, was darauf hinweist, dass der Header enthalten sein wird.

Ausgabedatei:

Komprimieren Sie Daten beim Exportieren von Datenframe in CSV

Es kann hilfreich sein, große Datensätze zu komprimieren, wenn sie mit denen arbeiten, die für den langfristigen Speicher vorgesehen sind, insbesondere beim Speichern im CSV-Format. Die Dateigröße nimmt ab, wenn ein Datensatz komprimiert ist. Der Exportieren von DataFrame in den CSV -Prozess dauert jedoch länger. In ähnlicher Weise dauert es länger, bis Pandas den CSV in einen Datenrahmen umwandelt. Da Komprimierung mehr Zeit als ein einfaches Export benötigt, dauert es länger. Lassen Sie uns sehen, wie wir unsere Daten mit dem Kompressargument komprimieren können:

Ausgang:

Die Ausgabe -CSV -Datei ist jetzt komprimiert.

Exportieren von Datenframe in CSV -Datei mit unterschiedlicher Codierung

Sie müssen häufig Daten verschlüsseln, wenn Sie mit String -Daten arbeiten. Wenn Sie mit codierten oder numerischen Daten zu tun haben, ist dies seltener.

Das UTF-8-Codierungsformat, eines der am häufigsten verwendeten Codierungsformate, ist standardmäßig der Codierungsart. Verwenden wir die UTF-16-Kodierung, um den Datenrahmen in CSV zu exportieren.

Ausgang:

Abschluss

In diesem Tutorial haben wir zunächst die Einführung von CSV -Dateien und Pandas DataFrame gesehen. Wir haben besprochen, wie ein Datenrahmen in Python in ein CSV exportiert werden könnte. Wir haben versucht zu erklären, wie man die Pandas benutzt.to_csv () Methode effektiv und wie wir verschiedene Argumente der Funktion to_csv () verwenden können, um zu ändern, wie die Daten exportiert werden. Nachdem Sie diesen Beitrag abgeholt haben.