Pandas read_csv multiprocessing

Pandas read_csv multiprocessing

Multiprocessing ist eine Technik, um mehrere Prozessoren oder Kerne zu verwenden, um Aufgaben parallel auszuführen. In Python wird die Multiprozessierung über das Multiprocessing -Modul implementiert. Es ermächtigt den Benutzer, mehrere Aufgaben gleichzeitig auszuführen, wodurch die volle Leistung der CPU der Maschine verwendet wird.

In diesem Python-Leitfaden präsentieren wir einen eingehenden Leitfaden für die “Pandas.read_csv ()Funktion mit einem Multiprozessationsmodul. Die folgenden Themen werden abgedeckt:

    • Read_csv () Funktion in Python
    • CSV lesen mit “Pandas.read_csv ()”Funktion
    • CSV lesen mit “Pandas.read_csv ()”Mit Multiprozessierung

„Pandas.Read_csv () ”Funktion in Python

Der "Pandas.read_csv ()Ist eine Funktion im Pandas -Modul von Python, das eine CSV -Datei liest/nimmt und ein DataFrame -Objekt abruft, das die Daten aus dem CSV enthält.

Syntax

PD.read_csv (filepath_or_buffer, sep = ',', header = 'infer', index_col = none, usecols = none, motor = none, Skiprows = Keine, nrows = Keine)


Beispiel 1: Lesen Sie CSV mit „Pandas.Read_csv () ”Funktion

Im folgenden Beispiel die „Pandas.Read_csv () ”Die Funktion wird verwendet, um die CSV -Daten zu lesen:


Code

Pandas importieren
df = pandas.read_csv ('Beispiel.CSV ')
Druck (df)


Im obigen Code -Snippet:

    • Das Modul benannt "Pandas”Wird importiert.
    • Der "PD.read_csv ()Die Funktion wird verwendet, um die bereitgestellte CSV -Datei zu lesen.
    • Der "drucken()Die Funktion wird verwendet, um die CSV -Daten anzuzeigen/anzuzeigen.

Ausgang


Wie festgestellt, wurde der CSV -Dateiinhalt angezeigt.

Beispiel 2: Lesen Sie CSV mit „Pandas.read_csv () ”“ mit Multiprozessierung

Der folgende Code verwendet die “PD.read_csv ()Funktion zum parallelen Lesen mehrerer CSV -Dateien mit der Multiprocessing -Bibliothek in Python:

Pandas importieren
Multiprozessierung importieren
Wenn __name__ == '__main__':
Pool = Multiprocessing.Schwimmbad()
Dateien = ['Beispiel.CSV ',' Beispiel1.CSV ',' Beispiel2.CSV ']
DataFrames = Pool.Karte (Pandas.Read_csv, Dateien)
Für DF in DataFrames:
Druck (df)


Nach dem obigen Code:

    • Die genannten Module “Pandas" Und "MultiprozessierungModule werden importiert.
    • Der "__Name__" Und "__hauptsächlich__”Attribute werden mit der“ verwendet “WennBedingung, um sicherzustellen, dass der darin enthaltene Code direkt aus dem Skript ausgeführt wird, anstatt importiert zu werden.
    • Innerhalb des Zustands, die “Multiprozessierung.Schwimmbad()”Wird verwendet, um ein Multiprocessing -Pool -Objekt mithilfe der Standardanzahl der im System verfügbaren Prozesse zu erstellen.
    • Die Liste der Dateinamen für die zu gelesenen CSV -Dateien wird in einer Variablen mit dem Namen initialisiert und gespeichertDateien”.
    • Der "Schwimmbad.Karte()"Methode wird verwendet, um die" anzuwenden "PD.read_csvFunktion zu jeder Datei parallel. Dies bedeutet, dass jede Datei gleichzeitig durch einen separaten Prozess gelesen wird, der die Gesamtverarbeitungszeit beschleunigen kann.
    • Endlich, das "fürDie Schleife wird verwendet, um jeden Datenrahmen durchzusetzen.

Ausgang


In diesem Ergebnis die „PD.Read_csv () ”Die Funktion wird mit Multiprocessing zum Lesen von CSV -Dateien verwendet.

Abschluss

Verbesserung der Datenbelastungsgeschwindigkeit, einschließlich ihrer Vorteile und Einschränkungen, die “PD.read_csv ()Die Funktion wird mit dem Multiprocessing -Modul verwendet. Das Multiprocessing -Modell bietet eine Möglichkeit, die Datenbelastung zu beschleunigen, indem mehrere CPU -Kerne zum Laden der Daten parallel geladen werden. Dieses Python-Tutorial präsentierte eine eingehende Anleitung zur Python Read_CSV-Multiprozessierung.