Pandas zwischen Daten

Pandas zwischen Daten
„Das Datenformat variiert in verschiedenen Regionen (YYYY-DD-MM, YYYY-MM-DD, DD/MM/YY usw.). Die Arbeit mit solchen Saiten mit Daten und Zeiten ist eine Herausforderung. Die Funktion "to_datetime ()" von Pandas kann verwendet werden, um das Datum oder die Uhrzeit des Datentyps "String" in DateTime64 zu ändern. Der Datenatyp „DateTime64“ hilft bei der Extraktion von Zeit- und Datumseigenschaften von „Jahr“ bis zu „Mikrosekunden“. Um die Zeilen anhand von Daten zu filtern. Anschließend wird eine Filterbedingung mit dem Datenrahmen des Pandas -Pakets angegeben.Abfrage [] und DataFrame.loc [] Funktionen. Schließlich werden wir den gefilterten Datenrahmen erwerben, der die Teilmenge der Daten ist.”

So auswählen oder filtern Sie Datumsbasis von Datenframe in Pandas?

Zunächst werden wir den Datentyp datenbasierter Werte in DateTime64 umwandeln. Dann werden wir andere Methoden verwenden (z. B. DataFame.loc []), um die zwischen zwei Daten basierenden Daten auszuwählen oder zu filtern. Zunächst kann der Datentyp Datum auf verschiedene Arten wie Zeichenfolgen, NP, gegeben oder dargestellt werden.datetime64 und datetime.Terminzeit. Durch Verwendung der PD.Zur Methode von DateTime () in Pandas können wir Daten manipulieren, indem wir den Datum -Datentyp in DateTime64 -Format konvertieren.

Syntax:


Parameter:

arg: Es kann Float-, List-, String-, Ganzzahl- oder Datenframe sein, der in DateTime konvertiert werden kann.

Fehler: Der Wert kann als Erhöhung, Zwangs- oder Ignorierung angegeben werden. Wenn ein Wörterbuch wie ein Mapper, Spalten oder Zeilen Etiketten enthält, die in der zu konvertierten Index fehlen. Standardmäßig einstellen, um zu ignorieren.

Tagesfirst: Standardmäßig als falsch eingestellt. Wenn wahr, platziert der boolesche Wert DayFirst.

JAHREFIRST: Wenn wahr, setzt der Boolesche Wert das Jahrfirst. Falsch ist der Standardwert;

koordinierte Weltzeit: Begrenzungswert. Zeigen Sie den aktuellen Zeitpunkt der Primary Time Standard (UTC) an, falls wahr.

Format: Die Position des Jahres, des Monat und des Tages wird über einen String -Eingang bestimmt. Es ist standardmäßig keine

infer_datetime_formatbool: Wenn das wahre und kein Format angegeben ist, versuchen Sie, das Datums-/Zeitzeichenformat aus dem ersten Element zu schließen, das nicht null ist. Falsch ist der Standardwert.

In den Beispielen des Tutorials werden wir die folgende Strategie anwenden, um Informationen aus den Datenbasis-Zeilen im DataFrame zwischen zwei Daten auszuwählen:

    • Pandas -Module importieren.
    • Erstellen oder Laden von Daten zum Erstellen eines Datenrahmens.
    • Erstellen Sie einen Datenrahmen.
    • Konvertieren Sie den Datentyp der Spalten mit Daten in DateTime64.
    • Geben Sie ein Start- und Enddatum an.
    • Der aktualisierte Datenrahmen wird nach der Verwendung eines Filters gespeichert und angezeigt.
    • DataFrame anzeigen.

Beispiel Nr. 1: Filterdatenbasierte Werte unter Verwendung von DataFrame.loc [] Funktion

Wir werden Datenbasisdaten mithilfe des „DataFrame verwenden“ filtern.loc [] ”Funktion. Um auf eine Gruppe von Spalten und Zeilen eines Datenrahmens über den Namen der Spalten, Indizes oder eines Booleschen Arrays zuzugreifen, wird die Funktion „loc []“ verwendet. Der bedingte Ausdruck in der LOC [] -Variable in diesem Beispiel gibt ein Boolean -Array mit einem wahren Wert zurück, wenn die Zeile die Bedingung erfüllt, und ein Falsch, wenn die Bedingung nicht erfüllt. Nur diese Zeilen mit echten Werten werden mit der LOC [] -Methode zurückgegeben. Erstellen wir zunächst einen Datenrahmen, um dieses Beispiel klar zu verstehen.


Wir haben einen Datenrahmen erstellt, indem wir ein Wörterbuch innerhalb der PD übergeben haben.DataFrame () -Funktion nach dem Importieren der PANDAS -Module. In unserem Datenrahmen gibt es zwei Spalten, deren Namen als "Aufgaben" und "Datum" angegeben sind. Die Spalte „Aufgabe“ besteht aus Ganzzahldaten (3, 2, 6, 1, 4, 5, 2, 1, 3, 4), und die Spalte „Datum“ besteht aus Datenbasis-Zeichenfolgenwerten („2022-01- 05 "," 2022-01-15 "," 2022-02-01 "," 2022-02-10 "," 2022-03-20 "," 2022-03-30 "," 2022-04-12 "," 2022-04-12 " , "2022-04-24", "2022-05-15", "2022-05-25"). Um unseren Datenrahmen anzuzeigen, werden wir die Funktion print () verwenden.


Lassen Sie uns nun den Datentyp unserer Spalten anhand des Attributs "DTypes" überprüfen.


Wie bemerkt werden kann, ist der Datentyp der Spalte "Aufgaben" int64, aber die Spalte "Datum" enthält den Datentyp "Objekt". Wie oben erwähnt, müssen wir den Datentyp der Spalten mit Daten in DateTime64 konvertieren. Um den Datentyp der Spalte „Daten“ zu ändern, wird die Methode to_datetime () verwendet.


Wir haben die Spalte „Datum“ in der Funktion to_datetime () als Argument übergeben und das Format als Jahre Monate angeben. Nachdem wir den Datentyp der Spalte "Datum" geändert haben, haben wir ihn der Spalte "Datum" unseres "DF". Durch die Verwendung des Attributs dTypes können wir überprüfen, ob der Datentyp in "DateTime64" geändert wird oder nicht.


Da der Datentyp jetzt geändert wurde, können wir die LOC [] -Methode verwenden, um die erforderlichen Zeilen zu filtern.


Im DF.LOC [] -Methode haben wir einen Ausdruck/Bedingung erstellt, um nur die Zeilen auszuwählen, bei denen das Datum größer oder gleich „22-02-01“ und weniger als „2022-04-24“ ist. Die Zeilen von Index 2 bis 6 sind also durch die Bedingung erfüllt, wie im Ausgang gezeigt.

Beispiel Nr. 2: Filterdatenbasierte Werte unter Verwendung verschiedener Attribute mit DataFrame.loc [] Funktion

In Beispiel Nr. 1 haben wir die datesbasierten Zeilen mit der Funktion loc [] gefiltert. In diesem Beispiel verwenden wir unterschiedliche Attribute mit der Funktion loc [], um bestimmte Datenbasiszeilen auszuwählen.


Der erste Schritt wird der gleiche sein; Wir werden den Datentyp der Spalte "Datum" in "DateTime64" konvertieren, indem wir die Funktion to_datetime () verwenden.


Nachdem wir den Datentyp in "DateTime64" geändert haben.


Wir haben eine Bedingung erstellt, um die Daten innerhalb der Daten auszuwählen, die gleich oder mehr als „2022-04-10“ und weniger als „2022-06-15“ sind. Wir haben vier Zeilen mit Daten ("2022-04-12", "2022-04-24", "2022-05-15" und "2022-05-25"), die den Zustand erfüllten. Wir können die Ausgabe weiter zu einem bestimmten Zeitpunkt, Datum, Woche, Monat, Jahr usw. filtern., durch Verwendung der DateTime “.DT ”Attribut mit dem DataFrame.LOC [] Methode. Nehmen wir an, wir müssen die Zeile mit dem Datum „15“ aus der kürzlich generierten Ausgabe des Datenfrequers mit vier Zeilen auswählen.


Wir haben den DT angegeben.Tag == 15, um die in der Zeile gespeicherten Daten mit dem Datum „15“ abzurufen. Wir haben die Zeile "Index 8" als Ausgabe erhalten, da das Datum in dieser Zeile 15 beträgt. Lassen Sie uns nun die „verwenden“.Zwischen "Attribut", um bestimmte Zeilen zwischen zwei Daten in unserem Datenrahmen auszuwählen (erstellt in Beispiel Nr. 1).


Durch Verwendung der “.Zwischen () "Funktion haben wir die Daten zwischen" 2022-01-15 "und" 2022-03-30 "angegeben, um den Ausgang zu erzeugen.

Beispiel Nr. 3: Filterdatenbasierte Werte verwenden die mit dem .Query () Funktion

Jetzt werden wir sehen, wie der Datenrahmen.Query () Funktionsfunktion für die Auswahl spezifischer Datenbasis-Zeilen aus dem DataFrame. In diesem Beispiel wird der gleiche "DF" -Datenrahmen verwendet, den wir in Beispiel Nr. 1 erstellt haben. Erstens werden wir den Datentyp der Spalte "Datum" in "DateTime64" konvertieren, wie wir es in früheren Beispielen getan haben.


Jetzt werden wir die Funktion query () verwenden, um Zeilen zwischen den Daten auszuwählen.


Die Bedingung innerhalb der Abfrage (), wie oben angezeigt, besteht darin, Daten innerhalb der Daten auszuwählen, die gleich oder größer als „2021-12-30“ und weniger als „2022-01-15“ sind. Standardmäßig werden die Spalten des DataFrame in den Abfrage -Namespace eingefügt, sodass der Zugriff auf die Spalte Datum auf die Spalte zugreifen kann.


Dies sind die Zeilen mit Daten innerhalb der Daten, die den Zustand erfüllen.

Abschluss

In diesem Tutorial haben wir diskutiert, wie Sie die Datenbasis zwischen den Daten in Pandas auswählen können. Wir haben die Syntax der Pandas gesehen.to_datetime () Funktion, mit der wir den Datentyp der date-basierten Spalte in DateTime64 konvertieren. Wir haben Beispiele implementiert, um Ihnen beizubringen, wie Sie DataFrame verwenden.LOC [] Funktion, wie man unterschiedliche Attribute mit DataFrame verwendet.loc [] Funktion und wie man die benutzt .Query () -Funktion zum Auswählen der Daten aus Datenbasiszeilen zwischen zwei Daten.