Pandas Kovarianz

Pandas Kovarianz
Die Pandas COV () -Methode berechnet die gepaarte Kovarianz unter den Serien eines Datenrahmens. Der zurückgegebene Datenrahmen ist die Kovarianzmatrix der Spalten des DataFrame. Die Berechnung schließt automatisch NA- und Nulleinträge aus. Diese Technik wird üblicherweise verwendet, um die Zeitreihendaten zu bewerten, um den Zusammenhang zwischen verschiedenen Messungen im Laufe der Zeit zu bestimmen.

Die Syntax für diese Methode lautet wie folgt:

Hier bestimmt die „min -Perioden“ die geringste Anzahl von Vorkommen, die für jedes Spaltenpaar erforderlich sind, um ein gültiges Ergebnis zu liefern.

Sie werden diese Methode durch die praktische Demonstration von Codes in diesem Artikel lernen und verstehen.

Beispiel 1

In dieser Abbildung geht es darum, die Kovarianz unter den Spalten eines Datenrahmens zu finden. Lassen Sie uns seine praktische Implementierung lernen.

Die erste und notwendigste Aufgabe ist es, ein Tool zu finden, das mit Ihrer Maschine kompatibel ist und die Python -Sprache unterstützt. Für unsere Anforderungen findet sich das Spyder -Tool am besten geeignet. Wir müssen also das Tool herunterladen, installieren und schließlich starten. Sobald die Schnittstelle angezeigt wird, öffnen wir eine neue Datei, indem wir auf die Schaltfläche "Datei" klicken und die Option "Neue Datei" auswählen. Eine neue Datei mit der “.PY ”-Erdition wird geöffnet. Der ".py ”bezieht sich auf die" Python "-Fatei.

Beginnen Sie nun, den Python -Code zu schreiben. Bevor wir mit unserem Hauptcode beginnen, müssen wir einige notwendige Bibliotheken in dieser Python -Datei erhalten. Für das vorliegende Thema brauchen wir nicht viele Bibliotheken, sondern nur ein einzelnes Paket, das „Pandas“ ist. Wir schreiben also den Code „Pandas als PD importieren“, der alle Funktionen von Pandas in unserer Python -Datei importiert. Wir können auf sie mit dem „PD“ anstelle von „Pandas“ im gesamten Skript zugreifen.

Da wir die Kovarianz unter den Spalten eines Datenrahmens berechnen müssen, müssen wir einen PANDAS -Datenrahmen haben, in dem wir diese Methode ausüben. Um einen Datenrahmen zu erstellen, bietet Pandas uns eine „PD“.DataFrame () ”-Funktion. Da wir bereits wissen, dass „PD“ die „Pandas“ ist, greifen wir auf die Pandas -Methode zu. Das "DataFrame ()" ist das Schlüsselwort dieser Funktion, das beim Aufrufen einen Datenrahmen erstellt. Wir generieren einen Datenrahmen mit dieser „PD.DataFrame () ”-Methode und initialisierte sie mit drei Spalten -„ Alpha “,„ Beta “und„ Gamma “.

Unsere erste Spalte "Alpha" speichert sechs Werte, die "3", "4", "1", "10", "5" und "7" sind. Die zweite Spalte "Beta" enthält sechs Werte, die "12", "2", "8", "13", "4" und "5" sind. Die dritte und die letzte Spalte "Gamma" haben die Werte "4", "6", "12", "9", "3" und "10". Alle diese Spalten speichern die Ganzzahl -Werteart und haben die gleiche Länge, die 6 entspricht.

Um diesen Datenrahmen zu speichern, erstellen wir nun ein DataFrame -Objekt oder eine "Note" -Variable. Diese Variable „Note“ weist die Ausgabe zu, die aus dem Aufrufen der Pandas “PD generiert wird.DataFrame () ”Methode. Also, wenn wir die „PD“ nennen.DataFrame () ”-Methode, ein Pandas -Datenframe, wird erstellt und in„ Note “gespeichert und gespeichert. Wir können mit diesem Objekt auf den Datenrahmen zugreifen. Wir haben den Datenrahmen generiert und ihn gespeichert. Was ist nun mit dem Anzeigen? Um den Datenrahmen am Terminal anzuzeigen, haben wir eine sehr einfache und praktische "print ()" -Methode. Diese Methode nimmt die Variable, Funktion oder Anweisung als Parameter an und zeigt sie einfach auf dem Terminal an. Wir schreiben es als "Drucken (Grad)" und es zeigt den Datenrahmen an.

Wenn wir auf die Schaltfläche "Datei ausführen" im Tool "Spyder" klicken oder auf die Tasten „SHIFT+ENTERGROSEN“ klicken, wird am Terminal ein Datenrahmen mit drei Spalten und sechs Zeilen angezeigt.

Jetzt müssen wir unsere Hauptaufgabe ausführen, bei der wir diesen Datenrahmen erstellt haben, der die Kovarianz berechnet. Um die Kovarianz unter allen Spalten dieses Datenrahmens zu berechnen, haben wir eine von Pandas bereitgestellte Methode „COV ()“. Um diese Methode zu nutzen, haben wir das "die" genannt ".COV () ”-Methode mit dem Dataframe -Namen„ Note “.COV () ”. Dies berechnet die Kovarianz auf dem bereitgestellten Datenrahmen. Anschließend setzen wir diese Methode zwischen den Klammern der Methode „Print ()“, um den Datenrahmen mit einer berechneten Kovarianz auf allen Spalten anzuzeigen. Andernfalls können Sie eine Variable erstellen und die berechnete Kovarianz speichern und mit der Methode „print ()“ anzeigen.

Durch die zuvor erläuterte Ausführung des Skripts wird uns eine Matrix mit einer berechneten Kovarianz zwischen allen Spalten des DataFrame „-Schaders“ erhalten. Sie können sehen, dass alle Kovarianzwerte positiv sind.

Beispiel 2

Jetzt werden wir sehen, was passiert, wenn wir einige "Nan" (nicht eine Zahl) Werte in unserem Datenrahmen haben, und wir müssen die Kovarianz für diesen Datenrahmen berechnen. Wenn der DataFrame irgendwelche NAN -Werte hat, ignoriert die Funktion „COV ()“ diese „NAN“ -Werte und berechnet die Kovarianz zwischen den Resten der Werte.

Zu diesem Zweck haben wir den zuvor erstellten DataFrame verwendet und ihn gemäß unseren Anforderungen geändert. Wir haben einen Wert aus jeder Spalte des Datenrahmens in einen "None" -Wert geändert. Der zweite Wert der Spalte "Alpha" wird in "None" geändert, der zweite Wert der Beta -Spalte wird in "None" geändert und der fünfte Wert der Spalte "Gamma" wird ebenfalls in "None" geändert. Anschließend haben wir einfach den modifizierten DataFrame mit der Funktion „print ()“ angezeigt.

So sieht unser aktualisierter Datenrahmen mit NAN -Werten aus.

Wir berechnen jetzt seine Kovarianz. Wir haben lediglich die Funktion „COV ()“ mit dem Namen des Datenrahmens aufgerufen und diese Funktion als Parameter an die Methode „Print ()“ übergeben, um die berechnete Kovarianz mit „NAN“ -Werten anzuzeigen.

Wenn wir das zuvor erwähnte Skript ausführen, wird uns die Kovarianz angezeigt, die für alle Spalten im Datenrahmen berechnet wurde, wobei die Kovarianz zwischen diesen Spalten mit „NaN“ -Werten nach dem Ignorieren der „NAN“ -Werte negativ ist.

Beispiel 3

Sie haben gelernt, wie man die Kovarianz unter allen Spalten des Datenrahmens mit oder ohne "NAN" -Werte berechnet. Hier machen wir Sie mit einer anderen Technik der Verwendung der Funktion „COV ()“ vertraut. Diese Technik berechnet die Kovarianz zwischen zwei Pandas -Serien. Wir verwenden den Datenrahmen, den wir im ersten Abbild dieses Handbuchs erstellt haben. Aus diesem Datenrahmen erstellen wir zwei Pandas -Serien.

Um eine Serie zu erstellen, beschäftigen wir die „PD.Serie () ”Funktion. Zwischen seinen Zahnspangen können Sie die Werte manuell definieren, aber in unserer Illustration erstellen wir die Serie aus dem zuvor erstellten DataFrame „Note“ aus dem DataFrame „Note“. Daher geben wir den Spaltennamen mit dem Dataframe -Namen zwischen der „PD.Serie () ”Funktion„ PD.Serie (Klasse ['Alpha']) ”. Dann speichern wir diese Serie in einer Variablen „V1“. Wir erstellen eine andere Serie mit den gleichen Schritten mit der Spalte "Gamma" des DataFrame "Grade", diesmal wie „PD“.Serie (Klasse ['Gamma']) und speichern sie in Variablen "v2".

Wir verwenden die "print ()" -Methode, um sowohl "v1" als auch "v2" zu drucken. Im letzten Schritt berechnen wir die Kovarianz, indem wir die „COV ()“ -Methode anrufen. Schreiben Sie den Titel der ersten Serie mit dem ".COV () ”-Funktion und dann die zweite Serie in ihren Zahnspangen als„ V1.COV (v2) ”. Geben Sie dies als Parameter an die Methode „print ()“ über, um sie anzuzeigen.

Dies ergibt uns die folgende Ausgabe mit der berechneten Kovarianz zwischen den beiden Pandas -Serien.

Abschluss

Die Berechnung der Kovarianz zwischen allen Spalten des Datenrahmens oder zwischen den beiden aus dem Datenrahmen erstellten Serien kann mit einer einfachen und effektiven PANDAS -Funktion durchgeführt werden - "CoV ()". Dieser Artikel lieferte Ihnen die praktische Implementierung von Python -Codes, die im Tool „Spyder“ ausgeführt wurden. Die erste Abbildung wurde Ihnen erklärt, die Kovarianz unter den Spalten von Pandas DataFrame abzuschätzen. Das zweite Beispiel basierte auf dem Erlernen der Kovarianzberechnung mit „NAN“ -Werten. Und das letzte Beispiel konzentrierte sich darauf, die Kovarianz unter zwei Pandas -Serien zu finden. Wir haben in diesem Artikel jeden Minderjährigen auf wichtige Details ausgearbeitet, um das Lernen für Sie zu machen.