Pandas -Korrelationsmethode

Pandas -Korrelationsmethode
"Pandas" ist eine Python -Bibliothek, mit der wir Daten analysieren. Es handelt. Die Werte werden im Zeilen- und Spaltformat unter Verwendung eines zweidimensionalen Datenmodells aufbewahrt, das als "Pandas DataFrame" bezeichnet wird.

Jetzt können Pandas bei der Herstellung einer Vielzahl von Datenanalysekarten helfen. Korrelation ist eine Technik. Korrelation ist eine sehr nützliche Statistik, die angibt, wie zwei Datensätze miteinander zusammenhängen. Der Pandas "DataFrame".Corr () ”“ kann verwendet werden, um die Korrelation zwischen zwei oder sogar mehr Spalten in einem Datenrahmen zu ermitteln. Eine positive Korrelation bedeutet, dass die Werte in einer Gruppe mit einem Anstieg der anderen weiter steigen, während eine negative Korrelation impliziert, dass die Werte in einer Gruppe mit einem Anstieg der anderen weiter sinken.

Pandas DataFrame.corr () Funktion

Wir können den PANDAS -Datenrahmen verwenden.Corr () ”-Funktion durch Befolgen der unten angegebenen Syntax:


Wenn Sie die Methode „Corr ()“ verwenden, um die Korrelation des Pearson zwischen zwei Pandas -Spalten zu berechnen. Sie können die Methode auch explizit auf einem Datenrahmen verwenden, um eine Matrix paariger Korrelationen zwischen verschiedenen Spalten zu generieren.

Beispiel 1

In diesem Beispiel finden wir die Korrelation zwischen drei Spalten eines Datenrahmens. Für die praktische Implementierung dieser Methode in Python haben wir das Tool „Spyder“ verwendet. Öffnen Sie eine neue Python -Datei im Tool "Spyder". Die wichtigste Voraussetzung beim Schreiben des Skripts besteht darin, relevante Bibliotheken zu importieren. Da wir eine "Pandas" -Methode implementieren müssen, haben wir "Pandas als PD importieren", um auf die Funktionen von "Pandas" zuzugreifen.

Dann beginnen wir unseren Hauptpython -Code. Wir haben einen Datenrahmen erstellt, indem wir die „PD“ verwenden.DataFrame () ”Methode. Der DataFrame wird durch drei Spalten "Computer", "Chemie" und "Mathematik" initialisiert. Alle Spalten des DataFrame speichern die gleiche Wertelänge. Die erste Spalte "Computer" hat acht Ganzzahlwerte, die "80", "75", "62", "89", "63", "41", "73" und "54" sind. Die zweite Spalte, "Chemie", speichert auch acht Int -Werte "87", "67", "53", "54", "66", "82", "58" und "66". Die letzte Spalte "Math", hat Werte "93", "75", "65", "47", "83", "78", "83" und "98".

Um unseren anfänglichen DataFrame anzuzeigen, haben wir die Methode „Print ()“ mit dem Namen "Daten" von DataFrame als Parameter in der endgültigen Zeile des Skripts verwendet.


Verwenden Sie, um die Ausgabe auf dem Terminal anzuzeigen, die Schaltfläche "Datei ausführen" im Tool "Spyder" oder drücken. Die auf dem Terminal angezeigte Ausgabe zeigt einen Datenrahmen mit drei Spalten, die erfolgreich erstellt werden.


Wir haben unseren grundlegenden Datenrahmen erstellt. Jetzt müssen wir die Korrelation zwischen zwei Spalten unserer Datenrahmen finden. Für diesen Zweck haben wir Pandas „DataFrame" verwendet.Corr () ”-Funktion, die die Korrelation zwischen den beiden angegebenen Spalten aus dem Datenrahmen berechnet. Wir müssen zunächst den Titel des DataFrame mit dem ersten Spaltennamen und dann den “geben“.Corr () ”-Funktion mit dem Namen der zweiten Spalte zwischen ihren Klammern.

Hier haben wir die Spalte "Computer" und die Spalte "Mathematik" verwendet, um die Korrelation zwischen ihnen als "Daten [" Computer "zu finden.Corr (Daten ['math']) “. Wir haben eine Variable „Ergebnis“ erstellt und sie die Ausgabe des Aufrufens der “zugewiesen“.corr () ”Methode. Dann wird die Funktion „print ()“ aufgerufen, um die Korrektur beider Spalten anzuzeigen.


Im Ausgabebild können Sie sehen, dass die berechnete Korrelation zwischen den Spalten „Computer“ und „Mathematik“ in einer negativen Abbildung liegt, die die Korrelation zwischen diesen beiden Spalten zeigt.


In ähnlicher Weise können wir die Korrelation zwischen einer der beiden Spalten überprüfen. Für Ihre Bequemlichkeit haben wir hier die Korrelation zwischen zwei anderen Spalten gefunden. Diesmal haben wir die erste Spalte "Math" und die zweite Spalte "Chemie" gewählt und die "aufgerufen".corr () ”. Wir haben die Ausgabe gespeichert, die aus der Aufruf dieser Funktion generiert wird, ich.e., Die Korrelation von „Mathematik“ und „Chemie“. Jetzt können wir auf diese Ausgabe zugreifen, indem wir die Variable „Ergebnis“ verwenden. Die Funktion „print ()“ druckt einfach die Ausgabe aus.


Das aus diesem Skript generierte Ergebnis kann im Bild unten angezeigt werden. Hier ist die kalkulierte Korrelation zwischen den Spalten „Mathematik“ und „Chemie“ positiv, was bedeutet, dass ihre Korrelation positiv oder stark ist.

Beispiel # 2

Wir können auch Korrelationen zwischen allen Spalten eines Datenrahmens finden, indem wir die Pandas „DataFrame" verwenden.corr () ”Methode. In diesem Beispiel werden Sie durch seine praktische Implementierung lernen.

Zur Demonstration haben wir das "Spyder" -Tool verwendet, das wir bereits in unserem System installiert haben. Wir müssen zuerst die essentielle Bibliothek für diese Methode importieren, die Pandas ist. Wir haben das Skript "Pandas als PD importieren" verwendet, um Pandas in unsere Python -Datei im Tool "Spyder" in unsere Python -Datei zu importieren, mit der wir mit dem "PD" auf die Pandas -Module zugreifen können. Wir haben dann die „PD“ verwendet.DataFrame () ”-Funktion zum Konstruktion eines Datenrahmens. Dieser Datenrahmen hat vier Spalten "Name", "Punkte", "Assists" und "Steuern".

Jede Spalte speichert sechs Werte. Die Spalte "Name" enthält Stringwerte, die "A", "B", "C", "X", "Y" und "Z" sind. Die Spalte "Punkte" enthält sechs Ganzzahlwerte, die "17", "22", "15", "14", "24" und "21" sind. Die Spalte "Assists" hat sechs Ganzzahlwerte "2", "13", "9", "4", "12" und "10". Die letzte Spalte "Tax" hat Werte "12", "4", "6", "11", "13" und "20". Wir haben ein DataFrame -Objekt "Info" erstellt und es die Ausgabe des Aufrufens des "PD" zugewiesen.DataFrame () ”Methode. Der resultierende Datenframe -Frame wurde also aus der „PD generiert“.DataFrame () "wird in" Info "gespeichert.

Jetzt können wir mit diesem Objekt auf den Datenrahmen zugreifen. Um diesen Datenrahmen anzuzeigen, haben wir die Methode „Print ()“ mit dem DataFrame -Objekt „Info“ als Parameter verwendet.


Im vorherigen Python -Programm wird ein Datenrahmen mit vier Spalten auf dem Terminal angezeigt. Wie Sie im folgenden Bild sehen können:


Jetzt müssen wir die Korrelation zwischen allen Spalten des Datenrahmens mithilfe der Pandas „DataFrame" ermitteln.corr () ”Methode. Unser Ziel ist es, die Korrelation zwischen allen Spalten zu berechnen. Daher müssen wir nur den Namen des Datenrahmens schreiben, der „Info“ ist, mit dem “.corr () ”Methode. Wir haben eine variable „r“ erstellt, um das Ergebnis zu speichern, das wir erhalten, indem wir die "Info" aufrufen.corr () ”Methode. Wir haben schließlich den Inhalt gedruckt, der in der Variablen „R“ gespeichert wurde, indem wir die Funktion „print ()“ aufgerufen haben.


Hier haben wir unsere Ausgangskorrelation unter allen drei numerischen Spalten des Datenrahmens „Info“ erhalten. Wir können in der Ausgangs -Snapshot sehen, dass es eine negative Korrelation zwischen „Punkten“ und „Steuer“ gibt. Die "Assists" und "Steuern" teilen auch eine negative Korrelation, während alle anderen Paare eine positive Korrelation unter ihnen haben. Sie haben vielleicht festgestellt, dass die Diagonalen den Wert „1“ haben. Dies bedeutet, dass jede Spalte genau mit sich selbst verbunden ist.

Abschluss

Wir haben eine Einführung in Pandas „DataFrame.corr () ”Methode. Diese Methode ist sehr wichtig bei der Berechnung der Beziehung zwischen verschiedenen Spalten. Wir haben zwei praktische Beispiele zum "Spyder" -Tool durchgeführt. Im ersten Beispiel haben wir das Konzept ausgearbeitet und erläutert, die Korrelation zwischen zwei Spalten des Datenrahmens zu finden, während das andere Beispiel auf der Berechnung der Korrelation zwischen allen Spalten des Datenrahmens basiert. Befolgen Sie alle Schritte im praktischen Implementierungsprozess, um die PANDAS -Korrelationsmethode zu verstehen.