Logistische Regression Sklearn

Logistische Regression Sklearn

Python ist eine moderne, hochrangige objektorientierte Programmiersprache. Es ist eine einfache und einfache Programmiersprache auf hoher Ebene, die für Anfänger am besten und leicht zu verstehen ist. Die integrierten Datenstrukturen auf integrierter hoher Ebene sowie die dynamische Typisierung und Bindung machen es zu einer hervorragenden Wahl für die schnelle Anwendungsentwicklung. Die einfache Syntax macht es lesbarer, was letztendlich die Kosten für die Aufrechterhaltung des Programms verringert. Es unterstützt verschiedene Pakete und Module, in denen hervorgehoben wird. Die umfangreiche Standardbibliothek und mehrere Dolmetscher sind sowohl kostenlos als auch online erhältlich. Pythons Fähigkeit, die Produktivität erhöht zu haben, lässt die Programmierer in die Sprache verlieben.

Darüber hinaus ist der Bearbeitungs-, Test- und Debug -Zyklus unglaublich schnell, da es keinen Komplikationsschritt gibt. Python macht maschinelles Lernprinzipien einfach zu lernen und zu verstehen. Es gibt einen Blick auf die Vogelperspektive, wie man durch ein kleines oder großes maschinelles Lernprojekt tritt. In diesem Artikel geht es darum, was eine logistische Regression ist und seine Klassifizierer. Beginnen wir mit den Grundlagen der logistischen Regression.

Logistische Regressionsdefinition

Logistische Regression ist ein Klassifizierungsalgorithmus. Ein geeigneter Algorithmus zur Regressionsanalyse aus der Bruderschaft des maschinellen Lernens beschreibt Daten. Es erklärt die Beziehung zwischen mehreren Variablen, ich.e., Verhältnisniveau oder intervallunabhängige Variable, ordinale oder nominalabhängige Binärvariable. Logistische Regression wird in statistischen Modellen im Allgemeinen verwendet, um die Daten und die Beziehung zwischen abhängigen und unabhängigen Variablen zu verstehen, indem die Wahrscheinlichkeiten kategorieller abhängiger Variablen vorhergesagt werden. Wenn die Anzahl der Daten rasch zunimmt. Über maschinelles Lernen ist die Klassifizierung zum wesentlichen Bereich geworden, und eine der grundlegenden Methoden ist die logistische Regression. Am Ende dieses Artikels können Sie die logistische Regression auf verschiedenen Arten von Daten implementieren. Beginnen wir, geeignete Klassen, Funktionen und geeignete Pakete anzuwenden, um eine logistische Regression in Python durchzuführen. Eines der gängigen Python -Pakete für die logistische Regression ist Sklearn. Hier zeigen wir Ihnen ein Schritt-für-Schritt-Beispiel für logistische Regressions-Sklearn in Python, um zu verstehen.

Schritte zur Implementierung der logistischen Regression sklearn in Python

Schritt 1: Sammeln Sie die Daten

Zu Beginn eines kleinen oder großen Projekts benötigen Sie als erstes die Daten, auf denen Sie ein logistisches Regressionsmodell erstellen werden. Hier ist der Befehl zur Vorbereitung des Modells für den Datensatz.

Schritt 2: Importieren Sie die notwendigen Pakete von Python

Sobald Sie den DataPREP installiert haben, besteht der nächste Schritt darin, die für die Implementierung der logistischen Regression erforderlichen Pakete zu importieren. Hier lernen wir das Sklearn -Paket kennen, das im Grunde genommen zum Aufbau des logistischen Regressionsmodells in Python verwendet wird. Die folgenden Pakete müssen installiert werden:

Pandas als PD importieren
Numph als NP importieren
Matplotlib importieren
Matplotlib importieren.Pyplot als PLT
Importieren Sie Seeborn als SNS
von Sklearn.Vorverarbeitung importieren labelCoder
von Sklearn.Metriken Import Confusion_Matrix
von Sklearn.Metriken importieren make_scorer, accuracy_score, precision_score, rading_score, f1_score, confusion_matrix, klassification_report
von Sklearn.linear_model import logisticregression
von Sklearn.model_selection import train_test_split
aus Sklearn -Importmetriken
von Sklearn.Metriken importieren Genauigkeit_Score
von der ImbleLarn.Over_sampling Import SMOTE

Schritt 3: Laden Sie die Daten, um einen Datenrahmen zu erstellen

Der nächste Schritt besteht darin, den Datensatz zu erfassen, für den Sie den folgenden Befehl benötigen, um zu verwenden:

df = pd.Read_csv ("/Inhalt/Drive/MyDrive/Covid -Datensatz.CSV ")

Auf diese Weise können Sie die Daten aus einer externen Datei importieren. Alternativ können Sie den Datensatz jedoch in Form eines Arrays definieren.

Schritt 4: Erstellen der logistischen Regression nach dem Laden der Daten

Der nächste Schritt besteht darin, die logistische Regression in Python zu entwickeln, nachdem die Daten in eine Python -Anwendung eingeführt wurden. In diesem Schritt müssen Sie die abhängigen und unabhängigen Variablen festlegen. So können Sie die Variable festlegen:

X = df.Drop ('Covid-19', Achse = 1)
y = df ['Covid-19']

Die "x" -Variable repräsentiert die unabhängige Variable, und die Variable "y" repräsentiert die abhängige Variable. Wenden Sie nun die Funktion der train_text_split an, um die Test- und Trainingsgröße des Datensatzes festzulegen.

X_train, x_test, y_train, y_test = train_test_split (x, y, test_size = 0.20)

Schritt 5: Logistische Regression anwenden

Wenden Sie nun die logistische Regression an, indem Sie den unten angegebenen Befehl folgen:

Modell = logisticRegression ()
# Das Modell anpassen
Modell.fit (x_train, y_train)
y_pred = Modell.prognostizieren (x_test)
ACC_Logreg = Modell.Punktzahl (x_test, y_test)*100

Schritt 6: Zeichnen Sie die Verwirrungsmatrix

Der letzte Teil besteht darin, die Verwirrungsmatrix zu zeichnen, die die Genauigkeit in wahrer positiver und falsch positiver Form zeigt.

Confusion_mtx = Confusion_Matrix (y_test, y_pred)
# Die Verwirrungsmatrix zeichnen
# Die Verwirrungsmatrix zeichnen
f, ax = plt.Nebenhandlungen (AbbSize = (8, 8))
sns.Heatmap (Confusion_mtx, Annot = True, Linewidths = 0.01, cmap = "Greens", linecolor = "Gray", fmt = '.1f ', ax = ax)
PLT.xlabel ("vorhergesagtes Label")
PLT.Ylabel ("True Label")
PLT.Titel ("Verwirrungsmatrix")
PLT.zeigen()

Verwenden Sie den folgenden Befehl, um die Genauigkeit zu drucken, oder mit anderen Worten den Klassifizierungsbericht:

print (klassifizierung_report (y_test, y_pred)))

Sobald Sie alle Befehle ausgeführt haben, erhalten Sie eine Verwirrungsmatrix sowie einen Klassifizierungsbericht. Schauen Sie sich die folgende Ausgabe an.

Verwirrung Matrix:

Richtig Positiv (TP), falsch negatives (FN), wahrer negativer (TN) und falsch positives (FP) sind die vier Kernwerte in der Verwirrungsmatrix.

Klassifizierungsbericht:

Der Klassifizierungsbericht enthält die Genauigkeit des geschulten Modells, das mithilfe der Formel erreicht werden kann:

Genauigkeit = (TP + TN) / Gesamt

Abschluss:

Dieser Artikel hat uns die logistische Regression und die Sklearn -Bibliothek in Python beigebracht. Die Daten werden erläutert und die Verbindung zwischen den abhängigen und unabhängigen Variablen wird unter Verwendung der logistischen Regression beschrieben. Die Sklearn -Bibliothek in Python wird hauptsächlich in statistischen Daten verwendet, bei denen Vorhersage oder Wahrscheinlichkeit bekannt sein muss.