Logistische Regression in r

Logistische Regression in r
In Data Science und Statistics ist es ein Regressionsmodell, wenn die abhängige Variable zu kategorialen Werten wie True/False, Ja/Nein oder 0/1 führt. Normalerweise ist das logistische Regressionsmodell binomial. Es kann jedoch verlängert werden. Es misst die Wahrscheinlichkeit der Erfolgsfähigkeit oder des Versagens eines Ereignisses als abhängige Variable, die auf einer mathematischen Gleichung basiert. Diese Gleichung bezieht die abhängige Variable (Antwortvariable) mit den unabhängigen Variablen (Prädiktor).

Wir können sagen, dass logistische Regression eine verallgemeinerte Form der linearen Regression ist, aber die Hauptdifferenz liegt im vorhergesagten Wertebereich (-∞, ∞), während der Bereich des vorhergesagten Wertes in der logistischen Regression (0,1) beträgt (0,1). In diesem Beitrag werden wir uns über die logistische Regression und die Umsetzung in der R -Programmiersprache kennenlernen.

Warum logistische Regression verwenden

Nach dem Verständnis der Beziehung zwischen unabhängigen (Prädiktorvariablen) und abhängigen (Antwortvariable) wird häufig eine lineare Regression verwendet. Wenn die abhängige Variable kategorisch ist, ist es besser, logistische Regression zu wählen. Es ist eines der einfachsten Modelle, aber in verschiedenen Anwendungen sehr nützlich, da es einfach zu interpretieren und schnell zu interpretieren ist.

In der logistischen Regression versuchen wir, die Daten/Beobachtung in verschiedene Klassen zu kategorisieren, was zeigt, dass logistische Regression ein Klassifizierungsalgorithmus ist. Die logistische Regression kann in verschiedenen Anwendungen nützlich sein, wie z. B.:

Wir können den Kreditaufzeichnungen und den Bankguthaben eines Kunden verwenden, um vorherzusagen, ob der Kunde das Darlehen von der Bank aufnehmen kann oder nicht (Reaktionsvariable ist „berechtigt“ oder „nicht berechtigt. Sie können über die obige Bedingung zugreifen, dass die Antwortvariable nur zwei Werte haben kann. Während in der linearen Regression die abhängige Variable kontinuierlich mehr Mehrwerte erfolgen kann.

Logistische Regression in R in Ubuntu 20.04

In R, wenn die Antwortvariable binär ist, besteht das Beste, einen Wert eines Ereignisses vorherzusagen, die Verwendung des logistischen Regressionsmodells. Dieses Modell verwendet eine Methode, um die folgende Gleichung zu finden:

Log [p (x) / (1-p (x)) = β0 + β1x1 + β2x2 +… + βpxp

XJ ist die JTH -Prädiktorvariable und βJ ist die Koeffizientenschätzung für den XJ. Eine Gleichung wird vom logistischen Regressionsmodell zur Berechnung der Wahrscheinlichkeit verwendet und erzeugt die Beobachtung/den Wert von Wert 1. Das bedeutet, dass der Ausgang mit einer Wahrscheinlichkeit von 0 entspricht.5 oder höher wird als Wert 1 angesehen. Abgesehen davon werden alle Werte als 0 angesehen.

p (x) = eβ0 + β1x1 + β2x2 +… + βpxp / (1 + eβ0 + β1x1 + β2x2 +… + βpxp)

Das folgende Schritt-für-Schritt-Beispiel lehrt Ihnen, wie Sie die logistische Regression in R verwenden können.

Schritt 1: Laden Sie die Daten für das Modell in r
Zunächst müssen wir einen Standarddatensatz laden, um die Verwendung des Modells zu demonstrieren. Dieser Datensatz besteht aus 1000 Beobachtungen, wie unten angezeigt.

In diesen Datensatzspalten zeigt die Standardeinstellung an, ob eine Person eine Standardeinstellung ist. Der Schüler zeigt, ob eine Person ein Schüler ist. Saldo zeigt den durchschnittlichen Restbetrag einer Person. Und Einkommen zeigt das Einkommen einer Person an. Um ein Regressionsmodell aufzubauen, werden Status, Bankguthaben und Einkommen verwendet, um vorherzusagen, dass die Wahrscheinlichkeit der Einzelpersonen ausgeschlossen ist.

Schritt 2: Trainings- und Testprobenerstellung
Wir werden den Datensatz in einen Testsatz und einen Trainingssatz unterteilen, um das Modell zu testen und zu trainieren.

70% der Daten werden für den Trainingssatz und 30% für den Testsatz verwendet.

Schritt 3: Anpassung der logistischen Regression
In R müssen wir eine GLM -Funktion verwenden und die Familie auf Binomial setzen.

In logarithmischen Quoten wird die durchschnittliche Änderung durch die Koeffizienten angezeigt. Der p-Wert des Studentenstatus beträgt 0.0843 p-Wert des Gleichgewichts ist <0.0000, P-value of income is 0.4304. These values are showing how effectively each independent variable is at predicting the likelihood of default.

Um zu überprüfen, wie gut unser logistisches Modell in Daten passt, wird R2 -Metrik verwendet. Es reicht von 0 bis 1. Wenn der Wert nahe 0 liegt, zeigt er an, dass das Modell nicht angepasst ist. Werte über 0 jedoch.40 werden als Fit -Modell angesehen. Die PR2 -Funktion kann verwendet werden, um McFaddens R2 zu berechnen.

Da der obige Wert über 0 liegt.472 zeigt es an, dass unser Modell eine hohe Vorhersageleistung hat und das Modell fit ist.

Die Bedeutung einer Funktion kann auch durch die Verwendung der Varimp -Funktion berechnet werden. Der höhere Wert zeigt an, dass die Bedeutung dieser Variablen höher ist als andere.

Schritt 4: Verwenden Sie das logistische Regressionsmodell, um Vorhersagen zu treffen
Nach dem Anpassung des Regressionsmodells können wir keine Vorhersagen darüber treffen, ob eine Person in verschiedenen Werten des Gleichgewichts, des Einkommens und des Status des Schülers ausfällt:

Wie wir sehen können, beträgt das Einkommen, wenn der Restbetrag 1400 ist.02732106 Wahrscheinlichkeit einer Verfälschung. Andererseits hat eine Person, die die gleichen Parameter hat, aber der Schülerstatus „Nein“ eine 0 hat.0439 Wahrscheinlichkeit einer Verwirklichung.

Um jede Person in unserem Datensatz zu berechnen, wird der folgende Code verwendet.

vorhergesagt <- predict(model, test, type="response")

Schritt 5: Diagnose des logistischen Regressionsmodells:
In diesem letzten Schritt werden wir die Leistung unseres Modells in der Testdatenbank analysieren. Standardmäßig haben die Personen eine Wahrscheinlichkeit von mehr als 0.5 wird "Standard" vorhergesagt. Verwenden Sie jedoch die optimalCutoff () Die Funktion maximiert die Präzision unseres Modells.

Wie wir oben sehen können, 0.5451712 ist das optimale Wahrscheinlichkeitsstörung. Also eine Person mit einer Wahrscheinlichkeit von 0.5451712 des „Standards“ oder größer wird als „Standard“ angesehen. Eine Person hat jedoch eine Wahrscheinlichkeit von weniger als 0.5451712 wird als "nicht standardmäßig" angesehen

Abschluss

Nachdem Sie dieses Tutorial durchlaufen haben, sollten Sie mit der logistischen Regression in der R -Programmiersprache in Ubuntu 20 vertraut sein.04. Sie können auch identifizieren, wann Sie dieses Modell verwenden sollten und warum es bei Binomialwerten wichtig ist. Mit Hilfe von Codes und Gleichungen haben wir die fünf Schritte der Verwendung der logistischen Regression in R mit Beispielen implementiert, um sie ausführlich zu erklären. Diese Schritte decken alles ab, beginnend mit dem Laden von Daten auf R, Training und Testen des Datensatz.