Kochentfernung in Python

Kochentfernung in Python
Die Entfernung von Cook ist ein nützlicher Ansatz zur Identifizierung von Ausreißern und den Einfluss jeder Beobachtung auf ein bestimmtes Regressionsmodell. Es kann bei der Entfernung von Ausreißern und der Untersuchung helfen, welche Punkte am wenigsten zur Vorhersage von Zielvariablen beitragen. Wir werden uns die Regression, Ausreißer und die Distanz von Cook ansehen, die eine Rolle bei der Entwicklung eines guten Regressionsmodells spielt. Später werden wir auch Cooks Distanz in Python implementieren.

Was ist Regression?

Die Regressionsanalyse ist ein statistisches Instrument zur Analyse des Zusammenhangs zwischen unabhängigen und abhängigen Variablen (dies kann auch auf viele verschiedene Arten erweitert werden). Die typischste Anwendung der Regressionsanalyse ist die Prognose oder Vorhersage, wie sich eine Erfassung von Erkrankungen auf ein Ergebnis auswirkt. Angenommen, Sie hatten eine Reihe von Daten zu Schülern, die ihre GPA-, Geschlecht-, Alters- und SAT -Ergebnisse beinhalteten.

In diesem Fall könnten Sie ein grundlegendes lineares Regressionsmodell erstellen, wobei die abhängigen Faktoren GPA, Geschlecht, ethnische Zugehörigkeit und Alter und die unabhängigen Variablen als SAT -Scores sind. Sobald Sie das Modell haben, können Sie schätzen, welche frischen Schüler im SAT basierend auf den anderen vier Faktoren punkten, vorausgesetzt, es passt gut an. Ein weiteres gutes Beispiel für die Regressionsanalyse ist die Vorhersage des Hauspreises, die auf der Anzahl der Räume, Flächen und anderen Faktoren basiert.

Was verstehen wir mit linearer Regression??

Die lineare Regression ist die häufigste, unkomplizierteste und effektivste Lerntechnik zur Vorhersage kontinuierlicher Variablen. Das Ziel der linearen Regression ist es zu bestimmen, wie sich eine Eingangsvariable (unabhängige Variable) auf eine Ausgangsvariable (abhängige Variable) auswirkt. Nachfolgend sind die Elemente der linearen Regression aufgeführt:

  1. Die Eingangsvariable ist normalerweise kontinuierlich
  2. Die Ausgangsvariable ist kontinuierlich
  3. Die Annahmen der linearen Regression halten.

Die Annahmen der linearen Regression umfassen eine lineare Beziehung zwischen Eingangs- und Ausgangsvariablen, dass Fehler normalerweise verteilt sind und dass der Fehlerbegriff unabhängig von der Eingabe ist.

Was ist euklidische Entfernung?

Der kleinste Abstand zwischen zwei angegebenen Objekten in einer Ebene ist der euklidische Abstand. Wenn ein rechtes Dreieck aus den beiden angegebenen Punkten entnommen wird, entspricht es der Summe der Quadrate der Dreiecksbasis und seiner Höhe. Es wird häufig in der Geometrie für eine Vielzahl von Zwecken verwendet. Dies ist die Art von Raum, in der Linien parallel parallel bleiben und immer die gleiche Entfernung voneinander entfernt sind.

Dies ähnelt stark dem Raum, in dem Menschen wohnen. Dies zeigt an, dass der euklidische Abstand zwischen zwei Objekten mit Ihrem gesunden Menschenverstand übereinstimmt, während Sie den kürzesten Abstand zwischen zwei Objekten berechnen. Pythagoras 'Theorem wird verwendet, um es mathematisch zu berechnen. Die Entfernung von Manhattan ist eine alternative Metrik, um den Abstand zwischen zwei Stellen zu bestimmen.

Was ist Manhattan Distanz?

Die Entfernung von Manhattan wird dort berechnet, wo die Ebene in Blöcke unterteilt ist, und Sie können nicht diagonal reisen. Infolgedessen bietet Manhattan nicht immer den direktesten Weg zwischen zwei Punkten. Wenn zwei Punkte in einer Ebene (x1, y1) und (x2, y2) sind, wird der Manhattan-Abstand zwischen ihnen als | x1-x2 | berechnet | + | y1-y2 |. Dies wird üblicherweise in Städten eingesetzt, in denen Straßen in Blöcken angelegt werden, und es ist unmöglich, diagonal von einem Ort zum anderen zu gehen.

Was sind Ausreißer?

Ausreißer in einem Datensatz sind Zahlen oder Datenpunkte, die abnormal hoch oder niedrig im Vergleich zu anderen Datenpunkten oder Werten sind. Ein Ausreißer ist eine Beobachtung, die vom Gesamtmuster einer Probe abweicht. Ausreißer sollten entfernt werden, da sie die Genauigkeit eines Modells verringern. Ausreißer werden typischerweise unter Verwendung von Boxplots visualisiert. Zum Beispiel können wir in einer Klasse von Schülern erwarten, dass sie zwischen 5 und 20 liegen werden. Ein 50-jähriger Schüler in der Klasse würde als Ausreißer angesehen, da er nicht zum regulären Trend der Daten „gehört“.

Das Zeichnen der Daten (normalerweise mit einem Box -Diagramm) ist möglicherweise die einfachste Technik, um Ausreißer im Datensatz zu sehen. Statistikprozesse im Zusammenhang mit der Qualitätskontrolle können Ihnen sagen, wie weit Sie statistisch weit sind (je nach Wahrscheinlichkeitsstandardabweichungen und Konfidenzniveaus). Beachten Sie jedoch, dass ein Ausreißer nur ein Ausreißer ist, wenn Sie über genügend Informationen über die Daten verfügen, um zu erklären, warum er sich von den anderen Datenpunkten unterscheidet, und so den Begriff „Ausreißer zu rechtfertigen.Andernfalls müssen die Daten als zufälliges Ereignis behandelt werden. Sie sollten im Datensatz aufbewahrt werden - und Sie müssen das weniger wünschenswerte (i) akzeptieren.e., weniger wünschenswerte Ergebnisse aufgrund der Aufnahme des Datenpunkts des Datenpunkts.

Was ist Cooks Entfernung?

Der Abstand des Kochs in der Datenwissenschaft wird verwendet, um den Einfluss jedes Datenpunkts als Regressionsmodell zu berechnen. Die Durchführung einer Regressionsanalyse mit kleinster Quadrat. R. Dennis Cook, ein amerikanischer Statistiker, hat dieses Konzept entstanden, weshalb es nach ihm benannt ist. In der Entfernung von Cook werden die Werte verglichen, um festzustellen, ob das Entfernen der Strombeobachtung das Regressionsmodell beeinflusst. Je größer der Einfluss einer bestimmten Beobachtung auf das Modell ist, desto größer ist der Abstand des Kochs dieser Beobachtung.
Mathematisch wird Cooks Distanz als dargestellt als

Di = (di2 / c * m) * (hii / (1-hii) 2)

Wo:
Dich ist das ith Datenpunkt
C repräsentiert die Anzahl der Koeffizienten im angegebenen Regressionsmodell
M ist mittlerer quadratischer Fehler, der verwendet wird, um die Standardabweichung von Punkten mit dem Mittelwert zu berechnen
Hii ist das ith Nutzen Sie den Wert.

Schlussfolgerungen von Cooks Entfernung

  1. Ein wahrscheinlicher Ausreißer ist ein Datenpunkt mit der Entfernung eines Kochs mehr als das Dreifache des Mittelwerts.
  2. Wenn es N -Beobachtungen gibt, gilt jeder Punkt mit Cooks Abstand von größer als 4/n einflussreich.

Implementierung von Cooks Distanz in Python

Lesen der Daten
Wir werden ein 2-D-Array lesen, in dem 'x' die unabhängige Variable darstellt, während 'y' die abhängige Variable darstellt.

Pandas als PD importieren
#create DataFrame
df = pd.DataFrame ('x': [10, 20, 30, 40, 50, 60],
'Y': [20, 30, 40, 50, 100, 70])

Erstellen des Regressionsmodells

Statsmodels importieren.API als sm
# Abhängige Werte speichern
Y = df ['y']
# Unabhängige Werte speichern
X = df ['x']
X = sm.add_constant (x)
# Passen Sie das Modell an
Modell = sm.OLS (y, x)
Modell.fit()

Berechnen Sie die Entfernung des Kochs

Numph als NP importieren
np.set_printoptions (Suppress = true)
# Erstellen Sie die Instanz des Einflusses
Einfluss = Modell.get_influence ()
# Holen Sie sich die Entfernung von Cook für jede Beobachtung
cooks_distances = Einfluss.Cooks_Distance
# Drucken des Kochs Distanzen des Kochs
print (Cooks_distances)

Andere Ausreißererkennungstechnik

Interquartilbereich (IQR)
Der Interquartilbereich (IQR) ist ein Maß für die Datendispersion. Es ist besonders effektiv für erheblich verzerrte oder andere außergewöhnliche Daten. Zum Beispiel sind Daten zu Geld (Einkommen, Eigentum und Autopreise, Einsparungen und Vermögenswerte usw.) häufig nach rechts verzerrt. Wie andere betont haben.

Abschluss

Wir haben die Beschreibung der Entfernung von Cook, seinen verwandten Konzepten wie Regression, Ausreißern und wie wir sie verwenden, um den Einfluss jeder Beobachtung in unserem Datensatz zu finden. Die Entfernung von Cook ist wichtig, um die Ausreißer zu untersuchen und welche Auswirkungen jede Beobachtung auf das Regressionsmodell haben. Später haben wir auch Cooks Distanz mit Python auf einem Regressionsmodell implementiert.