Verwirrungsmatrix in Sklearn LinuxHint

Verwirrungsmatrix in Sklearn LinuxHint
„Eine kostenlose Bibliothek für maschinelles Lernen auf Python heißt Scikit-Learn. Es enthält verschiedene Klassifikationen, Regressionen und Clustering -Techniken, die wir verwenden können, um hilfreiche Vorhersagen anhand unserer Daten zu treffen. Eine Verwirrungsmatrix ist eine Statistik, die die Richtigkeit und Genauigkeit eines Modells bestimmt. Es kann verwendet werden, um Kategorisierungsprobleme anzugehen, die entweder binär oder mit mehreren Klassen handeln. In diesem Artikel wird die Verwirrungsmatrix und ihre Implementierung in Sklearn erörtert.”

Was ist eine Verwirrungsmatrix?

Die Genauigkeit und Korrektheit des Modells werden unter Verwendung der Verwirrungsmatrix gemessen. Es kann auf Binär- oder Mehrfachklassifizierungsprobleme angewendet werden. Viele Metriken werden anhand der Verwirrungsmatrixmessungen gemessen, obwohl es kein direktes Maß für die Leistung ist. Eine Verwirrungsmatrix ist eine mehrdimensionale Matrix, bei der die vorhergesagten Werte in den Zeilen und den wahren Werten in den Spalten dargestellt werden. Die Zielvariable in einem Binärklassifizierungsproblem enthält zwei Werte, 1 oder 0, die als tatsächliche Werte als bezeichnet werden WAHR oder FALSCH, bzw. Die Vorhersagen des Modells werden als erwartete Werte bezeichnet.

Quelle: Erkundung.Ai

Wahre Positive (TP)

True Positives sind die Anzahl der Fälle, in denen der tatsächliche Wert einer Datenprobe mit dem erwarteten Wert übereinstimmt.

Wahre Negative (TN)

True Negative ist eine Statistik, die die Anzahl der Fälle zählt, in denen der tatsächliche Wert einer Datenprobe Null ist und der erwartete Wert ebenfalls Null ist.

Fehlalarme (FP)

Fehlalarme beziehen sich auf die Anzahl der Vorkommen, bei denen der tatsächliche Wert einer Datenprobe 0 beträgt, der vorhergesagte Wert jedoch 1 ist.

Falsche Negative (FN)

Falschnegative ist eine Statistik, die die Anzahl der Vorkommen zählt, bei denen der tatsächliche Wert einer Datenprobe 1 beträgt, der projizierte Wert jedoch 0 beträgt, 0.

Die Leistung des Modells wird günstig sein, mit größeren Werten von TP und TN und niedrigeren Werten von FP und FN, basierend auf der Bedeutung der vorhergehenden Terminologie. Das Modell sollte geschult werden, um TP und TN zu maximieren und gleichzeitig die FP- und FN -Werte zu minimieren. Wenn beide, welche von FP und FN minimiert werden sollte, hängt von den Anforderungen des Kategorisierungsproblems ab. Das Einhalten falscher Negative auf ein Minimum ist im medizinischen Bereich von entscheidender Bedeutung.

Nehmen wir beispielsweise an, dass die Klassifizierungsherausforderung feststellt, ob der Patient eine signifikante Krankheit wie Krebs oder HIV hat oder nicht. Nehmen wir zum Beispiel, wenn der Patient Krebs hat, was durch 1 dargestellt wird und ob der Patient keinen Krebs hat, was durch 0 dargestellt wird. In diesem Szenario ist es normalerweise vorzuziehen, falsch positive Ergebnisse über falsche Negative zu reduzieren.

Wenn ein Patient Krebs hat (1) und das Modell ein negatives (0) - falsch negative Vorhersagen - der Patient und die Diagnose könnten gefährdet sein. Infolgedessen muss FN so weit abnehmen wie machbar. Andererseits, wenn der Patient keinen Krebs hat (0), aber das Modell sagt voraus, dass er Krebs hatte (1) - falsch positiv - dies wird weniger Auswirkungen haben, da in den meisten Fällen nachfolgende Tests für entscheidende Krankheiten durchgeführt werden bevor die Krankheit als positiv bestätigt wird. Infolgedessen sind falsch positive Ergebnisse falsch negativ in diesem Problem vorzuziehen.

Vorteile der Verwirrungsmatrix

  • Es zeigt, wie jedes Klassifizierungsmodell bei Vorhersagen ratlos ist.
  • Die Verwirrungsmatrix zeigt die Arten von Fehlern an, die von Ihrem Klassifikator zusätzlich zu den Fehlern gemacht werden, die erstellt werden.
  • Mit dieser Aufschlüsselung können Sie die Probleme umgehen, indem Sie sich vollständig auf die Klassifizierungsgenauigkeit verlassen.
  • Jede Spalte der Verwirrungsmatrix zeigt Instanzen dieser projizierten Klasse an.
  • Jede Zeile der Verwirrungsmatrix kartiert auf eine tatsächliche Klasseninstanz.
  • Es enthüllt nicht nur die Fehler eines Klassifikators, sondern auch die Fehler, die Menschen begehen

Wie berechnen Sie Verwirrungsmatrizen??

Im Folgenden finden Sie die Schritte zur Berechnung von Verwirrungsmatrizen:

  • Sie sollten einen Test- oder Validierungsdatensatz mit den erwarteten Ergebniswerten haben.
  • Prognen Sie als nächstes jede Zeile in Ihrem Testdatensatz vor.
  • Im Folgenden sind die erwarteten Ergebnisse und Vorhersagen aufgeführt:
  1. Die Anzahl der korrekten Vermutungen für jede Klasse.
  2. Die Gesamtzahl der ungenauen Vorhersagen für jede Klasse wird nach der projizierten Klasse sortiert.

Implementierung der Verwirrungsmatrix in Sklearn

# Importieren der erforderlichen Etiketten
von Sklearn.Metriken Import Confusion_Matrix
# Die wahren Beschriftungen des angegebenen Datensatzes
y_true = [1, 2, 0, 2, 1, 0]
# Die vorhergesagten Beschriftungen des angegebenen Datensatzes
y_pred = [1, 0, 1, 2, 0, 1]
# Holen Sie sich die Verwirrungsmatrix des Datensatzes
Confusion_matrix (y_true, y_pred)

Ausgang

Array ([[0, 2, 0],
[1, 1, 0],
[1, 0, 1]])

Abschluss

Wir haben die Verwirrungsmatrix und ihre Implementierung in Sklearn kennengelernt. Sklearn ist eine beliebte Python-basierte ML-Bibliothek, die verschiedene Metriken und Algorithmen implementiert. Die Verwirrungsmatrix bestimmt die Genauigkeitsmetriken von Klassifizierungsproblemen, die auf wahren Positiven oder wahren Negativen oder falschen positiven oder falschen Negativen basieren.