Was ist Datenverarbeitung?
Datenvorverarbeitung ist eine kritische Phase im maschinellen Lernen, die die Datenqualität verbessert, um das Extrahieren wertvoller Erkenntnisse aus den Daten zu fördern. Die Datenvorbereitung im maschinellen Lernen ist der Prozess, um die Rohdaten vorzubereiten (Reinigung und Organisation), um maschinelles Lernmodelle zu erstellen und zu trainieren. Datenvorverarbeitung im maschinellen Lernen ist, um es einfach auszudrücken, ein Data Mining -Ansatz, der Rohdaten in ein Format umwandelt, das lesbar und verständlich ist.
Warum brauchen wir Datenvorverarbeitung?
Daten in der realen Welt fehlen häufig bestimmte Attributwerte oder -trends und sind häufig inkonsistent, fehlerhaft (enthält Fehler oder Ausreißer) und unvollständig. Die Datenvorbereitung kommt in dieser Situation ins Spiel, da sie die Rohdaten reinigen, formatieren und organisieren, wodurch sie für maschinelle Lernmodelle verwendet werden können.
Datenvorverarbeitung befasst sich mit den folgenden:
Standards für die Scikit-Learn-API
Es gibt mehrere Spezifikationen für die Art von Daten, die der Sklearn verarbeiten wird.
Implementierung der Vorverarbeitung sklearn
Importieren der Bibliotheken und Daten
# Importieren der Bibliotheken und KlassenLaden Sie die ersten 5 Zeilen der Daten
df.Kopf()Ausgang
Sepallänge (cm) | Sepalbreite (CM) | Blütenblattlänge (cm) | Blütenbreite (CM) | |
---|---|---|---|---|
0 | 5.1 | 3.5 | 1.4 | 0.2 |
1 | 4.9 | 3.0 | 1.4 | 0.2 |
2 | 4.7 | 3.2 | 1.3 | 0.2 |
3 | 4.6 | 3.1 | 1.5 | 0.2 |
4 | 5.0 | 3.6 | 1.4 | 0.2 |
Informationen zu Typen und Nullwerten erhalten
df.die Info()Ausgang
RangeIndex: 150 Einträge, 0 bis 149Füllen Sie fehlende Werte des Datenrahmens mit sklearn aus:
Impter = SimpleImputer (Strategie = 'Mittelwert')Wir können alle Spalten für die Ausführung dieser Aufgabe in allen Spalten itererieren.
Skalierung der Daten mit Standardskaler
Scaler = StandardsCaler ()Ausgang
Array ([[-0).90068117, 1.01900435, -1.34022653, -1.3154443],Eine heiße Kodierung
CNODER = ONEHOTENCODER (Handle_UunkNOWN = 'Ignore')Ausgang
[Array (['A', 'B'], dType = Object), Array ([1, 2, 3], dType = Objekt)]Abschluss
Wir haben in diesem Artikel die Vorverarbeitung und ihre Implementierung in der Sklearn Python -Bibliothek besprochen. Um die Extraktion nützlicher Erkenntnisse aus den Daten zu erleichtern, ist die Datenvorverarbeitung ein entscheidender Schritt im maschinellen Lernen. Es erhöht die Qualität der Daten. Dann diskutierten wir die Implementierung in Sklearn. Wir haben zuerst Informationen zu Daten abgerufen, einschließlich der fehlenden Werte und Datentypen, und dann die fehlenden Werte ausgefüllt. Wir haben auch an der Skalierung der Daten und einer heißen Kodierung gearbeitet.