Duplikate in r entfernen

Duplikate in r entfernen
„Eine der schwierigsten Aufgaben für einen Datenwissenschaftler ist die Datenreinigung. Wir löschen differenzieren Sie in Abhängigkeit von bestimmten Bedingungen wie Spaltenwerte häufig Duplikate, um den Datensatz genau zu untersuchen. In diesem Artikel werden wir untersuchen. Doppelte Werte können in einem Datensatz vorhanden sein, und doppelte Zeilen müssen erkannt und beseitigt werden, um die Redundanz und genau zu erhalten. Wir werden überprüfen, ob unser Datensatz doppelte Daten enthält, und wenn ja, werden wir sie löschen.”

So entfernen Sie Duplikate im R in Ubuntu 20.04?

Sie werden feststellen, wie Sie in diesem R -Tutorial die Duplikation aus einem Datenrahmen entfernen können. Sie werden verstehen, wie Sie zuerst doppelte Zeilen, dann Spalten loswerden. Wir werden uns untersuchen.

Beispiel 1: Erkennen doppelter Daten in R in Ubuntu 20 Erkennen.04

Wir werden die doppelte () -Funktion verwenden, um doppelte Zeilen zu identifizieren, wodurch ein Zahlenwert der gesamten doppelten Zeilen zurückgegeben wird.

Hier haben wir die aufgezeichneten Daten gezeigt, die die Namen der Spalten als Englisch, Wissenschaft und Mathematik enthält. Außerdem haben wir verschiedene doppelte Zeilen in diesen Daten. Dann haben wir eine doppelte Funktion, an die wir die Ergebnisvariable als Argument übergeben haben. Sobald wir den Befehl dieser doppelten Funktion ausgeführt haben, werden die Booleschen Werte generiert. Es zeigt alle falschen Werte an, da im Datenrahmen keine Redundanz vorhanden ist.

Beispiel Nr. 2: Entfernen von doppelten Daten mithilfe der eindeutigen Methode in R in Ubuntu 20.04

Verwenden Sie die Funktion "Unique () in r.

Hier haben wir einen Datenrahmen, der den Feldnamen, die ID und das Gehalt des Mitarbeiter enthält und in der variablen emp_data gespeichert ist. Anschließend wird die EMP_DATA ausgeführt, die den Datenrahmen in der tabellarischen Form generiert. Jetzt haben wir eine eindeutige Funktion verwendet, um den eindeutigen Datensatz aus den Daten zu extrahieren. In der einzigartigen Funktion haben wir die emp_data übergeben. Die aus der eindeutigen Funktion generierte Ausgabe hat die doppelte Zeile aus dem angegebenen Datenrahmen entfernt.

Beispiel Nr. 3: Entfernen von doppelten Daten mithilfe der unterschiedlichen Methode in R in Ubuntu 20.04

Die unterschiedliche Funktion ist eine der am häufigsten verwendeten Datenmanipulationsbibliotheken in der R -Sprache und wird vom DPLE -Paket bereitgestellt. Die unterschiedliche Funktion wählt Zeilen in einem Datenrahmen, die alle eindeutig sind. Der Datenrahmen ist das anfängliche Argument, gefolgt von den Variablen, die während der Auswahl berücksichtigt werden müssen. Für die Filterung der eindeutigen Zeilen können viele variable Spalten bereitgestellt werden, aber wir werden in der folgenden Stichprobe einzelne variable Instanzen anzeigen. Das dritte Argument ist nicht obligatorisch und hat standardmäßig den Wert falsch; Wenn der Benutzer jedoch TRUE ausdrücklich angibt, führt die Funktion alle Variablen im Datenrahmen nach der Filtration bei. Es ist erwähnenswert. Insbesondere die Notation x %? % f (y) wird f (x, y).

Hier haben wir ein Data Frame Products_Results, der in der tabellarischen Form angezeigt wird. Sie können die redundanten Zeilen im Datenrahmen von Products_Result sehen. Wir können diese Duplikate mithilfe der unterschiedlichen Funktion entfernen. In unserem nächsten Befehl haben wir das Products_Result in der unterschiedlichen Funktion als Argument verwendet. Jetzt zeigt der Datenrahmen den Datensatz des Datenrahmens ohne doppelte Zeilen an.

Im vorherigen Datenrahmen wurden zwei Zeilen im Datenrahmen zweimal erschienen.

Beispiel Nr. 4: Entfernen von doppelten Daten mithilfe der Gruppe Group_By in R in Ubuntu 20.04

Eine weitere Option zum Entfernen von doppelten Zeilen basierend auf Spalten besteht darin, den Datensatz mit den Spaltenvariablen zu clustern und dann die Filter- und Duplikatmethoden zum Filterelemente zu verwenden. Sein erster Schritt wird mit der Gruppe des DPLYR -Pakets nach Funktion abgeschlossen. Das Ergebnis des vorangegangenen Betriebs wird dann in die Filterfunktion übertragen, die doppelte Zeilen beseitigt.

Hier ist unser erster Schritt, die DPLYR -Bibliothek zu importieren, die die Funktion "Group_By Filter" im R -Skript unterstützt. Anschließend haben wir einen Datenrahmen erstellt, der den Aufzeichnungen der Teams an zufälligen Tagen enthält. Wir haben auch das Geschlecht für den Datenrahmen angegeben. Wenn der Datenrahmen auf dem Bildschirm gedruckt wird, können wir die Redundanz in jeder Spalte sehen. Wir können dies durch die Verwendung der filterfunktion Group_By beseitigen. In der folgenden Abbildung wird die Funktion Group_by aufgerufen und dauert die Spalte „Tag“ als Argument in der Variablen T1. Anschließend wird der Filter auf die doppelte Funktion angewendet, in der die Spalte „Tag“ übergeben wird. Wenn wir den T1 ausführen, entfernt es nur die Duplikate aus der Spalte „Tag.”

Gleich wie oben haben wir die filterfunktion Group_by auf die Spalte „Sex angewendet“ angewendet.”

Hier haben wir die Duplikate aus der Spalte „Team“ aus der filterfunktion Group_By entfernt.

Beispiel Nr. 5: Entfernen von doppelten Daten mithilfe der Gruppe Group_By Slice in R in Ubuntu 20.04

Alternativ kann die Gruppe nach Funktion in Verbindung mit einer Scheibe verwendet werden, um doppelte Zeilen basierend auf Spaltenwerten zu löschen. Slice ist ein DPLER -Paket, das Zeilen nach Index wählt. Wenn der angegebene Datenrahmen gruppiert ist, wählt das Slice die Zeilen in jeder Gruppe basierend auf dem angegebenen Index aus, wie im folgenden Beispielcode zu sehen ist.

Oben haben wir den Datenrahmendatensatz erstellt und angezeigt. Hier haben wir nur zwei Spalten mit redundanten Werten. Dadurch können wir die Funktion Group_by beseitigen, indem wir das COL1 darin bereitstellen und dann die Slice -Funktion darauf anwenden.

Jetzt wurden die doppelten Zeilen aus dem COL1 entfernt, sodass wir auch die COL2 -Redundanz entfernt haben. Daher wurde die Duplikate -Zeile aus dem folgenden Datenrahmen beseitigt.

Abschluss

An diesem Punkt in der Lektion haben Sie gelernt, wie man die R -Sprache verwendet, um doppelte Zeilen zu identifizieren und zu beseitigen, die mehrmals erscheinen. Verwenden Sie grundlegende Funktionen wie Unique () und Duplicated (), um redundante Zeilen oder Spalten aus einem Vektor- oder Datenrahmen zu beseitigen. Verwenden Sie die Methode "CHEIDHUP () im DPLYR -Paket, wenn Sie mit einem großen Datensatz arbeiten und doppelte Einträge entfernen möchten. Außerdem können wir die Methode Group_By, Filter und Slice verwenden, um die duplizierte Zeile und die Spalten in R. zu entfernen.