Vor dem Erstellen von Algorithmen für maschinelles Lernen in einem Datensatz ist die statistische Inferenzanalyse unerlässlich. Das Erhalten statistischer Schlussfolgerungen aus Daten ist ebenfalls Teil dieses Prozesses. In der Statistik beschreiben einige Schlüsselkonzepte die Variabilität einer numerischen Variablen. Diese Begriffe sind IQR, Quartile, Quantile, Mittelwert und Median. Sie helfen bei der Identifizierung von Anomalien in der Spalte und der Verteilung der Spalte. Dieser Beitrag dient zur Bestimmung der Quantil der Spalte. Die Variabilität der Daten wird anhand der Quantilfunktionen gemessen. Nach dem Sortieren der Daten können Sie Quantile verwenden, um die Zahlen in einer bestimmten Verteilung in gleiche Untergruppen zu unterteilen. Wir können die Quantile in R leicht unter Verwendung der Quantilfunktion berechnen, die alle Quantile von 0%, 25%, 50%, 75%und 100%zurückgibt.
Quantile in der R -Programmiersprache in Ubuntu 20.04
Quantil ist eine generische Funktion, die Probenquantile für bestimmte Wahrscheinlichkeiten erzeugt. Eine Wahrscheinlichkeit von 0 entspricht der kleinsten Beobachtung, während eine Wahrscheinlichkeit von 1 der größten entspricht. Dort haben wir Syntax für Quantile, die in einer R -Programmiersprache verwendet werden.
1 | quantil (x, probs = seq (0, 1, 1/4), na.rm = false, names = true, type = 5, digits = 5,…) |
Das Folgende ist eine Beschreibung des vorherigen Arguments, das in der Quantilfunktion übergeben wurde:
X: Ein Element einer Kategorie, für die eine Funktion angegeben wurde, oder ein numerischer Vektor, in dem Probenquantile erforderlich sind. Es sei denn na.RM ist „wahr“, NA- und NAN -Werte können nicht in numerischen Vektoren verwendet werden.
Probs: Die Wahrscheinlichkeit mit Werten in einem numerischen Vektor; Werte außerhalb dieses Bereichs bis zu „2E-14“ werden erkannt und auf den folgenden Endpunkt übertragen.
n / A.rm: Wenn wahr, werden alle NA- und NAN -Werte in x eliminiert, bevor die Quantile bewertet werden.
Namen: Wenn wahr, enthält die Funktion ein Namensattribut. Setzen Sie auf „Falsch“, um die Zeit zu verkürzen, die benötigt wird, um ein Problem mit einer großen Anzahl von Variablen zu lösen.
Ziffern: Wenn wahr, implementieren Sie die Genauigkeit, um Formatierungsprozentsätze zu verwenden. Intern in R -Versionen vor 4.0.x, dies wurde auf max (2, GetOption („Ziffern“) gesetzt).
In diesem Artikel wird Ihnen beigebracht, was Quantile sind und wie sie in R berechnet werden (Quartile, Oktilien, Dezile und Perzentile). Verwenden Sie das Quantile () -Verteilprogramm in R.
Beispiel 1: Verwenden einer einfachen Quantilfunktion für das Pendeln von Vektoren in R in Ubuntu 20.04
Schauen wir uns an, wie die Quantilfunktion in R mit einem einfachen Beispiel funktioniert, das die Quantile für die Dateneingabe erzeugt. Wir müssen Daten zur Anwendung der Quantilfunktionen erstellen. Hier haben wir die variablen Daten im Inneren definiert, die die Daten des Vektors enthalten. Dann wird die Quantilfunktion verwendet, bei der wir die zuvor angegebenen Daten zusammen mit der deklarierten Sequenz übergeben haben. Bei der Ausführung dieses Befehls Quantil -Funktion haben wir die Quantile der Vektoren wie in der folgenden R -Eingabeaufforderung angezeigt:
In der folgenden R -Eingabeaufforderung haben wir die Quantilfunktion für die Berechnung des Deciles erneut verwendet. Dafür haben wir die Sequenz 0, 1 und ¼ übergeben.
Hier haben wir das Interesse für die zufälligen Quantile bewertet. Wir haben die Daten innerhalb des Probs -Arguments festgelegt und gleichzeitig die Leistung der Perzentile angezeigt. Beachten Sie, dass die Quantilfunktion die Daten in gleiche Teile aufteilt, wobei der Median als Zentrum dient, die verbleibende untere Hälfte als unteres Quartil und die höhere Hälfte als oberes Quartil dient.
Beispiel 2: Verwenden der Quantiles -Funktion zum Berechnen der Spalte in einem Datenrahmen in R in Ubuntu 20.04
Wir können auch das Quantil der angegebenen Spalte aus dem Datenrahmen finden. Wir haben die Daten in der Datenrahmenfunktion im folgenden R -Skript definiert. Wir haben Listen mit den Namen "List1", "List2" und "List3" generiert, die zufällige numerische Werte haben.
Rufen Sie danach die Quantilfunktion auf und geben Sie den Spaltennamen mit dem Symbol „$“ ein, wie wir „$ list3“ für Quantile angegeben haben. Wie Sie sehen können, bringt die Quantilfunktion die Eingangswerte in aufsteigender Reihenfolge, bevor die benötigten Perzentile zurückgegeben werden.
Wir können die Funktion Sapply () wie in der R -Eingabeaufforderung verwenden, wenn wir die Quantile zahlreicher Spalten gleichzeitig bewerten möchten. Wir haben die Option der Funktion (x) in der Sapply -Funktion zusammen mit der Quantilfunktion übergeben, die die Parameter x und probs enthält. Die Ausgabe aus dieser Funktion zeigt alle Quantile der Spalten gleichzeitig an.
Beispiel 3: Verwenden der Quantiles -Funktion und der Umstellung des NAN -Fehlers in R in Ubuntu 20.04
NANs können in fast jeder Situation gefunden werden. Diese NANS, auch als fehlende Werte bekannt, werden in der heutigen datengesteuerten digitalen Welt immer häufiger. Wenn die Daten diese fehlenden Zahlen enthalten, kann die Ausgabe NANS oder Fehler enthalten. Wir haben auch Vektordaten, die einige NA -Werte enthalten, die als Vektordaten in der Quantilfunktion bezeichnet werden. Die Ausnahme wird vom unten gezeigten R -Compiler ausgelöst:
Wir können diesen Fehler entfernen, indem wir den Quantilparameter Na verwenden.rm. Wir müssen die NA einstellen.RM -Wert für „True“, was uns hilft, diese NANS -Ausnahme zu beseitigen. Wie Sie in der Ausgabe sehen können, haben wir die Perzentilwerte erhalten und die NA -Werte erfolgreich entfernt.
Beispiel 4: Verwenden der Quantilesfunktion mit Probs Parameter in R in Ubuntu 20.04
Es gibt auch die Option „Probs“, mit der Sie die erforderlichen Perzentile angeben können. Das Probs -Argument, das auch als „Wahrscheinlichkeitsargument“ bezeichnet wird, sollte zwischen 0 und 1 liegen. In der folgenden R -Skript haben wir die ProBs -Option mit den Werten 33 und 66 innerhalb der Quantilfunktion verwendet. Die Ausgabe hat eine Fehlermeldung, dass Probs außerhalb des Bereichs liegen.
Wenn Sie die Probs -Option im Bereich von 0 und 1 festlegen, werden die Perzentilwerte und nicht die falschen Werte angezeigt.
Abschluss
Wir haben versucht, unser Bestes zu tun, um die Funktion r quantile () in mehreren Dimensionen anhand verschiedener Beispiele zu beschreiben und zu untersuchen. Die Quantilform ist die wertvollste Funktion in der Datenanalyse, da sie effizient zusätzliche Daten zu bestimmten Informationen zeigt. Wir haben einige Beispiele veranschaulicht, die die Arbeit der Quantilfunktion deutlich zeigen. Ich hoffe, Sie verstehen jetzt die Quantile () -Funktion von R besser.