R Programmier -Tutorial

R Programmier -Tutorial
Sie möchten, dass Anfänger schneller R -Programmierer R -Programmierer schnell? R ist eine die beste Programmiersprache für die Arbeit mit Statistiken, Mathematik und Datenwissenschaft. Dieses Tutorial hilft Ihnen dabei, R zu lernen und Ihr erstes maschinelles Lernmodell aufzubauen. Lass uns anfangen.

Kompilieren und Ausführen von r aus der Befehlszeile

Die beiden Möglichkeiten, R -Programme auszuführen. Wir können sie direkt aus der Befehlszeile oder einem anderen Stellenplaner anrufen.

Sie können diese Befehle von einer in die IDE eingebauten Shell und heutzutage möglicherweise aufrufen.

Source () -Funktion in R ist eine gute Alternative zur Verwendung der Befehlszeile. Diese Funktion kann auch ein Skript aufrufen, aber für die Verwendung dieser Funktion müssen Sie sich in der R -Umgebung befinden.

R Sprach integrierte Datensätze

So listen Sie die mit R integrierten Datensätze auf, verwenden Sie den Befehl Data (), finden Sie dann, was Sie wollen, und verwenden Sie den Namen des Datensatzes in der Funktion data ()). Wie Daten (FunktionName).

Datensätze in r anzeigen

Das Fragezeichen (?) könnte verwendet werden, um um Hilfe für Datensätze zu bitten.

Um nach allem zu überprüfen, verwenden Sie eine Zusammenfassung ().

Plot () ist auch eine Funktion, die verwendet wird, um Diagramme zu zeichnen.

Erstellen wir ein Testskript und führen Sie es aus. Erstellen P1.R Datei und speichern Sie es das Home -Verzeichnis mit dem folgenden Inhalt:

Codebeispiel:

 # Einfacher Hallo Weltcode in R Print ("Hallo Welt!") Print (" LinuxHint ") Print (5+6) 

Hello World rennen

R Datenrahmen

Zum Speichern von Daten in Tabellen verwenden wir eine Struktur in R, die als a genannt wird Datenrahmen. Es wird verwendet, um Vektoren mit gleicher Länge aufzulisten. Beispielsweise ist die folgende Variable NM ein Datenrahmen, der drei Vektoren x, y, z enthält:

x = c (2, 3, 5) y = c ("aa", "bb", "cc") z = c (true, false, true) # nm ist ein Datenrahmen nm = Daten.Rahmen (n, s, b) 

Es gibt ein Konzept namens namens EingebautDatenrahmen auch in R. Mtcars ist ein solcher integrierter Datenrahmen in R, den wir als Beispiel für unser besseres Verständnis verwenden werden. Siehe den Code unten:

 > Mtcars MPG CYL Disp Hp Drat Wt… Mazda Rx4 21.0 6 160 110 3.90 2.62… Bus RX4 WAG 21.0 6 160 110 3.90 2.88… datsun 710 22.8 4 108 93 3.85 2.32… 

Mtcars Bulitin -Datenframe

Der Header ist die obere Zeile der Tabelle, die die Spaltennamen enthält. Datenzeilen werden von jeder horizontalen Linie gespendet. Jede Zeile beginnt mit dem Namen der Zeile und anschließend die tatsächlichen Daten. Das Datenmitglied einer Zeile wird als Zelle bezeichnet.

Wir würden die Zeilen- und Spaltenkoordinaten in einer einzelnen Quadratklammer '[]' 'Operator eingeben, um Daten in einer Zelle abzurufen. Um die Koordinaten zu trennen, verwenden wir ein Komma. Die Reihenfolge ist unerlässlich. Die Koordinate beginnt mit der Reihe, dann mit dem Komma und endet dann mit der Spalte. Zellwert von 2nd Reihe und 1st Die Spalte ist gegeben als:

 > Mtcars [2, 2] [1] 6 

Wir können auch Zeilen- und Spaltenname anstelle von Koordinaten verwenden:

 > Mtcars ["Bus Rx4", "MPG"] [1] 6 

Die NROW -Funktion wird verwendet, um die Anzahl der Zeilen im Datenrahmen zu ermitteln.

 > NROW (MTCARS) # Anzahl der Datenzeilen [1] 32 

Die NCOL -Funktion wird verwendet, um die Anzahl der Spalten in einem Datenrahmen zu finden.

 > NCOL (MTCARS) # Anzahl der Spalten [1] 11 

R Programmierschleifen

Unter bestimmten Bedingungen verwenden wir Schleifen, wenn wir einen Teil des Codes automatisieren möchten, oder wir möchten eine Folge von Anweisungen wiederholen.

Für Schleife in r

Wenn wir diese Jahre mehr als einmal Informationen ausdrucken möchten.

 Druck (Paste ("The Year Is", 2000) "Das Jahr ist 2000" Druck (Paste ("The Year Is", 2001)) "Das Jahr ist 2001" Druck (Paste ("The Year Is", 2002) ) "Das Jahr ist 2002" Druck (Paste ("The Year Is", 2003) "Das Jahr ist 2003" Druck (Paste ("The Year Is", 2004) "Das Jahr ist 2004" Druck (Paste ("(Paste (" Das Jahr ist ", 2005))" Das Jahr ist 2005 " 

Anstatt unsere Aussage immer wieder zu wiederholen, wenn wir verwenden für Schleife wird es für uns viel einfacher sein. So was:

 für (Jahr in C (2000.2001.2002.2003.2004.2005)) print (Paste ("das Jahr ist", Jahr)) "Das Jahr ist 2000" "Das Jahr ist 2001" "Das Jahr ist 2002 "" Das Jahr ist 2003 "" Das Jahr ist 2004 "" Das Jahr ist 2005 " 

Während der Schleife in r

 while (Ausdruck) Anweisung 

Wenn das Ergebnis des Ausdrucks wahr ist, wird der Körper der Schleife eingegeben. Die Aussagen innerhalb der Schleife werden durchgeführt, und der Fluss kehrt zurück, um den Ausdruck erneut zu bewerten. Die Schleife wiederholt sich, bis der Ausdruck auf False bewertet wird. In diesem Fall wird die Schleife austreten.

Beispiel für Schleife:

 # I wird ursprünglich auf 0 i = 0 initialisiert (i<5)  print (i) i=i+1  Output: 0 1 2 3 4 

Im obigen während der Schleife ist der Ausdruck ich<5welche misst zu true, da 0 weniger als 5 ist. Daher wird der Körper der Schleife ausgeführt und ich wird ausgegeben und inkrementiert. Es ist wichtig, zu erhöhen ich Innerhalb der Schleife, so dass es irgendwie irgendwie entspricht, irgendwann irgendwann. In der nächsten Schleife der Wert von ich ist 1 und die Schleife geht weiter. Es wird sich wiederholen, bis ich gleich 5, wenn die Bedingung 5<5 reached loop will give FALSE and the while loop will exit.

R Funktionen

A erstellen a Funktion Wir verwenden die Richtlinienfunktion (). Insbesondere sind sie R -Objekte der Klasse Funktion.

F <- function()  ##some piece of instructions  

Insbesondere könnten Funktionen an andere Funktionen übergeben werden, da Argumente und Funktionen verschachtelt werden könnten, damit Sie eine Funktion innerhalb einer anderen Funktion bestimmen können.

Funktionen können optional einige benannte Argumente haben, die Standardwerte haben. Wenn Sie keinen Standardwert wünschen, können Sie seinen Wert auf NULL festlegen.

Einige Fakten zu R -Funktionsargumenten:

  • Die in der Funktionsdefinition zugelassenen Argumente sind die formalen Argumente
  • Die Formalsfunktion könnte eine Liste aller formalen Argumente einer Funktion zurückgeben
  • Nicht jeder Funktionsaufruf in R verwendet alle formalen Argumente
  • Funktionsargumente können Standardwerte haben oder sie fehlen möglicherweise
#Definieren einer Funktion: f <- function (x, y = 1, z = 2, s= NULL)   

Erstellen eines logistischen Regressionsmodells mit integriertem Datensatz

Der GLM () Die Funktion wird in R verwendet, um die logistische Regression anzupassen. Die GLM () -Funktion ähnelt dem LM (), aber GLM () hat einige zusätzliche Parameter. Das Format sieht so aus:

 GLM (x ~ z1+z2+z3, familie = binomial (link = ”logit”), data = mydata) 

X ist abhängig von den Werten von Z1, Z2 und Z3. Dies bedeutet, dass Z1, Z2 und Z3 unabhängige Variablen sind und x die abhängige Funktion beinhaltet eine zusätzliche Parameterfamilie, und es hat Wertbinomial (Link = „logit“), was bedeutet, dass die Linkfunktion Logit ist und die Wahrscheinlichkeitsverteilung des Regressionsmodells Binomial ist.

Angenommen, wir haben ein Beispiel für einen Studenten, bei dem er auf der Grundlage von zwei Prüfungsergebnissen die Zulassung erhalten wird. Der Datensatz enthält die folgenden Elemente:

  • Ergebnis _1- Ergebnis-1-Punktzahl
  • Ergebnis _2- Ergebnis -2 Punktzahl
  • zugelassen- 1 Wenn zugelassen oder 0, wenn nicht zugelassen
  • In diesem Beispiel haben wir zwei Werte 1, wenn ein Student die Zulassung erhielt und 0, wenn er keine Zulassung bekam. Wir müssen ein Modell generieren, um vorherzusagen, dass der Schüler die Zulassung erhielt oder nicht,. Für ein bestimmtes Problem wird zugelassen, die als abhängige Variable angesehen werden, werden Prüfung_1 und Prüfung als unabhängige Variablen angesehen. Für dieses Modell wird unser R -Code gegeben

     > Model_1<-glm(admitted ~ result_1 +result_2, family = binomial("logit"), data=data) 

    Nehmen wir an, wir haben zwei Ergebnisse des Schülers. Ergebnis-1 65% und Ergebnis-2 90%, nun werden wir vorhersagen, dass der Student die Zulassung erhält oder nicht, um die Wahrscheinlichkeit des Schülers zu schätzen, um Zulassung zu erhalten. Unser R-Code ist wie unten:

     > in_framepredict (model_1, in_frame, Typ = "Antwort") Ausgabe: 0.9894302 

    Die obige Ausgabe zeigt uns die Wahrscheinlichkeit zwischen 0 und 1. Wenn es dann weniger als 0 ist.5 Es bedeutet, dass der Student keine Zulassung erhalten hat. In diesem Zustand wird es falsch sein. Wenn es größer als 0 ist.5, die Bedingung wird als wahr angesehen, was bedeutet, dass der Schüler die Zulassung erhalten hat. Wir müssen Round () -Funktion verwenden, um die Wahrscheinlichkeit zwischen 0 und 1 vorherzusagen.

    R Code dafür ist wie unten gezeigt:

     > rund (predict (model_1, in_frame, type = "response") [/code] Ausgabe: 1 

    Ein Student erhält die Zulassung, da die Ausgabe 1 beträgt. Darüber hinaus können wir auch andere Beobachtungen auf die gleiche Weise vorhersagen.

    Verwendung des logistischen Regressionsmodells (Bewertung) mit neuen Daten

    Bei Bedarf können wir das Modell in einer Datei speichern. R -Code für unser Zugmodell sieht so aus:

     das Model <- glm(my_formula, family=binomial(link='logit'),data=model_set) 

    Dieses Modell kann gespeichert werden mit:

     Speichern (Datei = "Dateiname", the_file) 

    Sie können die Datei nach dem Speichern des IT verwenden, indem Sie diesen Frieden des R -Code verwenden:

     Load (Datei = "Dateiname") 

    Für die Anwendung des Modells für neue Daten können Sie diese Zeile eines Codes verwenden:

     model_set $ pred <- predict(the_model, newdata=model_set, type="response") 

    NOTIZ: Das Modell_Set kann keiner Variablen zugewiesen werden. Zum Laden eines Modells verwenden wir die Funktionslast (). Neue Beobachtungen ändern nichts im Modell. Das Modell bleibt gleich. Wir verwenden das alte Modell, um Vorhersagen über die neuen Daten zu machen, um nichts im Modell zu ändern.

    Abschluss

    Ich hoffe, Sie haben gesehen.