Wir werden über PySpark diskutieren - eine wesentliche Datenverarbeitungstechnologie, mit der Daten zu einem Petabyte -Maßstab, PYSPARK, wenn anders, und SQL -Fall in PySpark, wenn erledigt werden kann.
Was ist pyspark?
Spark ist eine allgemeine, in Memory, verteilte Verarbeitungsmotor, mit der Sie die Daten über mehrere Maschinen effizient verarbeiten können. Sie können Spark -Anwendungen entwickeln, um die Daten zu verarbeiten und sie mit PYSPARK auf der Spark -Plattform auszuführen. Die AWS bietet verwaltete EMR und die Spark -Plattform an. Sie können PYSPark verwenden, um Daten zu verarbeiten und einen EMR -Cluster auf AWS festzulegen. PYSPARK kann die Daten aus verschiedenen Dateiformaten wie CSV, Parquet, JSON und Datenbanken lesen. Da Spark in erster Linie in Scala implementiert ist, können Sie mit dem Erstellen von Spark -Apps in Scala oder Java mehr von seinen Funktionen zugreifen als das Schreiben von Spark -Programmen in Python oder R. PYSPARK zum Beispiel unterstützt den Datensatz derzeit nicht. Wenn Sie eine Datenwissenschaft durchführen, ist PySpark eine bessere Option als Scala, da in Python viele beliebte Datenwissenschaftsbibliotheken wie Numpy, TensorFlow und Scikit-Learn geschrieben sind.
Pysspark "wann" und "sonst"
"Ansonsten" und "Wann" in PYSPARK und SQL -Fall "When" mit DataFrame PYSPark wie SQL und anderen Programmiersprachen haben einen Mechanismus, um mehrere Bedingungen in der Reihenfolge zu überprüfen und einen Wert zurückzugeben, wenn die erste Bedingung unter Verwendung von SQL -Like erfüllt ist Fall und Wenn(). Ansonsten() Ausdrücke sind ähnlich wie "Switch" und "If-Then-Else" -Anweisungen in ihrer Funktionalität.
Pysspark Wenn sonst - WOS () ist eine SQL.
SQL -Fall in pyspark wann - Dies ähnelt einem SQL -Ausdruck und wird wie folgt verwendet: Wenn Bedingung 1 wahr ist, ist das Ergebnis wahr und umgekehrt.
Beispiel 1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 | import org.Apache.Funke.sql.Funktionen.Wenn Val df = seq ( ("A B", "2019-01-19"), ("A", "," 2019-01-10 "), ("B F", "2019-01-15"), ("B E", "2019-01-30"), ("C B", "2019-01-22"), ("D O", "2019-01-30"), ("E u", "2019-01-22") df.WithColumn ("End_with_b", wenn ($ "Word".Endswith ("B"), wahr).sonst (falsch)) |
Beispiel 2
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 | import org.Apache.Funke.sql.Funktionen.Element_at, geteilt, wenn Val df = seq ( ("Ba", "Mensch"), ("AB", "Mensch"), ("E_bot", "bot"), ("D_bot", "bot"), ("TT", "Human"), ("A_bot", "bot"), ("C_bot", "bot") ).todf ("Benutzer", "Typ") df.WithColumn ("isbot", wenn ($ "Benutzer".Endswith ("Bot"), Element_at (split ($ "," Benutzer "," _ "), 1)))) |
Abschluss
Wir haben über pyspark, pyspark besprochen, wenn PYSPARK ansonsten und SQL -Fall in pyspark, wann verwendet wird, um mehrere Bedingungen zu überprüfen und das erste Element zurückzugeben, das der Bedingung folgt, zusammen mit einigen Beispielen.