Es liefert die Methoden "StructType () und structfield (), mit denen die Spalten im PYSPARK -Datenrahmen definiert werden.
Durch die Verwendung dieser Methoden können wir die Spaltennamen und die Datentypen der Spalten definieren.
Strukturtyp ()
Diese Methode wird verwendet. Es akzeptiert eine Liste von Datentypen zusammen mit Spaltennamen für den angegebenen Datenrahmen. Dies ist als Schema des Datenrahmens bekannt. Es speichert eine Sammlung von Feldern.
Structfield ()
Diese Methode wird innerhalb der Strukturtyp () -Methode des PYSPARK -Datenframe. Es akzeptiert Spaltennamen mit dem Datentyp.
ArrayType ()
Diese Methode wird verwendet, um die Array -Struktur des PYSPark -Datenframe zu definieren. Es akzeptiert eine Liste von Datentypen. Es speichert eine Sammlung von Feldern. Wir können Datentypen in ArrayType () platzieren.
In diesem Artikel müssen wir einen Datenrahmen mit einem Array erstellen.
Erstellen wir einen Datenrahmen mit 2 Spalten. Die erste Spalte ist student_category, die sich auf das Integer -Feld bezieht, um Studenten -IDs zu speichern. Die zweite Spalte - student_full_name wird verwendet, um Stringwerte in einem Array zu speichern, das mit ArrayType () erstellt wurde, ().
#Amportieren Sie das PYSPARK -ModulAusgang:
array_min ()
Jetzt werden wir sehen, was Array_Min () tut.
array_min () gibt die minimalen Werte in jeder Zeile der Spalte Array -Typ zurück.
Dies ist mit der Methode Select () möglich möglich. In dieser Methode können wir die Funktion array_min () verwenden und das Ergebnis zurückgeben.
Syntax:
Datenrahmen.select (array_min (array_column)))Parameter:
Array_Column enthält Array -TypwerteZurückkehren:
Es gibt Mindestwerte in einem Array über alle Zeilen in einer Array -Spalte zurück.
Beispiel:
In diesem Beispiel geben wir die Mindestwerte in einer Array -Spalte zurück - student_full_name
#Amportieren Sie das PYSPARK -ModulAusgang:
Wir können sehen, dass in der ersten Zeile - Array enthält: a, also wird a das Minimum (verglichen auf ASCII -Werten).
In der zweiten Reihe - Array hat B, L, B. - B ist minimal
In der dritten Reihe - Array hat k, a, k. - A ist minimal
In der vierten Reihe - Array hat k-. K ist minimal
In der fünften Reihe - Array hat B, p. - B ist minimal
Array_max ()
Jetzt werden wir sehen, was array_max () tun.
Array_MAX () gibt die maximalen Werte in jeder Zeile der Spalte Array -Typ zurück.
Dies ist mit der Methode Select () möglich möglich. In dieser Methode können wir die Funktion array_max () verwenden und das Ergebnis zurückgeben.
Syntax:
Datenrahmen.select (array_max (array_column)))Parameter:
Array_Column enthält Array -TypwerteZurückkehren:
Es gibt maximale Werte in einem Array über alle Zeilen in einer Array -Spalte zurück.
Beispiel:
In diesem Beispiel geben wir die maximalen Werte in einer Array -Spalte zurück - student_full_name
#Amportieren Sie das PYSPARK -ModulAusgang:
Wir können sehen, dass in der ersten Zeile - Array: a, also a maximal sein wird (im Vergleich zu ASCII -Werten verglichen).
In der zweiten Reihe - Array hat B, L, B. - L ist maximal
In der dritten Reihe - Array hat k, a, k. - K ist maximal
In der vierten Reihe - Array hat k-. K ist maximal
In der fünften Reihe - Array hat B, p. - P ist maximal.
Abschluss
In diesem Tutorial haben wir Array_Min () und Array_Max () Funktionen gesehen. Array_Min verwendet bei der Rückgabe von Mindestwerten in einer Array -Spalte über alle Zeilen. Array_MAX wird verwendet, um maximale Werte in einer Array -Spalte über alle Zeilen zurückzugeben.