In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird. Wir können die PYSPARK -Datenframeinformationen wie die Gesamtzahl der Zeilen und Spalten, die Datenframestatistik und die Größe des Datenrahmens erhalten. Lassen Sie uns einen PYSPARK -Datenframe für die Demonstration erstellen.
Beispiel:
In diesem Beispiel erstellen wir den PYSpark -Datenfreame mit 5 Zeilen und 6 Spalten und Anzeigen mithilfe von show ().
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
student.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.erstellteataframe (Studenten1)
# DataFrame anzeigen
df.zeigen()
Ausgang:
Szenario 1: Holen Sie sich die Gesamtzahl der Zeilen
Wir können die Gesamtzahl der Zeilen im PYSPARK -Datenframe mit count () -Funktion erhalten.
Syntax:
Datenrahmen.zählen()
Wo, DataFrame ist der Eingabe -PySpark -Datenfreame.
Beispiel:
In diesem Beispiel werden wir die Funktion count () verwenden, um die Gesamtzahl der Zeilen zu erhalten.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
student.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.erstellteataframe (Studenten1)
# Zeigen Sie die Zeilenzahl an
drucken (df.zählen())
Ausgang:
5
Szenario 2: Holen Sie sich die Gesamtzahl der Spalten
Wir können die Gesamtzahl der Spalten im PYSpark -Datenfunktion mithilfe der Len () -Funktion mit Spaltenmethoden erhalten.
Die Methode der Spalten gibt alle Spalten in einer Liste zurück. So können wir die Len () -Funktion anwenden, um die Anzahl der Spalten zurückzugeben.
Syntax:
Len (DataFrame.Säulen)
Wo, DataFrame ist der Eingabe -PySpark -Datenfreame.
Beispiel:
In diesem Beispiel werden wir die Len () -Funktion verwenden, um die Gesamtzahl der Spalten zu erhalten und die Spalten mithilfe der Spaltenmethode anzuzeigen.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
student.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.erstellteataframe (Studenten1)
# Zeigen Sie die Spaltenzahl an
drucken (len (df.Säulen))
# Zeigen Sie die Spalten an
drucken (df.Säulen)
Ausgang:
6
["Adresse", "Alter", "Höhe", "Name", "Rollno", "Gewicht"]
Szenario 3: Holen Sie sich die Statistik
Wir können die Statistiken wie Anzahl, Mittelwert, Standardabweichung und Mindestwert und den Maximalwert aus dem PYSpark -Datenfreame unter Verwendung von comples () -Methode erhalten
Syntax:
Datenrahmen.beschreiben()
Wo, DataFrame ist der Eingabe -PySpark -Datenfreame.
Notiz - Es gibt keine Mittel- und Standardabweichung für Zeichenfolgentypwerte. In diesem Fall ist das Ergebnis null.
Beispiel:
In diesem Beispiel werden wir beschreiben () -Funktion verwenden, um die Statistiken zu erhalten.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
student.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.erstellteataframe (Studenten1)
df.beschreiben().zeigen()
Ausgang:
Aus der obigen Ausgabe ist der Name des String -Typs. Der Nullwert ist also für Mittelwert und Standardabweichung besetzt.
Wir können SUMBARY () verwenden, um die Statistiken zurückzugeben. Es ähnelt der Beschreibung () -Methode. Dies wird jedoch die Werte von 25%, 50% und 75% zurückgeben.
Beispiel:
In diesem Beispiel werden wir beschreiben () -Funktion verwenden, um die Statistiken zu erhalten.
#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
student.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.erstellteataframe (Studenten1)
# Die Zusammenfassung erhalten
df.Zusammenfassung().zeigen()
Ausgang:
Abschluss
In diesem Artikel haben wir die Verwendung von beschreiben () und summary () Funktionen erörtert. Sie werden verwendet, um die Statistiken des PYSPARK -Eingabedatenrahmens zurückzugeben. Wir haben gesehen, dass wir mithilfe der Len () -Methode die Gesamtzahl der Spalten erhalten und mithilfe der COUNT () -Methode die Gesamtzahl der Zeilen in PYSPARK -Datenfream abrufen können.