Holen Sie sich PYSPark DataFrame -Informationen

Holen Sie sich PYSPark DataFrame -Informationen
In Python ist PySpark ein Spark -Modul, mit dem eine ähnliche Art von Verarbeitung wie Spark mit DataFrame bereitgestellt wird. Wir können die PYSPARK -Datenframeinformationen wie die Gesamtzahl der Zeilen und Spalten, die Datenframestatistik und die Größe des Datenrahmens erhalten. Lassen Sie uns einen PYSPARK -Datenframe für die Demonstration erstellen.

Beispiel:
In diesem Beispiel erstellen wir den PYSpark -Datenfreame mit 5 Zeilen und 6 Spalten und Anzeigen mithilfe von show ().

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
student.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.erstellteataframe (Studenten1)
# DataFrame anzeigen
df.zeigen()

Ausgang:

Szenario 1: Holen Sie sich die Gesamtzahl der Zeilen

Wir können die Gesamtzahl der Zeilen im PYSPARK -Datenframe mit count () -Funktion erhalten.

Syntax:
Datenrahmen.zählen()

Wo, DataFrame ist der Eingabe -PySpark -Datenfreame.

Beispiel:
In diesem Beispiel werden wir die Funktion count () verwenden, um die Gesamtzahl der Zeilen zu erhalten.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
student.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.erstellteataframe (Studenten1)
# Zeigen Sie die Zeilenzahl an
drucken (df.zählen())

Ausgang:

5

Szenario 2: Holen Sie sich die Gesamtzahl der Spalten

Wir können die Gesamtzahl der Spalten im PYSpark -Datenfunktion mithilfe der Len () -Funktion mit Spaltenmethoden erhalten.

Die Methode der Spalten gibt alle Spalten in einer Liste zurück. So können wir die Len () -Funktion anwenden, um die Anzahl der Spalten zurückzugeben.

Syntax:
Len (DataFrame.Säulen)

Wo, DataFrame ist der Eingabe -PySpark -Datenfreame.

Beispiel:
In diesem Beispiel werden wir die Len () -Funktion verwenden, um die Gesamtzahl der Spalten zu erhalten und die Spalten mithilfe der Spaltenmethode anzuzeigen.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
student.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.erstellteataframe (Studenten1)
# Zeigen Sie die Spaltenzahl an
drucken (len (df.Säulen))
# Zeigen Sie die Spalten an
drucken (df.Säulen)

Ausgang:

6

["Adresse", "Alter", "Höhe", "Name", "Rollno", "Gewicht"]

Szenario 3: Holen Sie sich die Statistik

Wir können die Statistiken wie Anzahl, Mittelwert, Standardabweichung und Mindestwert und den Maximalwert aus dem PYSpark -Datenfreame unter Verwendung von comples () -Methode erhalten

Syntax:
Datenrahmen.beschreiben()

Wo, DataFrame ist der Eingabe -PySpark -Datenfreame.

Notiz - Es gibt keine Mittel- und Standardabweichung für Zeichenfolgentypwerte. In diesem Fall ist das Ergebnis null.

Beispiel:
In diesem Beispiel werden wir beschreiben () -Funktion verwenden, um die Statistiken zu erhalten.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
student.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.erstellteataframe (Studenten1)
df.beschreiben().zeigen()

Ausgang:

Aus der obigen Ausgabe ist der Name des String -Typs. Der Nullwert ist also für Mittelwert und Standardabweichung besetzt.

Wir können SUMBARY () verwenden, um die Statistiken zurückzugeben. Es ähnelt der Beschreibung () -Methode. Dies wird jedoch die Werte von 25%, 50% und 75% zurückgeben.

Beispiel:
In diesem Beispiel werden wir beschreiben () -Funktion verwenden, um die Statistiken zu erhalten.

#Amportieren Sie das PYSPARK -Modul
pysspark importieren
#import SparkSession für die Erstellung einer Sitzung
aus pysspark.SQL Import SparkSession
#create eine App namens LinuxHint
Spark_app = SparkSession.Erbauer.AppName ('LinuxHint').Getorcreate ()
# Erstellen Sie Studentendaten mit 5 Zeilen und 6 Attributen
student.79, 'Gewicht': 67, 'Adresse': 'Guntur',
'Rollno': '002', 'Name': 'Ojaswi', 'Alter': 16, 'Höhe': 3.79, 'Gewicht': 34, 'Adresse': 'Hyd',
'Rollno': '003', 'Name': 'Gnanesh Chowdary', 'Alter': 7, 'Höhe': 2.79, 'Gewicht': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Name': 'Rohith', 'Alter': 9, 'Höhe': 3.69, 'Gewicht': 28, 'Adresse': 'Hyd',
'Rollno': '005', 'Name': 'Sridevi', 'Age': 37, 'Höhe': 5.59, 'Gewicht': 54, 'Adresse': 'Hyd']
# Erstellen Sie den Datenrahmen
df = spark_app.erstellteataframe (Studenten1)
# Die Zusammenfassung erhalten
df.Zusammenfassung().zeigen()

Ausgang:

Abschluss

In diesem Artikel haben wir die Verwendung von beschreiben () und summary () Funktionen erörtert. Sie werden verwendet, um die Statistiken des PYSPARK -Eingabedatenrahmens zurückzugeben. Wir haben gesehen, dass wir mithilfe der Len () -Methode die Gesamtzahl der Spalten erhalten und mithilfe der COUNT () -Methode die Gesamtzahl der Zeilen in PYSPARK -Datenfream abrufen können.