PYSPARK FILDAME -Methode

PYSPARK FILDAME -Methode

Wir werden in dieser Sitzung die PYSPARK -Bibliothek kennenlernen. Es handelt sich um eine allgemeine, in Memory verteilte Verarbeitungsmaschine, mit der Sie die Daten über mehrere Workstations effektiv verwalten können. Wir werden auch etwas über die PYSPark fillna () -Methode kennen.

Was ist pyspark?

Pyspark ist eine der unterstützten Sprachen von Sparks. Spark ist eine große Datenverarbeitungstechnologie, die Daten auf einer Petabyte -Skala verarbeiten kann. PySpark ist ein Apache -Spark und eine Python -Zusammenarbeit. Python ist eine moderne Programmiersprache auf hoher Ebene, während Apache Spark eine Open-Source ist, die sich auf Rechenaufgaben von Clustern und hauptsächlich auf Geschwindigkeit, Benutzerfreundlichkeit und Streaming-Analyse konzentriert. Da Spark hauptsächlich in Scala eingebaut ist, können Sie mit dem Erstellen von Spark -Apps in Scala oder Java mehr von seinen Fähigkeiten zugreifen als das Schreiben von Spark -Programmen in Python oder R. PYSPARK zum Beispiel unterstützt den Datensatz derzeit nicht. Sie können Spark -Anwendungen entwickeln, um Daten zu verarbeiten und sie mit PYSPARK auf der Spark -Plattform zu starten. Die AWS bietet die verwaltete EMR und die Spark -Plattform an.

Wenn Sie eine Datenwissenschaft durchführen, ist PySpark eine bessere Option als Scala, da in Python viele beliebte Datenwissenschaftsbibliotheken wie Numpy, TensorFlow und Scikit-Learn geschrieben sind. Sie können PYSPark verwenden, um die Daten zu verarbeiten und einen EMR -Cluster auf AWS festzulegen. PYSPARK kann die Daten aus verschiedenen Dateiformaten lesen, darunter CSV, Parquet, JSON und Datenbanken. Für kleinere Datensätze wird Pandas verwendet, während für größere Datensätze PYSPARK verwendet wird. Im Vergleich zu PYSPARK liefert Pandas schnellere Ergebnisse. Abhängig von der Speicherverfügbarkeit und der Datengröße können Sie zwischen pyspark und pandas wechseln, um die Leistung zu verbessern. Verwenden Sie immer Pandas über pyspark, wenn die zu verarbeitenden Daten für den Speicher ausreichen. Spark ist schnell zur bevorzugten Technologie der Branche für die Datenverarbeitung geworden. Es ist jedoch nicht das erste. Vor dem Funken war die Verarbeitungsmotor MapReduce.

Was ist pyspark fillna ()?

Pyspark fillna () ist eine pyspark. Abhängig von den Geschäftsanforderungen kann dieser Wert alles sein. Es kann 0 oder eine leere Saite und alle ständigen buchstäblichen sein. Diese fillna () -Methode ist für die Datenanalyse nützlich, da sie Nullwerte beseitigt, was zu Schwierigkeiten bei der Datenanalyse führen kann.

Beispiel für die Verwendung von fillna ()

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
aus pysspark.SQL Import SparkSession
Spark_Session = SparkSession.Erbauer \
.Master ('Lokal [1]') \
.AppName ('Beispiel') \
.Getorcreate ()
df = Spark_Session.erstellteataframe (
[
(1, "Kanada", "Toronto", keine),
(2, 'Japan', 'Tokio', 8000000),
(3, "Indien", "Amritsar", keine),
(4, "Türkei", "Ankara", 550000),
],
['id', 'Land', 'Stadt', 'Bevölkerung']
)
df.zeigen()

Ausgang:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
+---+---------+--------------+-----------+
| id | Land | Stadt | Bevölkerung |
+---+---------+--------------+-----------+
| 1 | Kanada | Toronto | NULL |
| 2 | Japan | Tokio | 8000000 |
| 3 | Indien | Amritsar | NULL |
| 4 | Türkei | Ankara | 550000 |
+---+---------+--------------+-----------+

Wir können nun lediglich das Wertargument verwenden, um alle Nullwerte in einem Datenrahmen zu ersetzen:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
df.n / A.fill (value = 0).zeigen()
df.n / A.fill (value = 0, subset = ["population"]).zeigen()
df.fillna (value = 0).zeigen()
+---+---------+--------------+-----------+
| id | Land | Stadt | Bevölkerung |
+---+---------+--------------+-----------+
| 1 | Kanada | Toronto | 0 |
| 2 | Japan | Tokio | 8000000 |
| 3 | Indien | Amritsar | 0 |
| 4 | Türkei | Ankara | 550000 |
+---+---------+--------------+-----------+

Die obige Operation ersetzt alle Nullwerte in den Ganzzahlspalten durch 0.

Abschluss

Wir haben die PYSPARK, PYSPARK FILDA () () und ihre Beispiele in dieser Sitzung besprochen. Die fillna () -Methode ersetzt alle Nullwerte im DataFrame durch unsere benutzerdefinierten Werte.