Kumulative Prozentsatz Pandas

Kumulative Prozentsatz Pandas
Die Standard -Mathematikformel zur Berechnung des kumulativen Prozentsatzes berechnet die kumulative Summe für jeden Wert in der Spalte und dividiert die kumulative Summe jeder Zelle in einer Spalte durch die mathematische Summe aller Werte in der Spalte und multipliziert sie dann mit 100. Die Frage ist nun, wie Sie dies in Python mit Pandas erreichen können.

Dieser Artikel soll dazu führen, dass Sie lernen, wie man kumulative Prozentsätze in Python mit Pandas findet. Beginnen wir mit der grundlegenden Formel oder Syntax des kumulativen Prozentsatzes und fahren Sie dann weiter fort.

Was ist die Syntax des kumulativen Prozentsatzes?

Nachfolgend finden Sie die Syntax des kumulativen Prozentsatzes, dem Sie folgen können.

Kumulative Prozentsatz Pandas

Die Pandas -Datenrahmen in Python bieten zwei vordefinierte Funktionen, SUM () und Cumsum (), um den kumulativen Prozentsatz mit Python zu berechnen. Die Funktion SUM () wird verwendet, um die Summe aller Werte in der Spalte zu berechnen, und die Funktion cumumum () wird verwendet.

Wie funktioniert das Cumsum () -Funktion, um die kumulative Summe in Python zu berechnen??

Das Cumsum () ist ein Python-integrierter Panda-Datenrahmen, mit dem die kumulative Summe von Array-Elementen berechnet wird. Es dauert ein Array als Eingabe und berechnet eine Folge von Teilsummen oder mit anderen Worten eine laufende Gesamtsumme. Der Hauptzweck bei der Berechnung einer kumulativen Summe besteht darin, die Summe eines Datensatzes bei jedem neuen Wert dem Datensatz zu aktualisieren, wenn ein neuer Wert hinzugefügt wird.

Es gibt fünf Schritte, die Sie befolgen müssen, um die kumulative Summe mit Pandas in Python zu berechnen, und hier sind sie:

  1. Erstellen Sie einen Datenrahmen oder geben Sie ein Array von Daten an, die Sie für den kumulativen Prozentsatz berechnen möchten.
  2. Berechnen Sie die kumulative Summe mit der integrierten Cumsum () -Funktion.
  3. Berechnen Sie die Summe des Arrays mit der integrierten Summe () -Funktion.
  4. Teilen Sie den berechneten Cumsum () -Wert durch den berechneten Summe () -Werwert.
  5. Multiplizieren Sie jeden berechneten Wert mit 100, und der resultierende Wert ist der kumulierte Prozentsatz eines bestimmten Werts im Array.

Lassen Sie uns nun einige Beispiele sehen, um zu verstehen.

Beispiel 1:
Im ersten Beispiel werden wir die kumulative Summe von nur einer Spalte berechnen, damit Sie die Funktion leicht verstehen können. Erstellen Sie zunächst einen Datenrahmen als "data_frame" und geben Sie die Werte an, die Sie für die Berechnung der kumulativen Summe benötigen, und übergeben Sie dann den Parameter "Data_Frame" an PD.DataFrame (), während die Spaltenwerte angegeben und schließlich die integrierten Funktionen von Cumsum () und sum () verwenden, um den kumulativen Prozentsatz zu berechnen.

Pandas als PD importieren
Numph als NP importieren
data_frame =
'Namen': ['ab', 'bc', 'cd', 'de', 'ef', 'fg', 'gh'],
'MathScore': [152.187.149.174.128.159.148]
data_frame = pd.DataFrame (Data_Frame, Spalten = ['Namen', 'MathScore'])
Data_frame ['cum_per'] = 100*(Data_frame.MathScore.cumumum () / data_frame.MathScore.Summe())
Data_frame

Hier ist die Ausgabe des obigen Code:

Beispiel 2:
In diesem Beispiel zeigen wir Ihnen die kumulative Summe bei jedem Schritt. Der Code entspricht genau dem obigen Beispiel mit einigen geringfügigen Änderungen, um die kumulative Summe bei jedem Schritt zu drucken. Siehe den unten angegebenen Beispielcode:

Pandas als PD importieren
Numph als NP importieren
data_frame =
'Namen': ['ab', 'bc', 'cd', 'de', 'ef', 'fg', 'gh'],
'MathScore': [152.187.149.174.128.159.148]
data_frame = pd.DataFrame (Data_Frame, Spalten = ['Namen', 'MathScore'])
Data_Frame ['kumulative Summe'] = data_frame.MathScore.Cumsum ()
_sum = data_frame.MathScore.Summe()
Data_frame ['kumulativ%'] = 100*(cum_sum / _sum)
Data_frame

Hier ist die Ausgabe. Beachten Sie, dass die kumulative Sum. Und die Gesamtzahl aller Werte beträgt 1097. Siehe die letzte Zeile der Ausgabe.

Beispiel 3:
Wir haben gesehen, wie man den kumulativen Prozentsatz einer Spalte gleichzeitig berechnet. Lassen Sie uns nun sehen, wie Sie die Summe von zwei Spalten gleichzeitig berechnen können. Das Verfahren folgt den gleichen Schritten wie die obigen Beispiele.

Zuerst müssen Sie einen Datenrahmen erstellen und dann die Spalten angeben, in denen Sie die kumulative Summe berechnen müssen. Ermitteln Sie dann die Summe und die kumulative Summe mit SUM () bzw. Cumumsum () integriert und multiplizieren Sie die Werte mit 100. Drucken Sie nun die Werte im Datenrahmen aus, um die Ausgabe anzuzeigen. Der Code ist unten angegeben:

Pandas als PD importieren
Numph als NP importieren
data_frame =
'Namen': ['ab', 'bc', 'cd', 'de', 'ef', 'fg', 'gh'],
'MathScore': [152.187.149.174.128.159.148],
'EnglishScore': [134.167.125.189.192.145.186]
data_frame = pd.DataFrame (Data_Frame, Columns = ['Namen', 'MathScore', 'EnglishScore'])
Data_Frame ['Cum Math Summe'] = data_frame.MathScore.Cumsum ()
Data_frame ['cum eng sum'] = data_frame.Englischscore.Cumsum ()
Msum = data_frame.MathScore.Summe()
Esum = data_frame.Englischscore.Summe()
Data_Frame ['Mcumulative%'] = 100*(cum_sum / msum)
data_frame ['ecumulativ%'] = 100*(data_frame ['cum eng sum'] / esum)
Data_frame

Die Ausgabe des obigen Codes lautet wie folgt:

Beispiel 4:
In diesem Beispiel werden wir erklären, wie man mit den Nan -Werten in einem Array umgeht? Und wie Cumsum () im Datenrahmen mit 'Nan' -Werten umgeht. Die anfänglichen Schritte sind die gleichen wie in den Beispielen angegeben. Die zusätzlichen Schritte sind jedoch im Code unten angegeben:

Pandas als PD importieren
Numph als NP importieren
data_frame = pd.DataFrame (
'Namen': ['ab', 'bc', 'cd', 'de', 'ef', 'fg', 'gh'],
'MathScore': [152.187.149.174.128.159.148],
Index = ['1', '2', '3', '4', '5', '6', '7'])
print (data_frame)

Die Ausgabe zeigt jetzt eine Indexspalte an:

Wenn Sie bemerken, wird dem Datenrahmen eine zusätzliche Spaltenindex hinzugefügt. Der nächste Schritt besteht darin, die kumulative Summe zu finden, die wir in den obigen Beispielen berechnet haben.

Data_Frame ['kumulative Summe'] = data_frame.MathScore.Cumsum ()
print (data_frame)

Hier ist die kumulative Summe, bevor Sie einen Nan -Wert liefern:

Danach lassen wir einen Wert in das Array und ersetzen Sie ihn durch den Nan -Wert. Sehen Sie sich den folgenden Code an, um herauszufinden, wie Sie einen Wert durch "Nan" ersetzen können.

data_frame = data_frame.Drop ('kumulative Summe', Achse = 1)
Data_frame.loc ['3', 'mathScore'] = np.Nan
print (data_frame)

Wie Sie in der folgenden Ausgabe sehen können, wird der Wert am Index 3 durch 'Nan' ersetzt:

Berechnen wir die kumulative Sum.

Data_Frame ['kumulative Summe'] = data_frame.MathScore.Cumsum ()
print (data_frame)

Hier ist die Ausgabe der neuen kumulativen Summe.

Wenn Sie feststellen, dass Cumsum () die "Nan" ignoriert und die kumulative Summe aller anderen Werte berechnet hat. Darüber hinaus ist der Gesamtwert auch unterschiedlich, da der einzige Wert im Array 'Nan' ist, und er trägt nicht zum Gesamtwert bei.

Abschluss:

Dieser Artikel soll lernen, wie man den kumulativen Prozentsatz mit Pandas Data Frame in Python findet. Erstens haben wir die grundlegende mathematische Formel des kumulativen Prozentsatzes erörtert und dann die beiden eingebauten Python-Funktionen Cumumum () und Sum () gesehen, um den kumulativen Prozentsatz mit Pandas in Python zu finden. Die kumulative Summe ist die laufende Gesamtzahl einer Sequenz von Teilsummen. Mit Hilfe von Beispielen haben wir gezeigt, wie man die integrierte Pythonfunktion Cumumum () und SUM () verwendet, um die kumulative Summe einer Spalte zu berechnen.