Statistikmodul in Python

Statistikmodul in Python
Wenn Sie in der Forschungswelt sind, ist Statistik von größter Bedeutung! Und Python bietet viele Modul für Statistiken an, aber das, über das wir heute sprechen werden, heißt das Statistikmodul. Es ist ein einfaches Modul, nicht wirklich für fortschrittliche Statistiken, sondern für diejenigen, die nur eine einfache und schnelle Berechnung benötigen. In diesem Tutorial werden wir das Statistikmodul in Python überprüfen.

Statistikmodul

Das Statistikmodul bietet einfache Funktionen für die Berechnung der Statistiken eines Datensatzes. Sie behaupten, dass sie nicht mit Numpy, Scipy oder anderen Software wie SPSS, SAS und MATLAB konkurrieren. Und in der Tat ist es ein sehr einfaches Modul. Es liefert keine parametrischen oder sogar nichtparametrischen Tests. Stattdessen kann es verwendet werden, um einige einfache Berechnungen durchzuführen (obwohl ich denke, dass selbst Excel dasselbe tun kann). Sie behaupten ferner, dass sie int, Schwimmer, Dezimalstellen und Brüche unterstützen.

Das Statistikmodul kann (1) Durchschnittswerte und Messungen der zentralen Lage, (2) Spread -Maßnahmen und (3) Statistiken für Beziehungen zwischen zwei Eingängen messen.

Statistiken.bedeuten()

Das Statistikmodul enthält eine große Anzahl von Funktionen. Wir werden nicht jeden, sondern einige von ihnen abdecken. In diesem Fall wird der Datensatz in eine Liste platziert. Die Liste wird dann an die Funktion übergeben.

Für Ganzzahlen:

hauptsächlich.PY -Importstatistik
x = [1, 2, 3, 4, 5, 6]
Mittelwert = Statistik.Mittelwert (x)
Druck (Mittelwert)

Wenn Sie letzteres laufen, erhalten Sie:

hauptsächlich.PY 3.5

Für Brüche ist die Terminologie etwas anders. Sie müssen das Modul namens Fraktionen importieren. Außerdem müssen Sie den Bruch in Klammern stellen und ein Kapital F vor sie schreiben. Also 0.5 wäre gleich F (1,2). Dies ist für große Datensätze nicht möglich!

hauptsächlich.PY -Importstatistik
aus Brüchen, importieren Fraktion als f
x = [F (1,2), F (2,3), F (3,4), F (4,5), F (5,6), F (6,7)]
Mittelwert = Statistik.Mittelwert (x)
Druck (Mittelwert)

Wenn Sie letzteres laufen, erhalten Sie:

hauptsächlich.PY 617/840

In den meisten Forschungsarbeiten ist die häufigste Art der Zahl, die auftritt, der Dezimalwert, und das ist mit dem Statistikmodul viel schwieriger. Sie müssen zuerst das Dezimalmodul importieren und dann jeden Dezimalwert in das Angebot einfügen (was absurd und unpraktisch ist, wenn Sie große Datensätze haben).

hauptsächlich.PY -Importstatistik
aus Dezimalimporte Dezimalheit als d
x = [d ("0.5 "), D (" 0.75 "), D (" 1.75 "), D (" 2.67 "), D (" 7.77 "), D (" 3.44 ")]
Mittelwert = Statistik.Mittelwert (x)
Druck (Mittelwert)

Wenn Sie letzteres laufen, erhalten Sie:

hauptsächlich.PY 2.813333333333333333333333333

Das Statistikmodul bietet auch den Mittelwert für den FMEAN, den geometrischen Mittel und den harmonischen Mittelwert. Statistiken.Median () und Statistiken.Modus () ähneln den Statistiken.bedeuten().

Statistiken.Varianz () und Statistiken.stdev ()

In der Forschung ist sehr, sehr selten Ihre Stichprobengröße so groß, dass sie gleich oder ungefähr der Populationsgröße entspricht. Daher werden wir uns mit der Stichprobenvarianz und der Stichprobenstandardabweichung befassen. Sie bieten jedoch auch eine Bevölkerungsvarianz und eine Bevölkerungsstandardabweichung.

Wenn Sie Dezimalstellen verwenden möchten, müssen Sie das Dezimalstellenmodul noch einmal importieren. Wenn Sie Fraktionen verwenden möchten, müssen Sie das Fraktionenmodul importieren. Dies ist in Bezug auf die statistische Analyse ziemlich absurd und sehr unpraktisch.

hauptsächlich.PY -Importstatistik
aus Dezimalimporte Dezimalheit als d
x = [d ("0.5 "), D (" 0.75 "), D (" 1.75 "), D (" 2.67 "), D (" 7.77 "), D (" 3.44 ")]
var = Statistik.Varianz (x)
Druck (var)

Wenn Sie letzteres laufen, erhalten Sie:

hauptsächlich.PY 7.144266666666666666666666667

Alternativ kann die Standardabweichung durch Ausführen berechnet werden:

hauptsächlich.PY -Importstatistik
aus Dezimalimporte Dezimalheit als d
x = [d ("0.5 "), D (" 0.75 "), D (" 1.75 "), D (" 2.67 "), D (" 7.77 "), D (" 3.44 ")]
STD = Statistik.stdev (x)
Druck (STD)

Wenn Sie letzteres laufen, erhalten Sie:

hauptsächlich.PY 2.672876103875124748889421932

Pearson Korrelation

Aus irgendeinem Grund ignorierte die Autoren des Statistikmodul. Wohlgemerkt, die Pearson -Korrelation ist eine bestimmte Art von Korrelation, die nur verwendet wird, wenn die Daten normal sind. Es ist daher ein parametrischer Test. Es gibt einen weiteren Test namens Spearman Correlation, der auch verwendet werden kann, wenn die Daten nicht normal sind (was tendenziell der Fall ist).

hauptsächlich.PY -Importstatistik
x = [1.11, 2.45, 3.43, 4.56, 5.78, 6.99]
y = [1.45, 2.56, 3.78, 4.52, 5.97, 6.65]
Corr = Statistik.Korrelation (x, y)
drucken (corr)

Wenn Sie letzteres laufen, erhalten Sie:

hauptsächlich.PY 0.9960181677345038

Lineare Regression

Wenn eine einfache lineare Regression durchgeführt wird, steckt sie eine Formel aus:

y = Steigung * x + Intercept

Excel macht das auch. Das meiste, was dieses Modul tun kann, ist, den Wert der Steigung und den Abschnitt auszudrucken, aus dem Sie die Linie neu erstellen können. Excel und SPSS bieten Diagramme für die Gleichung, aber nichts davon mit dem Statistikmodul.

hauptsächlich.PY -Importstatistik
x = [1.11, 2.45, 3.43, 4.56, 5.78, 6.99]
y = [1.45, 2.56, 3.78, 4.52, 5.97, 6.65]
Steigung, Intercept = Statistik.linear_regression (x, y)
Druck ("Die Steigung ist % s" % Steigung)
drucken ("Das Intercept ist % s" % Intercept)
print (" %s x + %s = y" %(Steigung, Abschnitt))

Wenn Sie letzteres laufen, erhalten Sie:

hauptsächlich.py der Hang ist 0.9111784209749394
Der Abfang ist 0.46169013364824574
0.9111784209749394 x + 0.46169013364824574 = y

Kovarianz

Darüber hinaus kann das Statistikmodul die Kovarianz messen.

hauptsächlich.PY -Importstatistik
x = [1.11, 2.45, 3.43, 4.56, 5.78, 6.99]
y = [1.45, 2.56, 3.78, 4.52, 5.97, 6.65]
COV = Statistik.Kovarianz (x, y)
Druck (COV)

Wenn Sie letzteres laufen, erhalten Sie:

hauptsächlich.PY 4.279719999999999

Obwohl Python ein Modul namens Statistics -Modul anbietet, ist es nicht für erweiterte Statistiken! Wohlgemerkt, wenn Sie Ihren Datensatz tatsächlich analysieren möchten, dann gehen Sie mit einem anderen Modul als dem Statistikmodul ein! Es ist nicht nur zu einfach, sondern auch alle Funktionen, die es anbietet, können auch leicht in Excel gefunden werden. Darüber hinaus gibt es nur zwei Tests - die Pearson -Korrelation und die einfache lineare Regression -, die dieses Modul in Bezug auf Tests bietet. Es gibt keine ANOVA, keinen T-Test, kein Chi-Quadrat oder einen der Like! Und darüber hinaus müssen Sie das Dezimalmodul aufrufen, was für große und sehr große Datensätze frustrierend sein kann, wenn Sie Dezimalstellen verwenden müssen. Sie werden niemanden fangen, der echte statistische Arbeiten mit diesem Modul benötigt (gehen Sie mit SPSS, wenn Sie erweiterte Dinge benötigen), aber wenn es einfach Spaß macht, nach dem Sie suchen, dann ist dieses Modul genau das Richtige für Sie.

Glückliche Codierung!