Scipy -Statistiken passen

Scipy -Statistiken passen
Python ist eine objektorientierte und hochrangige Software-Programmiersprache, die eine umfangreiche Liste von Paketen bietet, mit der der Benutzer Softwareprogramme effizienter ausführen können. Diese Sprache hat ihre Anwendung in fast jedem Lebensbereich, wo die Automatisierung über die Software benötigt wird. Dies liegt an seinen mathematischen und rechnerischen Kräften, die die Implementierung verschiedener Konzepte für Programmierer erleichtern. Scipy trägt zum Bibliothekspaket bei, das Python anbietet. Dieses Bibliothekspaket bietet seine Dienste an, indem sie verschiedene integrierte Funktionen im Bereich des maschinellen Lernens, Optimierungen und Datenanalysen bereitstellen. Die SCIPY STAT -Anpassung ist die Funktion des Scipy, die das statistische Attribut oder das Modul aus der Scipy -Bibliothek verwendet und dabei hilft, die beste Passform für die Datensätze zu finden. Die beste Passform hier gibt die Verteilung der Daten an eine bestimmte Entscheidungsgrenze an.

Verfahren

Mit Hilfe der SCIPY STAT -Anpassung werden wir herausfinden. Die Syntax dieser Funktion wird angezeigt und dann mit Hilfe der Parameter erklärt, die für diese Funktion erforderlich sind.

Syntax

$ Statistiken. Norm.fit (Daten)

Die oben genannte Linie ist die Syntax für die STAT-Fit (). Diese Funktion verwendet das Modul „Norm“ aus dem Statistikmodul der Scipy. Norm ist die Länge eines Vektors oder der Abstand des Vektors, der über das Ausmaß spricht, in dem sich der Vektor in den Weltraum ausbreitet. Das „Daten“ ist der Eingabeparameter der Funktion, der sich auf die Daten bezieht, deren Verteilung oder Anpassung wir berechnen möchten.

Beispiel # 01

Die Funktion statistics fit () berechnet die Verteilung oder sagt die Art der Verteilung für einen Datensatz basierend auf der Art ihrer Elemente. Mit anderen Worten, die Statistiken fügen () die beste Passform für die Daten für die verschiedenen Arten von zufälligen Variablen, die am besten geeignet sind. Für jene unabhängigen und zufälligen Variablen erhalten wir die „Gaußsche Verteilung“, die als natürliche oder die Normalverteilung für die Variablen im Datensatz bekannt ist. In diesem Beispiel berechnet die Gaußsche Verteilung für die Variablen im Datensatz.

Für jede Art von Verteilung müssen wir die vier notwendigen Parameter wie den Standortparameter, die Form der Verteilung, die Skala und die letzte Schwelle sehen. Alle diese Parameter tragen zu einer Art von Verteilung bei. Die Gaußsche Verteilung hat die meisten ihrer Beobachtungen auf ihrem Gipfel, der sich um den Mittelwert befindet. Um dies zu implementieren, werden wir "Google Collab" ein Open-Source- und öffentliches Umfeld verwenden, das die Python-Programme mit der vorherigen Installation aller Pakete ausführen kann. Die erforderliche Bibliothek oder das Paket für dieses Beispiel sind Statistiken aus der Scipy. Erstens werden wir den Befehl "aus Scipy Import -Statistiken" schreiben.

Der nächste Schritt besteht darin, neue Daten zu generieren, um die zufälligen Variablen mit Hilfe der Norm aus dem Statistik -Modul als „Data = Statistiken“ zu erstellen. Norm. RVs (a, b, size = 400, random_state = 140) ”, diese Funktion übernimmt die beiden Parameter„ A “und die„ B “für die normalen unabhängigen Variablen und die„ Größe “, um diese Variablen in Zahlen zu verteilen "400". Jetzt werden wir die Ergebnisse dieser Funktion verwenden und diese an den Parameter der „Statistiken“ übergeben. fit () ”, um die beste Anpassungsverteilung für diese zufällig generierten Daten zu finden.

In der Ausgabe der Funktion möchten wir den „Positionsparameter“ anzeigen, der angibt. Der Code für dieses Beispiel ist unten beigefügt.

aus Scipy -Importstatistiken
a = 1
B = 1
Daten = Statistiken.Norm.Wohnmobile (a, b, size = 400, random_state = 140)
Ort, Skala = Statistiken.Norm.fit (Daten)
Druck (Ort)
Druck (Skala)

Die Ausgabe hat den Standort und den Skalierungsparameter für die Verteilung als 1 angezeigt.08 und 0.949.

Beispiel # 02

Jetzt werden wir die Funktion "STATS FIT () verwenden, um einen anderen Verteilertyp für den Datensatz mit kontinuierlichen Zufallsvariablen zu implementieren. Für eine solche Art von Daten mit positiv verzerrten Variablen verwenden wir die „Gamma -Verteilung“. Die Schiefe repräsentiert, wie viel die Verteilung Asymmetrie enthält. Die Gamma -Verteilung hat drei Parameter, die so häufig sind wie die Normalverteilung e.G., Maßstab sowie Schwelle und Form. Lassen Sie uns diese Verteilung implementieren. Zunächst werden wir das Modul „Statistiken“ aus der Bibliothekscipy importieren. Diese Bibliothek wird so importiert, dass wir die Funktion „Norm“ aus dem Statistikmodul verwenden können, um die Zufallsdaten für die Gamma -Verteilung zu generieren. Importieren Sie diese Bibliothek also, indem Sie den folgenden Befehl "Aus Scipy -Importstatistiken" schreiben.

Das STAT -Modul hilft auch dabei, die Funktion Fit () aufzurufen, um die Verteilung für die Daten zu ermitteln, die wir generieren werden. Generieren Sie nun nach dem Import der Statistiken die kontinuierlichen Zufallsvariablen bis zur Größe 400 mit dem Parameter „A“ und geben Sie sie an die Normfunktion als „Statistiken“ weiter. Gamma. Wohnmobile (a size = 400, random_state = 140) ”. Bis zu diesem Schritt haben wir die Daten erstellt, die wir in die Gamma -Verteilung passen möchten, da alle Variablen in diesen Daten kontinuierliche Zufallsvariablen sind und sie nur in die Gammaverteilung passen können. Stellen Sie diese Daten dann in die Gamma -Verteilung ein, indem Sie diese Daten an den Eingabeparameter der Funktion übergeben ”Statistiken“. Norm. fit (Daten) ”. Aus dieser Verteilung werden wir die Skala, Schwellenwert und Formparameter als Ausgang herausfinden und anzeigen.

aus Scipy -Importstatistiken
a = 1.
random_data = Statistiken.Gamma.Wohnmobile (a, size = 400, random_state = 140)
Form, Skala, Schwellenwert = Statistiken.Gamma.fit (random_data)
Druck (Form)
Druck (Skala)
Druck (Schwelle)

Abschluss

Der Artikel erörtert das Konzept, die beste Passform oder die besten Anpassungsverteilungen für die Daten zu finden oder zufällig generierte Variablen entweder kontinuierliche oder unabhängige. Darüber hinaus werden in dem Artikel die Parameter erörtert, die für die Verteilung erforderlich sind, und zeigt die Implementierung von zwei Arten von Verteilungen auf zwei verschiedenen Daten mit Hilfe von Beispielen.