Pandas -Zufallsstichprobe

Pandas -Zufallsstichprobe
Es gibt viele Bibliotheken, die „Python“ bietet. Wenn wir "Pandas" diskutieren, ist es auch die Bibliothek von "Python". Es hilft uns in verschiedenen Bereichen, wie wir diese Bibliothek in Datenwissenschaften verwenden, oder wir können diese „Pandas“ -Bibliothek auch für maschinelle Lernaktivitäten verwenden. Es hilft auch bei der Verwaltung und Manipulation von Daten. Mit den „Datenrahmen“ in „Pandas“ können wir die Daten in Zeilen und Spalten anordnen und speichern, oder wir können dies auch in der Tabellenform sagen. Wir können einige Zeilen als Beispieldaten des Datenrahmens auswählen. Zu diesem Zweck haben wir die Funktion „Sample ()“ der „Pandas“ verwendet,. Diese Funktion hilft uns, eine zufällige Zeile oder Spalte aus dem DataFrame zu generieren. Wir können diese Funktion verwenden, um nur eine Zeile oder Spalte als Beispiel zu erhalten, oder wir können auch einige Zahlen in dieser Funktion festlegen, um mehrere Zeilen als Beispiel zu erhalten. Wir werden diese Methode „Random Sample ()“ erklären und ihre Arbeit in diesem Tutorial ausführlich erklären.

Syntax

Datenrahmen.Sample (n = Wert, frac = value, ersetzen = false/true, Gewichte = Wert, Random_State, Achse)

In seinem Parameter „N“ definieren wir die Zahlen der Zufallsstichprobe, die wir vom DataFrame erhalten möchten. Wenn wir hier keine Zahl hinzuge. Im Parameter „FRAC“ können wir den Prozentsatz der Zeilen definieren, die wir bekommen wollen. Wenn wir den FRAC als „0 einstellen.7 ”, dann wird es„ 70%“der Zeilen des Datenrahmens geben. Denken Sie daran, dass wir den Parameter „FRAC“ nicht mit dem Parameter „N“ platzieren können. Wenn wir den Parameter „n“ definieren, fügen wir den Parameter „FRAC“ nicht gleichzeitig hinzu. Wir benutzen nur einen von ihnen. Danach haben wir den Parameter "Ersatz", in dem wir "wahr" oder "falsch" hinzufügen, oder "Falsch". Wenn wir es als "wahr" festlegen, kann es die gleiche Zeile mehr als einmal geben. Wir können auch drei weitere Parameter festlegen, nämlich "Gewichte", "Random_State" und "Achse". Jetzt verwenden wir diese „Sample ()“ -Methode im Code „Pandas“.

Beispiel 01

Die Software, die wir zum Generieren dieser "Pandas" -Codes verwenden, ist die "Spyder" -Software ist. Unsere erste Aufgabe beim Durchführen dieser „Pandas“ -Codes besteht darin, die Bibliotheken zu importieren. Die Bibliothek, die wir importieren müssen. Wir setzen auch "Pandas als PD", nachdem wir den "Import" geschrieben haben. Die nächste Aufgabe besteht darin, den Datenrahmen zu entwickeln, und wir konstruieren hier "lmn_company_df". Dieser Datenrahmen wird konstruiert, weil wir die „PD“ verwendet haben.DataFrame () ”, der bei der Generierung des Datenrahmens in" Pandas "hilft, in" Pandas "zu generieren.

Wir geben auch einige Spalten ein, und diese Spalten enthalten auch Daten. Wir geben zunächst die "lmn_person" ein, die die erste Spalte dieses Datenrahmens ist. Es enthält "Jasper, Milli, Hayes, Easton, Bromley, Diego und Logan". Dann ist "lmn_code" die nächste Spalte hier und wir fügen in dieser Spalte "LMN122, LMN124, LMN125, LMN126, LMN127, LMN128 und LMN129" hinzu. Das „LMN_YEAR“ ist die dritte Spalte hier, und wir fügen „Mai 2008, Februar 2008, Juni 2009, April 2009, September 2010, Juni 2015 und Juli 2009“ ein. Das "LMN_SaleUnit" ist nach "lmn_year" aufgeführt. Es enthält mehrere Verkaufseinheiten: „50, 44, 39, 76, 85, 90 und 53“.

Jetzt zeigen wir diesen Datenrahmen mit „print ()“ an:

Wenn wir das "Run" -Symbol der "Spyder" -Software drücken, erhalten wir schnell die Ausgabe unserer Codes. Das Ergebnis des vorherigen Code wird hier bereitgestellt, in dem Sie nur den angezeigten Datenrahmen sehen können. Jetzt werden wir die Methode „Sample ()“ in diesem Code anwenden, um die Beispielzeile aus diesem Datenrahmen zu erhalten.

Wir fügen zunächst den Namen des Datenrahmens mit dieser Funktion „Sample ()“ hinzu. Hier haben wir dieser Funktion keinen Parameter hinzugefügt. Es wird also nur eine zufällige Zeile dieses Datenrahmens ergeben. Es wird auch diese zufällige Zeile am Terminal gedruckt, da wir diese „Sample ()“ -Funktion in die „print ()“ eingefügt haben.

Die Zeile, die wir nach der Anwendung dieser Funktion „Sample ()“ erhalten. Beachten Sie, dass es die Zeile zufällig als Beispiel dieses Datenrahmens auswählt.

Beispiel 02

Das "lmn_company_df" ist hier, und jetzt setzen wir den Wert von "n" als Parameter dieser "Sample ()" -Funktion fest. Wenn wir die Methode „Sample ()“ verwenden, fügen wir ihm auch "N" hinzu und setzen "3" als Wert von "N". Dadurch wird zufällig drei Zeilen des Beispiels „LMN_Company_DF“ ausgewählt.

Hier enthält der vollständige DataFrame sieben Zeilen und vier Spalten. Dann rendert es drei zufällige Zeilen, die wir nach der Anwendung der Funktion „sample ()“ erhalten und den Parameter „n“ auf "3" festgelegt haben. Es gibt Zeilen gemäß diesem „n“ -Wert zurück.

Beispiel 03

Die "vendor_df" ist jetzt konstruiert, und die Spalte "Vendor_Name" ist die erste Spalte des "Vendor_df". Es enthält „Maverick, Julian, Felix, Jasper, Chloe, Freya, Easton, Diago und Milli“. Die Kolumne „Vendor_country“ erfolgt danach, in der „England, Amerika, London, Kanada, Deutschland, Frankreich, Algerien, England und Deutschland“ enthält. Danach wird „Vendor_address“ hinzugefügt und fügen Sie „XYZ123, MNO890, JKL678, QWE345, RTY678, DFG456, CVB234, JHG876 und MNB543“ ein.

Als nächstes haben wir die Spalte "project_code", die "p123, p234, p345, p456, p678, p890, p098 und p765 enthält". Die letzte Kolumne heißt "Sales" und enthält auch einige Verkaufsrekorde, die „80000, 50000, 75000, 40000, 55000, 85000, 97000, 80000 und 90000“ sind. Jetzt drucken wir den gesamten "Vendor_df" mit "print ()" aus. Nachdem wir die "venfor_df" angezeigt haben, verwenden wir die Methode "sample ()". Diesmal setzen wir den Parameter "FRAC" und fügen "0" hinzu.5 ”als Wert. Es wird 50% der Zeilen aus diesem Datenrahmen zufällig ausgewählt und sie auch angezeigt, da wir diese „Sample ()“ -Methode in die Methode „print ()“ eingefügt haben.

Der DataFrame zeigt alle Zeilen und Spalten an und zeigt dann die Hälfte oder 50% der Zeilen an. Es wählt diese Zeilen zufällig aus und zeigt sie auf dem Terminal an, da wir den Parameter „FRAC“ der Funktion „sample ()“ gleich „0“ festlegen.5 ”. In diesem Code können Sie auch feststellen.

Beispiel 04

In diesem Code fügen wir zwei Parameter in der Methode „Sample ()“ hinzu, und diese sind „n“ und „Ersetzen“. Wir fügen zuerst "5" hinzu, was den Wert von „n“ ist, sodass es fünf Zeilen zurückgibt, und dann setzen wir "false" als Wert des Parameters "Ersatz". Wenn wir hier "falsch" festlegen, wird es nicht wieder die gleiche Zeile geben. Es macht nur einzigartige Zeilen und dupliziert keine Zeile.

Es macht fünf Reihen unten und alle sind einzigartige Zeilen. Es wählt diese Zeilen aus diesem Datenrahmen zufällig aus und zeigt sie in diesem Ergebnis an.

Der Wert von „n“ ist nicht größer als die Anzahl der Zeilen. Wie Sie bemerken können, enthält dieser Datenrahmen neun Zeilen. Wenn wir den Wert von „N“ größer als „9“ festlegen, gibt es eine Fehlermeldung zurück. Hier fügen wir "10" als Wert von "N" hinzu. Im folgenden Bild wird angezeigt, was passiert, wenn wir diesen Code ausführen:

Diese Fehlermeldung wird am Terminal generiert, da dieser Datenrahmen nur neun Zeilen enthält und der Wert von „N“ größer ist als die Anzahl der Zeilen des Datenrahmens.

Abschluss

In diesem Tutorial dreht sich alles um die „Pandas -Zufallsstichprobe“. Wir haben dieses Konzept in diesem Tutorial ausführlich erklärt. Wir haben seine Syntax erklärt und auch die Methode „Sample ()“ in unserem „Pandas“ -Coder verwendet. Wir haben Beispiele durchgeführt, indem wir unterschiedliche Parameter in dieser Methode „Sample ()“ platziert und alle Parameter dieser „Sample ()“ -Methode im Detail erörtert haben. Wir haben gezeigt, wie es die Zeilen des Datenrahmens als Beispiel zurückgibt, indem sie nach dem Zufallsprinzip nach der Anwendung dieser Funktion „Sample ()“ ausgewählt werden. Wir haben auch die Fehlermeldung in diesem Tutorial bei der Verwendung dieser Funktion besprochen und erklärt, warum diese Fehlermeldung auftritt.