Histogramme sind visuelle Darstellungen einer Sammlung kontinuierlicher Datenverteilung. Ein Histogramm unterteilt die Daten in Intervalle oder Behälter (typischerweise auf der X-Achse), wobei die Anzahl der Datenpunkte in jeden Behälter gleich der Höhe des Balkens über diesen Behälter liegt. Diese Behälter haben nicht alle gleich, aber sie sind in der Nähe voneinander (ohne Lücken). Außerdem sind die Breiten dieser Behälter nicht unbedingt gleich, aber sie sind in der Nähe von zusammen (ohne Lücken).
Wir werden die Erläuterung des Seeborn -Histogramm -Diagramms in diesem Artikel durchlaufen, mit dem Sie die Datenverteilung in Anwendungen für Datenwissenschaften und maschinelles Lernen visualisieren können. Dieser Artikel zeigt Ihnen, wie Sie das Seeborn verwenden können.Histplot () -Methode zum Erstellen einer Vielzahl verschiedener Arten von Histogrammanzeigen. Wir werden auch erklären, was jedes der Argumente der Saeborn -Histogrammfunktion bedeutet.
Ein weiteres Instrument zur Untersuchung von Datenverteilungen ist ein Dichtediagramm, und das Kerneldichtediagramm ist ein anderer Name dafür. Es ist ein geglättetes Histogramm. Die Spitzen eines Dichtediagramms zeigen, wo die Werte im Laufe der Zeit angesammelt werden. Glättungsmethoden sind in einer Vielzahl von Größen und Formen erhältlich. Eine der Methoden zur Glättung eines Histogramms ist die Kerneldichteschätzung (KDE).
Syntax der Seeborn -Histplot
Die Histplot -Methode von Seeborn hat eine sehr einfache Syntax. Der Seeborn.HistPlot () -Methode ist eine spezielle Funktion zur Herstellung von Histogrammen in Seeborn.
sns.HISPLOT (data = dataframe_name, x = x-axis)Normalerweise verwenden wir das Datenargument in der Klammern, um den Datenrahmen zu identifizieren, an dem wir arbeiten möchten. Es gibt noch einige Argumente, mit denen wir das Verhalten der Histplot () -Funktion verändern könnten.
KDE: Sie können eine "Kernel -Dichte -Schätzung" -Linie über Ihr Histogramm mit der KDE -Option einfügen. Eine KDE -Linie ist eine kontinuierliche Linie, die die Datendichte darstellt. KDE -Linien sind eine visuelle Darstellung der Verteilung der Daten, die anstelle von Histogrammen verwendet werden können. KDE -Linien werden jedoch manchmal in Verbindung mit Histogrammen verwendet. Als Argument nimmt diese Option einen booleschen Ausdruck (ich.e., Richtig oder falsch).
Farbton: Dieser Parameter hilft bei der Farbzuordnung von Variablen für Diagramme.
Gewichte: Gewichte helfen bei der Ermittlung des Einflusses jedes Datensatzes auf die Anzahl jedes Behälters.
Stat: Die vier Kategorien statistischer Methoden zur Berechnung von Bin -Werten sind "Count", "Frequenz", "Dichte" und "Wahrscheinlichkeit".
Mülleimer: Der Bin -Parameter, der die Anzahl der zu verwendenden Behälter spezifiziert.
Binwidth: Die Breite des Behälters kann hier angepasst werden.
Binrange: Die niedrigsten und größten Werte für Kanten können mit dieser Option festgelegt werden.
Palette: Für die Hue Semantic Mapping können wir unsere Farbtöne auswählen.
Farbe: Wenn keine Hue -Mapping verfügbar ist, können wir mit diesem Argument eine einzelne Farbe von Matplotlib auswählen.
Beispiel 1:
Hier haben wir ein einfaches Histogramm erstellt, indem wir die Standardparameter verwenden. Wir haben die Bibliotheken importiert, die uns helfen, die Handlung zu generieren. Danach setzen wir das Styling für Seeborn, indem wir den Stilparameter als Darkgrid in der Set -Funktion verwenden. Für die Histplot haben wir einen Datensatz "MPG" geladen, der "MPG" geladen hat. Die SEABORN -HISTLOT -Funktion wird dann aufgerufen, wenn die Daten und X -Parameter übergeben und einen Wert zugewiesen werden. Der X -Parameter nimmt den Feldnamen Beschleunigung aus dem Datensatz „MPG“ an.
Die einfache Histogramm -Diagrammdarstellung lautet wie folgt:
Beispiel 2:
Wir verwenden die Randn -Funktion für die Histogramm -Diagramm -Visualisierung. Zu diesem Zweck haben wir die erforderlichen Bibliotheken aufgenommen, die für die Code -Implementierung erforderlich sind. Anschließend haben wir einen Datensatz für die Zufallszahl erstellt und die Randn -Funktion generiert zufällige Zahlen im angegebenen Bereich. Die SEABORN -HISTLOT -Funktion nimmt den Datenparameter als „Nummer“ an, nämlich der Datensatz, der mit der Randn -Funktion und dem KDE -Parameterwert für true erstellt wurde.
Das Folgende ist die Histogrammvisualisierung mit der KDE -Kurvenlinie:
Beispiel 3:
Der Beispieldatensatz „Iris“ aus dem Seeborn -Paket wird in diesem Beispiel verwendet. Wir haben die Bibliotheken von Matplotlib, Seeborn, Panda und Numpy hinzugefügt,. Anschließend haben wir eine variable df_iris erstellt, in der der Beispieldatensatz -Iris geladen ist. Die Seeborn -Histplot nimmt den Dataset -Iris in sich und setzt den Parameter X als sepal_length aus dem IRIS -Datensatz, KDE -Wert auf true und die semantische Variable -Spezies wird unter Verwendung des Hue -Parameters abgebildet.
Im folgenden Einzelhistogramm -Diagramm werden mehrere Speziessepallängenverteilungen beobachtet:
Beispiel 4:
In diesem Beispiel wird das Histogramm so normalisiert, dass die Höhe jedes Balkens eher eine Wahrscheinlichkeit als eine Anzahl von Datenpunkten darstellt. Hier haben wir einen Beispieldatensatz „Punkte“ geladen, das verschiedene Eigenschaften aufweist. Unter diesen Eigenschaften setzen wir den X -Parameter als Firing_rate in der Histplot -Funktion aus den Datensatzpunkten ein. Wir haben auch den STAT -Parameter als Wahrscheinlichkeit und den diskreten Wert für TRUE angegeben, der die Bin -Breaks mit Balken kombiniert, die sich auf ihren jeweiligen Wert konzentrieren, um die unterschiedlichen Werte in einem Datensatz darzustellen. Endlich ist der Farbparameter auf die grüne Farbe eingestellt.
Die Darstellung des Histogramm -Diagramms mit der Wahrscheinlichkeit befindet sich im folgenden Snapshot:
Beispiel 5:
Wir können die zweite Form eines Histogramms konstruieren. Das bivariate Histogramm zeigt zwei Variablen mit den x- und y -Achsen. Dieses Beispiel veranschaulicht ein von BIN bewertetes bivariates Histogramm mit einem Farbbalken, um die Werte anzuzeigen. Mit dem Colormap wird die Farbleiste angezeigt. Wir haben den Datenrahmen von Pinguinen als Datensatz eingefügt. Die Variablen x und y sowie die Bins, diskreten und logarithmischen Skala -Parameter werden dann in der Histplot -Funktion angegeben. Um die Farbleiste mit der Handlung zu verknüpfen, gaben wir der CBAR -Option zusätzlich. Der diskrete Parameter wird verwendet, um Histogrammlücken zu verarbeiten, und die Protokollskala wird verwendet, um eine Protokollskala auf der Datenachse festzulegen.
Die Visualisierung des bivariaten Histogramm -Diagramms ist in der folgenden Abbildung dargestellt:
Abschluss
Wir haben die Histplot in Seeborn erklärt. Wir haben die Histplot () -Funktion in diesem Beitrag verwendet, um die SeaBorn -Histogramm -Handbuch zu übergehen. Wir untersuchten eine Vielzahl von Fällen der Histogrammerstellung auf multivariate statistische Umstände sowie die Binning -Strategien.