Seeborn ist ein bemerkenswertes Visualisierungsmodul für Python, mit dem Sie statistische Grafik zeichnen können. Es basiert auf der Matplotlib -Software und ist eng mit den Datenstrukturen von Pandas verbunden. In einem unbeaufsichtigten Lernen helfen Clustering -Techniken beim Erwerb strukturierter Daten. In diesem Artikel werden wir sehen, was eine Clusterkarte ist und wie diese für verschiedene Zwecke konstruiert und verwendet werden.
Syntax der Clusterkarte in Seeborn
Wir haben hier eine einfache Syntax für die Seeborn -Clusterkarte:
1 | Seeborn.clustermap (Daten ,, Standard_scale = Keine, AbbSize = (6, 8), ** kwargs) |
Im Folgenden erklärten wir den Parameter, der in der Saeborn -Clusterfunktion übergeben wurde, zusammen mit einigen optionalen Parametern.
Daten: Für das Clustering werden rechteckige Daten verwendet. Nas sind nicht erlaubt.
pivot_kws: Wenn sich die Daten in einem ordentlichen Datenrahmen befinden, können Sie die Schlüsselwortparameter verwenden, um einen rechteckigen Datenrahmen mit einem Pivot zu erstellen.
Methode: Um Cluster zu berechnen, wenden Sie den Verknüpfungsansatz an. Weitere Informationen finden Sie in der Dokumentation für Scipy.Cluster.Hierarchie.Verknüpfung ().
metrisch: Die Daten sollten in Bezug auf die Entfernung gemessen werden. Weitere Parameter finden Sie in der Scipy.räumlich.Distanz.PDIST () Dokumentation. Sie können jede Verknüpfungsmatrix manuell erstellen und sie als Zeile liefern. Col -Verknüpfung verwendet die Metriken (oder Methoden) für Zeilen und Spalten.
z_score: Ob Z-Scores für die Spalten oder Zeilen berechnet werden sollte oder nicht. Z -Scores werden als z = (x - Mittelwert)/STD berechnet, was bedeutet, dass die Werte der einzelnen (Spalte) der jeweiligen Zeile (Spalte) der Zeile (Spalte) abgezogen und durch die Standardabweichung der Zeile (Spalte) (Spalte) geteilt werden. Dies garantiert einen Durchschnitt von 0 und eine Variation von 1 für jede Zeile (Spalte).
Standard_Scale: Ob diese Dimension normalisiert werden oder nicht, bedeutet das Subtrahieren des Minimums und das Teilen jeder Zeile oder Spalte durch ihr Maximum.
Feigensize: Die Gesamtgröße der Abbildung, die Breite und Höhe umfasst.
row, col _cluster: Wenn wahr, werden die Zeilen und Spalten zusammengeklustert.
row, col _colors: Die Farben zum Beschriften der Zeilen oder Spalten. Es kann verwendet werden, um festzustellen, ob die Daten in einer Sammlung gemeinsam geklustert sind. Für mehrere Farbniveaus der Kennzeichnung können Sie die gestapelten Listen oder einen Datenrahmen verwenden, wenn Sie in Form eines Panda geliefert werden. DataFrame oder Pandas sind beide gute Optionen. Farbbezeichnungen werden aus den Feldnamen DataFrames oder dem Seriennamen abgeleitet. Die Farben in der DataFrame/Serie sind auch mit dem Datensatz mit dem Index korreliert, um sicherzustellen, dass die Farben in der richtigen Sequenz angezeigt werden.
Dendrogramm, Farben _Ratio: Der Prozentsatz der grafischen Größe ist den beiden Grenzabschnitten gewidmet. Wenn ein Paar angegeben ist, bezieht es sich auf die Zeile und die Col -Verhältnisse.
cbar_pos: Im Diagramm befinden sich die Farbbar -Achsen in den richtigen Positionen. Die Farbleiste wird ausgeschaltet, wenn Sie sie auf keine festlegen.
Kwargs: Heatmap empfängt alle anderen Schlüsselwortparameter ().
Wir werden eine Wärmekarte mit den hierarchischen Clustern durch die Clustermap -Funktion des Seeborn konstruieren. Seeborns Clustermap ist eine wirklich nützliche Funktion. Wir zeigen Ihnen, wie Sie es mit einigen Beispielen verwenden:
Die Clusterkarte des Seeborn ist eine Matrixgrafik, mit der Sie Ihre Matrixelemente als Wärmekarte visualisieren und gleichzeitig eine Clusterbildung Ihrer Zeilen und Spalten anzeigen können. Im nachfolgenden Beispiel haben wir die erforderlichen Bibliotheken eingebracht. Dann haben wir einen Datenrahmen der Mitarbeiter erstellt, der ihre Namen, IDs, Alter und Gehalt enthält. Wir haben diesen Datenrahmen dann mit der PD in die Pandas konvertiert.DataFrame -Funktion. Wir setzen den Index der Mitarbeiter der Mitarbeiter durch das Feld des Namens über die SET -Funktion.
Danach haben wir eine Clusterkarte dieses Datenrahmens erstellt, indem wir die SEABORN CLUSTER -Funktion aufgerufen und die Mitarbeiter der Mitarbeiter in diese Funktion übergeben haben. Ein weiteres Keyword -Argument, Annot, wird verwendet und auf wahr eingestellt. Mit diesem Parameter können wir die realen Zahlen sehen, die auf der Wärmekarte der Clusterkarte angezeigt werden.
Die Ausgabe der Clusterkarte befindet sich in der folgenden Abbildung. Beachten Sie, dass unsere Zeilen und Säulen von Seeborn neu angeordnet werden:
Verwenden wir den Beispieldatensatz „MPG“, um eine Clusterkarte zu erstellen. Wir müssen die Daten filtern, die wir an diese Clusterkarten an die Anzahl der Spalten nur im Datenrahmen senden.
Beginnen Sie mit dem Import der erforderlichen Bibliotheken. Wir haben den Datensatz von "MPG" in die Variable "DataFrame_MPG" geladen. Außerdem haben wir die Dropna -Funktion verwendet, um die Nullzeilen innerhalb des Datenrahmens zu entfernen. Wir haben den Namen der Spalte zusammen mit der Spaltengröße im Datenrahmen „MPG“ gedruckt. Anschließend haben wir eine Cluster -Kartenfunktion, bei der der gesamte "MPG" -Datenrahmen mit den angegebenen Spalten übergeben wird.
Die drei Spalten sind in der Konsole angezeigt.
Als wir den vorherigen Code ausgeführt haben, sehen wir eine Clusterkarte mit nur einer Spalte mit einer hellen Farbe. Dies liegt daran, dass die Skalen für diese verschiedenen Spalten unterschiedlich sind.
Beispiel 3:
Es gibt verschiedene Optionen zum Skalieren der Daten in der Cluster -Kartenfunktion. Eine einfache Methode besteht jedoch darin, das Standard -Argument der Standardskala zu verwenden. Wenn wir jede Zeile skalieren wollen, müssen wir einen Wert von Null als Argument übergeben. Wenn wir jede Spalte skalieren wollen, beträgt der Wert 1. Jetzt haben wir einen Skalenwert von 1. Außerdem haben wir ein Methodenargument innerhalb der Clusterfunktion übergeben, das einen Wert als Single zuweist. Die Zeichenfolge kann als einzelner Wert übergeben werden, was eine minimale Verknüpfung ist.
Die Datenrahmen „Iris“ -Clusterkarte unterscheidet sich in der Abbildung geringfügig, da wir eine Skala- und Methodenparameter bestanden haben.
Beispiel 4:
Hier haben wir den Parameter row_color in der SEABORN -Cluster -Kartenfunktion hinzugefügt. Wir haben jede Farbe den Feldarten zugewiesen und die Informationen aus der Speziesäule der Datenrahmenpinguine gezogen.
Abschluss
Jetzt können Sie die Seeborn -Clusterkarte festlegen, da wir sie mit einigen Beispielen der verschiedenen übergebenen Parameter erklärt haben. Die Clustermap von Seeborn enthält auch viele Alternativen zur Berechnung einer Länge oder einem Ähnlichkeitsnetz aus den Daten, um eine Heatmap zu erstellen.