Die Zeitreihenanalyse ist eine herausragende Technik für explorative Datenanalyse für maschinelles Lernen, mit der wir sehen können, wie sich die Datenpunkte im Laufe der Zeit ändern. Mehrere Zeitreihen-basierte Problemaussagen wie Ticketverkaufsprognose, Aktienkursanalyse usw. Die Zeitreihe könnte eine Vielzahl von Trends aufweisen, die nur schwer analysieren können, wenn man sich die Handlung ansieht. Infolgedessen ist es eine gute Idee. Wir werden uns ansehen, was für eine Zeitreihe ist, was Clustering ist und wie die Datenreihendaten Cluster -Daten erhoben werden können.
Was ist Zeitreihe?
Eine Zeitreihe ist eine Sammlung von Datenzeigern, die in der Reihenfolge der Zeit gruppiert sind. Die Datenpunkte repräsentieren eine Aktivität, die über einen bestimmten Zeitraum auftritt. Ein häufiges Beispiel ist die Gesamtzahl der in einem bestimmten Zeitintervall gehandelten Aktien sowie andere Parameter wie Aktienkurse und ihre jeweiligen Handelsinformationen in jeder Sekunde. Im Gegensatz zu einer Variablen mit kontinuierlicher Zeit haben diese Zeitreihen-Datenpunkte zu verschiedenen Zeitpunkten diskrete Werte in verschiedenen Zeitpunkten. Infolgedessen werden häufig diskrete Datenvariablen verwendet. Daten für eine Zeitreihe können über längere Zeit von einigen Minuten bis zu mehreren Jahren gesammelt werden. Die Zeit, über die Daten gesammelt werden. Es gibt verschiedene Zeitreihen-basierte Vorhersageprobleme im maschinellen Lernen und im Deep-Lernen wie die Vorhersage des Aktienkurs eines Unternehmens, der Anerkennung menschlicher Aktivitäten, der Vorhersage der Flugticketmenge usw. Dies spart viel Geld und hilft Unternehmen, sorgfältige Entscheidungen zu treffen, bevor sie in etwas investieren. Das Beispieldiagramm ist unten angegeben, die Variation von Beobachtungen mit der Zeit.
Was ist Clustering?
Das Clustering ist eine Art maschinelles Lernen unbeaufsichtigtes Lerntechnik. Die Schlussfolgerungen werden aus Datensätzen erfasst, bei denen keine Ausgabevariablen in der unbeaufsichtigten Lernmethode gekennzeichnet sind. Es handelt sich um eine Art explorative Datenanalyse, mit der wir uns mit multivariaten Datensätzen befassen können.
Clustering ist der maschinelle Lernen oder mathematische Ansatz, bei dem Datenpunkte in eine bestimmte Anzahl von Clustern mit ähnlichen Merkmalen zwischen den Datenpunkten in jedem Cluster gruppiert werden. Cluster bestehen aus Datenpunkten, die zusammen gruppiert sind, damit der Raum zwischen ihnen auf ein Minimum gehalten wird. Die Art und Weise, wie die Cluster produziert werden, wird durch die Art des Algorithmus bestimmt, den wir wählen. Da es kein Kriterium für ein gutes Clustering gibt, hängen die aus den Datensätzen gezogenen Schlussfolgerungen auch davon ab, was und wie der Benutzer den Clustering -Algorithmus entwickelt. Clustering kann verwendet werden, um Probleme wie Kundensegmentierung, Empfehlungssysteme, Anomalieerkennung usw. anzugehen. Der K-Means-Clustering-Ansatz, bei dem wir keine Etiketten haben und jeden Datenpunkt in seinen eigenen Cluster legen müssen, kann für Sie erkennbar sein. Ein prominenter Clustering-Ansatz ist K-Means. Die folgende Abbildung zeigt, wie wir verschiedene Datenpunkte mit denselben Merkmalen in denselben Cluster zusammenschließen.
Was ist Zeitreihenclustering?
Die Zeitreihenclustering -Technik ist ein unbeaufsichtigter Datenverarbeitungsansatz zur Klassifizierung von Datenpunkten basierend auf ihrer Ähnlichkeit. Ziel ist es, die Datenähnlichkeit zwischen Clustern zu maximieren und gleichzeitig zu minimieren. Eine grundlegende Technik in der Datenwissenschaft für die Identifizierung von Anomalie und die Entdeckung von Mustern ist das Clustering der Zeitreihen, das als Unterprogramm für andere kompliziertere Algorithmen verwendet wird. Diese Technik ist besonders hilfreich bei der Analyse der Trends in sehr großen Datensätzen von Zeitreihen. Wir können die Trends nicht nur differenzieren, indem wir uns die Zeitreihenhandlung ansehen. Hier können Sie die Trends gruppieren. Anschließend werden verschiedene Trends in verschiedene Cluster eingeteilt.
Kernel K bedeutet
Kernel-Technik bezieht. Die Kernel K-Means-Technik verwendet den gleichen Trick wie K-Means, außer dass die Kernel-Methode verwendet wird, um den Abstand anstelle von euklidischer Entfernung zu berechnen. Wenn der Kernel-Ansatz auf den Algorithmus angewendet wird, kann er nichtlineare Strukturen finden und eignet sich am besten für reale Datensätze.
K Mittel für Zeitreihen Clustering
Die häufigste Methode des Zeitreihenclustering ist der K -Mittelwert. Der gemeinsame Ansatz besteht darin, die Zeitreihendaten in ein 2-D-Array mit jeder Spalte für jeden Zeitindex zu verflachten und dann Standard-Clustering-Algorithmen wie K-Means zu verwenden, um die Daten zu cluster. Die Entfernungsmessungen der typischen Clustering -Algorithmen, wie z. B. euklidische Entfernung. Eine bevorzugte Möglichkeit besteht darin, eine Metrik zu verwenden, um die Trends der Zeitreihe anstelle der Standardabstandsmaßnahme zu vergleichen. Eine der beliebtesten Techniken, die dafür verwendet werden.
Dynamische Zeitverzündung
Obwohl ein Signal zeitlich vom anderen verschoben ist. Seine Fähigkeit, auf bekannte Sprachartefakte zu überprüfen, unabhängig vom Sprecher des Sprechers, macht es auch für Probleme mit der Spracherkennung nützlich. Wenn es beispielsweise zwei Arrays gibt: [1, 2, 3] und [4, 5, 6]. Es wird jedoch nicht einfach sein, wenn die Größe der Arrays unterschiedlich ist. Wir können diese Arrays als die Abfolge von Signalen betrachten. Die „dynamische“ Komponente legt nahe, dass die Signalsequenz hin und her verschoben werden kann, um nach einer Übereinstimmung zu suchen, ohne zu beschleunigen oder die gesamte Sequenz zu verlangsamen. Wenn das Zeitverzerrung ein Gummiband dehnt oder schrumpft, erstreckt sich DTW das Gummiband, um die Konturen einer Oberfläche zu entsprechen. Unten finden Sie die visuelle Darstellung von DTW.
Schritte zum dynamischen Zeitverzerrung
Implementierung von DTW in Python
von fastdtw import fastdtwAnwendungsfälle von Zeitreihenclustering
Abschluss
Dieser Artikel schau. Wir haben eine beliebte Methode für diese als Dynamic Time Warping (DTW) und die Prozesse und Implementierung durchlaufen, die mit der Verwendung verbunden sind.