Wenn Sie mit großen Datenmengen arbeiten, die mit einem breiten Satz von Parametern erfasst werden, kann der Versuch, die Beziehungen und Muster zwischen Merkmalen zu finden, zu einer lästigen Aufgabe werden. Trotz unterschiedlicher bereits vorhandener Modelle, die bereits im Datenanalyseraum verfügbar sind, kann es zu einer aussagekräftigen Folge einer aussagekräftigen Schlussfolgerung in großen Datensätzen zu einer komplexen und umfassenden Erkennungsaufgabe werden. Große Datensätze mit einem sehr breiten Satz von Datenerfassungsparametern haben in der Regel mehrere verschiedene Arten von Datenschlendern zusammen. Leichte Intelligenz beim Auffinden von Algorithmen können daher nicht alle Beziehungen, die in einem solchen Datensatz enthalten sind.
Hier kommt Apache Uima ins Spiel. Unstrukturierte Informationsmanagementanwendungen (UIMA) werden speziell für diesen Zweck erstellt - um die Bedeutung in einer ansonsten scheinbar unaufheigenden Datenverteilung zu finden. Es wird normalerweise verwendet, um die unstrukturierten Daten zu sortieren und die Bedeutungen zu kategorisieren, die in den Beziehungen zwischen verschiedenen Merkmalen enthalten sind, die in einem Datensatz vorhanden sind. Was die Apache -UIMA tut, ist, den Benutzern zu verstehen, welche Funktionen sich gegenseitig abheben, welche Beziehungen für welche Kategorien in einem Datensatz wichtig sind und wie alle Instanzen in einem Datensatz den Datensatz in eine bestimmte Richtung drücken.
UIMA ist nicht auf die Arbeit mit textbasierten Daten beschränkt. Es kann auch mit Signaldaten (Video- und Audiodaten) verwendet werden. Dies bedeutet, dass UIMA nicht nur die Bedeutung in Textdaten finden kann, sondern auch die großen Datensätze analysieren, die Audio- oder Video -Beispiele enthalten und die Bedeutung für den Benutzer basierend auf einigen festgelegten Parametern generieren. Zusammenfassend lässt sich sagen, dass Apache UIMA die Erkennung von Wissen anhand eines multi-modalen analytischen Ansatzes ermöglicht, der den Datensatz aus verschiedenen Perspektiven betrachtet.
Installation
Um mit der Apache -UIMA -Installation zu beginnen, beginnen wir mit der Aktualisierung des APT -lokalen Repositorys, das die Paketnamen und Informationen enthält.
1. Führen Sie den folgenden Befehl im Terminal aus, um die ordnungsgemäßen lokalen Repositorys und Informationen zu aktualisieren:
$ sudo apt -get update -ySie sollten eine Ausgabe sehen, die dem folgenden ähnlich ist:
2. Wir installieren jetzt die Apache UIMA, indem wir den folgenden Befehl im Terminal ausführen:
$ sudo apt-Get install -y uima-docNOTIZ: Das Argument -y stellt sicher, dass die Installation lautlos erfolgt, ohne dass Sie „Ja“ eingeben müssen.
Sie sollten eine Ausgabe sehen, die dem folgenden ähnlich ist:
3. Wir laden jetzt das bevorzugte UIMA -Verteilungspaket herunter, indem wir entweder den Link besuchen oder das WGet -Tool verwenden und den Befehl im Terminal ausführen (nur für Linux -Benutzer):
$ wget https: // dlcdn.Apache.org // uima // uimaj-3.3.1/uimaj-3.3.1-selbst.Teer.gzSie sollten eine Ausgabe sehen, die dem folgenden ähnlich ist:
4. Sobald der Download abgeschlossen ist, extrahieren wir die heruntergeladene Datei und die CD in sie.
Führen Sie den folgenden Befehl im Terminal aus:
$ tar xzfLike SO:
Gehen Sie dann in den extrahierten Ordner, indem Sie den folgenden Befehl ausführen:
$ CD Apache-UIMA5. Wir erstellen jetzt eine UIMA -Umgebungsvariable und geben ihm den Weg, in dem sich der extrahierte Ordner befindet.
Führen Sie den folgenden Befehl im Terminal aus:
6. Führen Sie die folgenden Befehle im Terminal aus. Sie werden sehen, dass eine Instanz von Apache Uima öffnet:
$ $ Uima_home/bin/adjepexamplePaths.sh $ $ uima_home/bin/documentAnalyzer.SchBenutzerhandbuch
Mit der apache uima jetzt sind wir mit der Auswahl des Standorts des XML -Deskriptors der Analysis Engine ausgewählt. Für die Zwecke dieses Handbuchs wählen wir eine vorgefertigte Datenverteilung aus, um die Analyse auf der Datenverteilung auszuführen und die Muster zu finden.
Wir führen jetzt das Modell aus und untersuchen die Ausgänge, die es generiert.
Schauen wir uns einen der generierten Ausgänge an:
Wir sehen.
Durch die Auswahl des Personaltitels in den verfügbaren Annotationen können wir feststellen, dass es in der Lage ist, alle Personen hervorzuheben, die in der Datenverteilung erwähnt werden.
Abschluss
Das Finden der Bedeutung und Inferenz in großen unstrukturierten Datensätzen kann eine schwierige Aufgabe sein. Die Anzahl der verschiedenen Parameter, die nach und analysieren, macht den Zielraum wirklich riesig und es wird etwas ineffizient, einen solchen Datensatz mit herkömmlichen Algorithmen zu analysieren. Apache UIMA hilft bei der Lösung dieses Problems, da es in der Lage ist, die großen Datensätze relativ leicht zu analysieren und Inferenz zu generieren, Beziehungen zu finden und die Muster selbst in den größten Datensätzen zu ermitteln, die auf der Grundlage eines sehr breiten Satzes von Eingabeparametern kompiliert werden. Es funktioniert nicht nur hervorragend in textbasierten Daten, sondern auch auf Audio- oder Videodaten wirklich gut.