Mehr Licht im Text- und Dokumenten-Dickicht

Des französisch-deutsche Text-Mining-Anbieter Temis hat eine Textanalyselösung angekündigt. „Luxid“ soll Licht in das Dickicht unübersichtlicher Text- und Dokumentenmengen bringen und für Entscheidungsprozesse verfügbar machen.

Luxid stellt damit laut Temis eine Antwort auf die wachsende Komplexität der Auswertung großer Textmengen dar. Sie fallen beispielsweise in der Markt- und Mitbewerberbeobachtung, der Patentanalyse, der Auswertung wissenschaftlicher Publikationen oder der Unternehmenskommunikation mit Kunden an.

Die flexible Einsetzbarkeit soll die Software sicherstellen durch ihren modularen Aufbau aus drei spezifischen Komponenten:

1. Annotation Factory extrahiert detaillierte Informationen aus Textquellen in 20 Sprachen. Auf der Basis leistungsfähiger Sprachverarbeitungsverfahren erkenne die Anwendung Texteinheiten und -bezüge zuverlässig, so Temis. Über eine intuitiv zu bedienende Benutzeroberfläche lassen sich Volltexte und Metainformationen verwalten.

2. Information Mart ist eine Plattform, die verschiedenartige Quellen wie Websites, Presseerklärungen, Blogs, wissenschaftliche und Patentdatenbanken sowie interne Inhalte zusammenführt. Sie reichert die von Annotation Factory gesammelten Dokumente an, um daraus eine Wissensdatenbank zu erstellen.

3. Information Analytics ist ein webbasiertes Portal mit Zusatzfunktionen zur Gewinnung von und zur Navigation in Informationen. Über die Benutzeroberfläche lassen sich auch komplexe Such- und Filterfunktionen nutzen, Zeitreihen erstellen sowie thematische Zusammenhänge und Trends erkennen. Der Knowledge Browser verwandelt jedes Dokument in ein navigierbares Wissensdiagramm, mit dem die semantischen Bezüge der extrahierten Objekte angezeigt werden. Einmal erstellte Analysen können über die sogenannten Centers of Interest anderen Benutzern zugänglich gemacht werden

Das Rückgrat von Luxid bildet der Open-Source-Standard UIMA (Unstructured Information Management Architecture), der ursprünglich von IBM entwickelt wurde. Diese Architektur implementiert ein Protokoll für die Kommunikation zwischen Anwendungen, die unstrukturierte Daten wie Texte, aber auch Ton-, Bild- und Videodaten verarbeiten.

UIMA erlaubt Luxid die Integration weiterer, auf diesem Standard basierender Komponenten. Doch ermöglicht der Standard auch die Skalierung zwecks Verarbeitung größter Dokumentenmengen: Werden zusätzliche Ressourcen am Luxid-System angemeldet, so übernimmt die Software die Verteilung der Last und die Konsolidierung der Analyseergebnisse ohne weiteren Administrationsaufwand. (Detlef Scholz)