Personensuche im Internet

Uni Weimar gewinnt internationale Challenge

Ein Team der Professur Content Management und Web Technologien an der Uni Weimar konnte die mit 50.000 US-Dollar dotierte Spock Challenge für sich entscheiden.

Ausgangspunkt des Wettbewerbs Spock Challenge ist die Problematik der Personensuche im WWW. Der Suchmaschinenbetreiber Spock Inc. entwickelt Technologien, um persönliche Web-Seiten automatisch nach ihren verschiedenen Besitzern und unabhängig von den verwendeten Personennamen zu sortieren.

Dieses Problem ist insbesondere eine Herausforderung für häufiger vorkommende Namen wie „Peter Meyer“. Zum einen gibt es eine Vielzahl von Homepage-Besitzern mit diesem Namen. Zum anderen können einem einzelnen Besitzer auch mehrere Webseiten zugeordnet werden, in denen es um ihn geht.

Die besondere Herausforderung des Wettbewerbs bestand darüber hinaus in den großen Datenmengen, die die Firma Spock bearbeiten muss. Zehn Gigabyte Textdaten sollten innerhalb von vier Stunden auf einem handelsüblichen PC ohne Zugriff auf das Internet nach Besitzern sortiert werden.

Die Wissenschaftler der Uni Weimar entwickelten für diese Aufgabe spezielle Dokument-Ähnlichkeitsmaße sowie Cluster-Analyse-Algorithmen und Korrektheitsstatistiken. Damit gelang es ihnen, in nur 3 ½ Stunden die Menge der Webseiten zu ordnen und dabei auch noch eine hohe Präzision zu erzielen.

Mit Hilfe dieser Lösung plant die Suchmaschine Spock.com in Zukunft, ihre Personensuche zu verbessern. (dsc)

tecCHANNEL Shop und Preisvergleich

Links zum Thema Internet

Angebot

Bookshop

Bücher zum Thema

eBooks (50 % Preisvorteil)

eBooks zum Thema

Software-Shop

Internet