Personensuche im Internet
Uni Weimar gewinnt internationale Challenge
Ausgangspunkt des Wettbewerbs Spock Challenge ist die Problematik der Personensuche im WWW. Der Suchmaschinenbetreiber Spock Inc. entwickelt Technologien, um persönliche Web-Seiten automatisch nach ihren verschiedenen Besitzern und unabhängig von den verwendeten Personennamen zu sortieren.
Dieses Problem ist insbesondere eine Herausforderung für häufiger vorkommende Namen wie „Peter Meyer“. Zum einen gibt es eine Vielzahl von Homepage-Besitzern mit diesem Namen. Zum anderen können einem einzelnen Besitzer auch mehrere Webseiten zugeordnet werden, in denen es um ihn geht.
Die besondere Herausforderung des Wettbewerbs bestand darüber hinaus in den großen Datenmengen, die die Firma Spock bearbeiten muss. Zehn Gigabyte Textdaten sollten innerhalb von vier Stunden auf einem handelsüblichen PC ohne Zugriff auf das Internet nach Besitzern sortiert werden.
Die Wissenschaftler der Uni Weimar entwickelten für diese Aufgabe spezielle Dokument-Ähnlichkeitsmaße sowie Cluster-Analyse-Algorithmen und Korrektheitsstatistiken. Damit gelang es ihnen, in nur 3 ½ Stunden die Menge der Webseiten zu ordnen und dabei auch noch eine hohe Präzision zu erzielen.
Mit Hilfe dieser Lösung plant die Suchmaschine Spock.com in Zukunft, ihre Personensuche zu verbessern. (dsc)
Links zum Thema Internet |
Angebot |
---|---|
Bookshop |
|
eBooks (50 % Preisvorteil) |
|
Software-Shop |