Customer Relationship Management

Datenqualität verbessern durch Dubletten-Korrektur

Dublettenbereinigung - Methoden

Besonders empfehlenswert in Hinblick auf eine verbesserte Datenqualität ist eine IT-technisch durchgeführte Dublettenbereinigung. Diese ist insbesondere bei großen Datensätzen sinnvoll oder dann, wenn Daten aus verschiedenen, bereits vorhandenen Systemen zusammengeführt werden.

Eine einfache Dublettensuche beherrschen heute viele Anwenderprogramme. Für professionelles CRM sind diese Lösungen aber kaum brauchbar. Moderne Dublettensuche funktioniert heute nach speziellen Verfahren und ist keineswegs, wie man af den ersten Blick meinen könnte, trivial.

Aus Sicht der mathematischen Komplexitätstheorie ist das Finden von Dubletten in Adressbeständen NP-vollständig. Das heißt, ein entsprechender Algorithmus kann in Abhängigkeit der Anzahl zu vergleichender Adressen dies mit nicht-deterministischem, polynomiellem Zeitaufwand realisieren.

Allround-Anwendung: Auf Webshops wird der FACT-Algorithmus zur fehlertoleranten Suche eingesetzt.
Allround-Anwendung: Auf Webshops wird der FACT-Algorithmus zur fehlertoleranten Suche eingesetzt.

Für die Dublettensuche gibt es mehrere Algorithmen. Der von Omikron entwickelte FACT-Algorithmus ("Fragmentary Alikeness Comparing Technique") versucht menschliches Ähnlichkeitsempfinden nachzuahmen und findet Adressdubletten auch bei stark unterschiedlicher Schreibweise. "Omikron Data Quality GmbH" und "Data Quality GmbH - Omikron" werden beispielsweise als zu 86 Prozent ähnlich angesehen - eine klare Dublette. Auch wenn sich zwei Adressen in Ort und Straße wegen eines Umzugs unterscheiden, wird bei gleichzeitig ähnlichem Firmennamen und Ansprechpartner die Adresse dennoch als Dublette erkannt.

Ein anderes Suchverfahren nennt sich "Matchcode". Hierbei wird nur die PLZ oder der erste Buchstabe des Namens verglichen. Das ist schnell, aber dem Ähnlichkeitsverfahren unterlegen. Im Gegensatz zum Matchcode-Verfahren kommt FACT auch mit schwierigen Firmennamensumbildungen zurecht.