Customer Relationship Management

Datenqualität verbessern durch Dubletten-Korrektur

31.05.2011 von Klaus Manhart
Die Kundendatenbank ist das Herzstück eines CRM-Systems. Ist die Datenqualität schlecht, scheitert das beste Kundenbeziehungs-Management. Vor allem Dubletten in den Daten werden oft zum Problem. Doch es gibt intelligente Abhilfe gegen die Doppler.

Erfolgreiches CRM beginnt bei der korrekten Kundenansprache und endet bei Datenanalysen, deren Basis gut geführte Kundendaten sind. Die Kundendatenbank steht deshalb immer im Zentrum jedes CRM-Projektes. Sie füllt ein CRM-System erst mit Leben, sprich: mit wertvollen Informationen über Kunden und ihre Beziehungen zum Unternehmen und seinen Produkten.

Die Datenbank enthält die Daten aller Akteure, die für das Kunden-Management eines Unternehmens relevant sind: Dazu gehören vor allem die Stammdaten mit verschiedenen Adresstypen wie Postanschrift, Telefonnummern und Mail-Adressen. Neben den reinen Kontaktdaten sind in der Datenbank aber auch Problembeschreibungen, Problemlösungen, Ablaufprozeduren, die Kundenhistorie und Telefongespräche hinterlegt.

Auf all diese Informationen können die kundennahen Abteilungen wie Marketing, Vertrieb und Service zugreifen. Jeder berechtigte Mitarbeiter des Unternehmens hat damit Zugang zu den kompletten Daten des Kunden, kann ihn aufmerksam und individuell ansprechen und beraten. Aussagen wie: "Dazu kann ich im Augenblick nichts sagen" oder "Dafür ist mein Kollege zuständig, der hat alle Informationen" sollten passe sein.

Herzstück: Die Kundendatenbank mit Adressen und andere kundenspezifischen Informationen bildet den Kern jedes CRM-Systems - im Beispiel der Combit Relationship Manager (Quelle: Combit).

Eine gut geführte CRM-Datenbank mit aktuellen, korrekten und vollständigen Daten ist Voraussetzung dafür, dass alles reibungslos funktioniert. Sind die Informationen hingegen falsch, veraltet, unvollständig oder doppelt und mehrfach vorhanden, sind die besten CRM-Prozesse wirkungslos. Basis jedes CRM-Projektes ist deshalb eine gut konzipierte und vor allem gut gepflegte Kundendatenbank.

Konzeption der Kundendatenbank

Für die Konzeption der Datenbank müssen nur wenige Fragen beantwortet werden: Welche Daten sollen in welchem Umfang gespeichert werden? Für wen sollen welche Daten in welcher Form und in welchem Umfang zugänglich gemacht werden? Und wie sollen die Daten aufbereitet sein?

Um diese Fragen zu beantworten, sollten die Mitarbeiter aller Abteilungen herangezogen werden. Damit lassen sich mehrere Fliegen mit einer Klappe schlagen. So vermeidet man beispielsweise, dass zentrale Punkte vergessen werden, die sich nachträglich nicht mehr oder nur mit großen Aufwand korrigieren lassen. Zum anderen erreicht man eine größere Akzeptanz in der Belegschaft und ein eventuell vorhandener Widerstand gegen die Einführung eines zentralen Datenmanagements wird reduziert.

Ein konkretes, schriftlich ausgearbeitetes Anforderungsprofil legt konkret fest, welche Informationen die Datenbank enthalten soll. Wichtig ist dabei, dass wirklich alle relevanten Informationen über jeden einzelnen Kunden festgehalten werden. Nicht nur die objektiven Daten wie Adressen oder getätigte Käufe sollten in der Datenbank gespeichert werden, sondern auch psychologische Variablen wie Kundenwünsche, Vorlieben und Verhalten.

Kleinere Unternehmen sollten alle kundenrelevanten Daten in einer einzigen Datenbank hinterlegen. Verteilt man die Daten auf unterschiedliche Teil-Datenbanken - etwa in die der Buchhaltung, der Auftragsabwicklung oder des Marketings - steigt der Arbeitsaufwand, da die gleichen Daten mehrfach eingegeben werden müssen. Vor allem aber läuft man dabei Gefahr, dass die Daten redundant und damit inkonsistent werden.

Müssen die Daten aus betriebsinternen Gründen in verteilten Datenbanken gehalten werden - was in der Regel bei größeren Unternehmen Realität ist - sollten diese auf alle Fälle vernetzt sein. Die meisten CRM-Programme bieten Schnittstellen an, mit welchen die verschiedenen Daten verknüpft und abgeglichen werden können. Ein Sonderfall ist in größeren Unternehmen die Integration von ERP-Systemen.

Problem Datenqualität

Als das größte Problem bei CRM-Datenbanken gilt die Datenqualität. Falsche, veraltete, unvollständige und inkonsistente Daten sind weit verbreitet und mindern die Datenqualität - und damit auch den Erfolg des CRM-Projektes als Ganzes.

Nach einer Studie des Datenbank-Spezialisten Omikron gab jedes zweite Unternehmen eine Fehlerquote von mindesten 20 Prozent in seinen Kundendatenbanken an. In jedem sechsten Unternehmen liegt die Quote sogar bei mehr als 30 Prozent. Bei zwei von fünf Betrieben weisen die Adressdaten eine Fehlerquote zwischen 10 und 20 Prozent auf.

Dagegen gaben nur 7 Prozent der befragten Firmen zu Protokoll, dass ihre Kundeninformationen nahezu vollständig und fehlerfrei seien. Das ist fatal, wenn man bedenkt, dass erfolgreiche Direkt-Marketing-Maßnahmen zu 60 Prozent auf korrekten Adressdaten basieren.

Als Hauptursache für die Mängel in den Kundendaten gestehen die befragten Unternehmen zu über zwei Drittel ein, es fehle ihnen an einer ausreichenden Sensibilität für die Qualitätsansprüche. Ähnlich viele begründen die Probleme damit, dass im Unternehmen niemand zentral für Datenpflege verantwortlich sei. Auch fehlendes Personal trage in über der Hälfte der Unternehmen zu den beschriebenen Problemen bei.

Hitliste "mangelnde Datenqualität": Die am häufigsten genannte Ursache für mangelnde Datenqualität ist nach einer Omikron-Studie die unzureichende Sensibilität für Qualitätserfordernisse (Quelle: Omikron).

CRM ist aber kaum erfolgreich, wenn der Datenbestand nicht korrekte Adressen enthält. Aussagefähige Analysen zum Kundenverhalten und fundierte Entscheidungen sind dann kaum mehr möglich. Unzustellbare Briefe verursachen Mehrarbeit und Kosten, zusätzlich leidet die Effizienz und die Schlagkraft im Vertrieb.

Vor allem führen nicht korrekte Daten zu einem möglichen Image-Schäden durch falsche Anrede oder Namen. Potenzielle Kunden, die mehrfach dieselben Werbeangebote erhalten oder falsch adressiert werden ("Herr" statt "Frau"), assoziieren dies mit "Massenwerbung" - und stehen einem Kauf eher ablehnend gegenüber.

Das Dublettenproblem

Ein grundsätzliches Problem sind fälschlicherweise doppelt angelegte Adressen, die so genannten Dubletten. Sie entstehen, wenn die Daten bei der Neuanlage von Adressen nicht sorgfältig genug erfasst werden - oder wenn nicht überprüft wird, ob der Kunde schon vorhanden ist.

Konkrete Gründe für falsche Adress-Datensätze sind vor allem Schreibfehler ("Alexander / Alexnader"), verschiedene Namensschreibweisen ("Sylvia / Silvia", "Maier / Meier"), Namenszusätze ("Müller Möbel / Müller Möbel GmbH"), Hörfehler ("Maller / Mahler") und Vertauschungen ("Maier Design / Design-Maier"). Auch Abkürzungen ("Fa ./ Firma") führen dazu, dass ein Datensatz doppelt vorhanden ist. Und schließlich ist auch die Zusammenführung verschiedener Datenbestände eine häufige Fehlerquelle.

Ein Sonderfall sind versteckte Dubletten. Sie entstehen, wenn bei einem Kunden mit mehreren abteilungsspezifischen Adressen nach einem Umzug nicht die neue Anschrift in allen zugehörigen Datensätzen geändert wird. In diesem Fall bleiben alte, nicht mehr aktuelle Adressen erhalten, die aber von Kunden stammen, welche noch aktiv sind.

Das Dublettenproblem: Der gleiche Kunden ist in verschiedener Schreibweise in der Datenbank gespeichert (Quelle: SoIT)

Solche Fehler führen zu Streuverlusten, weil ein Kunde bei einem Mailing mehrere Zusendungen erhält, der Kunde aber allenfalls einmal kauft. Das kann peinliche Verwicklungen zur Folge haben: Wenn der Stammkunde, die "Schreinerei Klopstock", 15 Prozent Treuerabatt erhält und mit der gleichen Post der Neukunde "Klopstock" 25 Prozent Nachlass für das Frühjahrsangebot, ist das nicht nur imageschädigend, sondern kostet auch Geld.

Nicht zuletzt führen Doppel-Adressen zu einem falschen Bild über die Kundschaft. Wenn auf der Basis fehlerbehafteter Datensätze Auswertungen erstellt werden, wie die Ermittlung der Kundenzahl oder des Durchschnittsumsatzes pro Kunde, so sind diese Analysen ebenfalls fehlerhaft.

Strategien für hohe Datenqualität

Die konsequente und permanente Pflege der Daten sollte oberste Pflicht für jedes Unternehmen sein, das Wert legt auf gute Kundenbeziehungen. Um die Datenqualität von Adressen zu verbessern, sollten dabei mehrere Punkte beachtet werden.

Das beginnt mit der Qualität der Adresserfassung beim CRM-System. Je professioneller eine CRM-Software bei der Eingabe und Pflege von Daten unterstützt, umso höher ist auch die Datenqualität (siehe Bild unten). Zum Zugriff auf die Adressdaten sind professionelle CRM-Lösungen mit vielen Schnittstellen ausgestattet. Wenn die Daten extern abgelegt werden, sollten diese direkt integrierbar sein. So lassen sich etwa Adressen für Mailings aus kommerziellen Adresssammlungen wie Telefon-CDs per Mausklick übernehmen.

Eine zentrale Fehlerquelle ist die Erfassung der Daten durch viele Mitarbeiter. Hier sollte man überlegen, diese Aufgabe nur einem Mitarbeiter oder einem kleinen Team von Mitarbeitern zu überlassen, bei dem jeder für einen klar abgegrenzten Teil des Datenbestands verantwortlich ist. Kümmern sich nur wenige darum, steigt die Datenqualität. Auch sollten die Mitarbeiter entsprechend motiviert werden, auf die Datenqualität zu achten, indem man ihnen den Nutzen einer gut gepflegten Datenbank vermittelt.

Neuanlage einer Adresse: CRM-Programme wie Dragonfly zeigen schon bei der Dateneingabe mögliche Dubletten an (Quelle: SoIT).

In jedem Fall sollten verbindliche Vorgaben schriftlich fixiert werden, die festlegen, wie Adressen und andere Daten genau erfasst werden sollen. Am besten verfasst man dazu eine klare und einfache Anleitung zum Füllen der Datensätze. Darin sollten beispielsweise Schreibweisen ("26.11.05" oder "26. November 2005") und Abkürzungen ("Fa" oder "Firma", "str" oder "straße") normiert sein.

Zu guter Letzt sollte der Datenbestand regelmäßig vollständig überprüft werden. Besonders zu achten ist dabei auf nicht oder falsch ausgefüllte Adressfelder und auf Dubletten. Die Gefahr, fehlerhafte Datenfelder anzulegen, ist umso kleiner, je kürzer das Prüfintervall ist.

Dublettenbereinigung - Methoden

Besonders empfehlenswert in Hinblick auf eine verbesserte Datenqualität ist eine IT-technisch durchgeführte Dublettenbereinigung. Diese ist insbesondere bei großen Datensätzen sinnvoll oder dann, wenn Daten aus verschiedenen, bereits vorhandenen Systemen zusammengeführt werden.

Eine einfache Dublettensuche beherrschen heute viele Anwenderprogramme. Für professionelles CRM sind diese Lösungen aber kaum brauchbar. Moderne Dublettensuche funktioniert heute nach speziellen Verfahren und ist keineswegs, wie man af den ersten Blick meinen könnte, trivial.

Aus Sicht der mathematischen Komplexitätstheorie ist das Finden von Dubletten in Adressbeständen NP-vollständig. Das heißt, ein entsprechender Algorithmus kann in Abhängigkeit der Anzahl zu vergleichender Adressen dies mit nicht-deterministischem, polynomiellem Zeitaufwand realisieren.

Allround-Anwendung: Auf Webshops wird der FACT-Algorithmus zur fehlertoleranten Suche eingesetzt.

Für die Dublettensuche gibt es mehrere Algorithmen. Der von Omikron entwickelte FACT-Algorithmus ("Fragmentary Alikeness Comparing Technique") versucht menschliches Ähnlichkeitsempfinden nachzuahmen und findet Adressdubletten auch bei stark unterschiedlicher Schreibweise. "Omikron Data Quality GmbH" und "Data Quality GmbH - Omikron" werden beispielsweise als zu 86 Prozent ähnlich angesehen - eine klare Dublette. Auch wenn sich zwei Adressen in Ort und Straße wegen eines Umzugs unterscheiden, wird bei gleichzeitig ähnlichem Firmennamen und Ansprechpartner die Adresse dennoch als Dublette erkannt.

Ein anderes Suchverfahren nennt sich "Matchcode". Hierbei wird nur die PLZ oder der erste Buchstabe des Namens verglichen. Das ist schnell, aber dem Ähnlichkeitsverfahren unterlegen. Im Gegensatz zum Matchcode-Verfahren kommt FACT auch mit schwierigen Firmennamensumbildungen zurecht.

Was Dubletten-Software können sollte

Dubletten-Software, die auf den genannten Methoden basiert, kann heute Dubletten relativ gut identifizieren. Doch was tun, wenn die Software dutzendweise Dubletten liefert? Enthält die Datenbank nur ein paar Hundert Datensätze, können die wenigen Dubletten von Hand gelöscht bzw. korrigiert werden. Bei mehreren Datenbanken und Beständen von Tausenden von Adressen ist dies kaum mehr möglich.

Auch das Korrigieren der Adressbestände kann Dubletten-Software heute automatisch übernehmen. Die gefundenen Dubletten werden dabei nach bestimmten Regeln verändert. Gelöscht werden dürfen Dubletten nicht, denn würde dies geschehen, könnte möglicherweise die richtige, nur einen Tippfehler enthaltene Adresse, entfernt werden.

Die Korrektur geschieht im Rahmen eines Regelwerks. Dort wird genau definiert, nach welcher Priorität zwei scheinbar identische Datensätze verändert werden. Wurde beispielsweise eine Dublette identifiziert, bei der mit Ausnahme der Telefonnummer alle Adressbestandteile identisch sind, muss klar sein, welche Nummer übernommen werden soll. Wie der Regelsatz letztlich festgelegt wird, hängt davon ab, wie der jeweilige Anwender die Datenbank benutzt und welche Struktur die Datensätze haben.

Eine einheitliche Dublettensoftware mit standardisierter Suche und Bereinigung für CRM-Programme gibt es nicht. Im Einzelfall sollte man auf Besonderheiten achten. So ist es bei verteilten Systemen wichtig, dass die Software über eine Schnittstelle auch Dubletten aus vielen unterschiedlichen CRM-Programmen und Datenbanken bereinigen kann.

Die Tabelle zeigt eine kleine Auswahl typischer Situationen, die Dubletten-Software sicher als Doppelgänger erkennen sollte.

Leichte Übung: Diese Dubletten sollte jede Software finden

Firmenname

Straße

PLZ

Land

Ort

TV Concepts GmbH

Berliner Str. 20

60133

D

Frankfurt

TV Konzepts GmbH

Berlinerstraße 20

60133

D

Frankfurt

-

-

-

-

-

INBE Informationsges. mbH Beratung und Konzeption

Haimhauser Straße 3

80804

D

München

INBE Informations GmbH Konzeption & Beratung

Heimhauser Landstraße 3

80804

D

München

-

-

-

-

-

Berge und Reiesen GmbH

Flughafen-Straße

 

D

Hamburg

Berge und Reisen GmbH

Flughafenstr. 9

20095

D

Hamburg

Dubletten-Software - Beispiel Doublefind

Der Markt bietet eine ganze Reihe von Dubletten-Software an. Eine bekannte Dubletten-Lösung ist Doublefind von der dateITup GmbH bzw SMC IT AG. Doublefind kann in beliebigen, auch miteinander verknüpften Datenbanksystemen nach doppelten Einträgen suchen. Das Programm deckt Zusammenhänge zwischen Mehrfach-Einträgen auf und erkennt überflüssige Daten. Das Tool folgert beispielsweise, dass es sich beim "Olympiastadion Berlin" und dem "Berliner Olympiastadion" um die gleiche Sportstätte handelt.

Laut DateITup erkennt die Software zudem phonetisch ähnliche Wörter, wozu alle Variationen des Nachnamens "Mayer" zählen. Auch mit vertauschten Feldern (etwa Vor- und Nachname), unvollständigen Angaben ("Maler Huber" statt "Malerbetrieb Huber GmbH") sowie mit verschiedenen Zeichensätzen (lateinisch, kyrillisch etc.) kommt das Programm zurecht.

Doublefind findet und bereinigt Dubletten eines Adressbestandes in unterschiedlichsten Einsatzgebieten.

Die Fehlertoleranz kann der Nutzer dabei selbst bestimmen. Hat die Suchroutine Dubletten ausfindig gemacht, kann der Anwender diese mit Hilfe von Programmfunktionen bereinigen.

Über ein PlugIn lässt sich die Dubletten-Software in Geschäftsapplikationen wie CRM-Systeme einbinden, sowie auch direkt an Datenbankanwendungen anbinden. Der direkte Zugriff des Anwenders auf die zu bereinigende Datenbank stellt sicher, dass das umständliche und zeitaufwändige Exportieren von Daten zur Bereinigung und anschießende Importieren zurück in das CRM-System entfällt.

Dubletten-Software - Weitere Anbieter

Bekanntester Anbieter von Dubletten-Software ist Omikron. Das Abgleichverfahren, das bei Omikron zur Einsatz kommt, ist die oben bereits erwähnte Eigenentwicklung, der FACT-Algorithmus. Dieser wird sowohl in der Desktop als auch - in weiter entwickelter Form - in einer Server-Variante eingesetzt.

Die Desktop-Lösung Omikron AdressCenter beherrscht Dublettenprüfung und postalische Korrektur. Letztere verwandelt automatisch nicht korrekte in richtige Adressen. Zusätzlich werden weitere, verarbeitende Programme in Form von Modulen angeboten wie Anredeerzeugung oder Rufnmmernanreicherung. Bei letzterer findet automatisch ein Abgleich mit der Telefonbuch Deutschland CD statt.

Der modular aufgebaute Data Quality Server übernimmt unternehmensweit Integrations- und Bereinigungsarbeiten. Eine Echtzeit-Prüfung kontrolliert beispielsweise Stammdaten direkt beim Neueintrag im Vertrieb. Dabei untersucht der Data Quality Server auf doppelt vorhandene Einträge, prüft die postalische Korrektheit und erzeugt passend zum Vornamen und Titel Briefanrede und Briefkopfanrede.

Unscharfe Dublettensuche: FuzzyDupes ermöglicht die Suche auch in großen Datenbanken in relativ kurzer Rechenzeit.

Eine weitere, häufig genutzte Dubletten-Software ist FuzzyDupes. FuzzyDupes verarbeitet die Daten komplett im Arbeitsspeicher und basiert auf Pattern Matching. Ein selbst entwickelter Trigramm/Hashindex ermittelt in der ersten Stufe Cluster. Anschließend prüfen Assembler-optimierte Pattern-Matching-Algorithmen mit mathematischer Exaktheit die Sätze auf Ähnlichkeit. Das verwendete Verfahren ist auf der Website des Anbieters Kroll Software genauer beschrieben. Unterstützte Datenbankformate sind unter anderem MS Access, MS SQL Server, Excel, Oracle und MySQL.

Weitere Dubletten-Software ist q.address von ACS Informatik und der Dubletten-Manager von 3C Solutions.

Fazit

Die Kundendatenbank bildet das Zentrum von CRM-Systemen. Eine gut gepflegte Datenbank ist Voraussetzung dafür, dass die CRM-Prozesse reibungslos und korrekt funktionieren. In der Praxis sind die Daten aber oft falsch, nicht aktuell oder unvollständig. Solche fehlerhafte Adressen verursachen erhebliche Kosten und führen zu Streuverlusten.

Um eine möglichst gute Datenqualität zu erreichen, sollten einige leicht durchführbare Strategien umgesetzt werden - etwa die Beschränkung der Dateneingabe auf einige wenige Mitarbeiter oder die Ausarbeitung eines Regelwerks, mit dem Eingaben standardisiert werden.

Ein besonderes Problem stellen bei CRM-Datenbanken Dubletten, doppelte Adressen, dar. Das Auffinden und Korrigieren doppelter Adresseinträge ist ein nicht triviales Problem, für das mehrere Algorithmen entwickelt wurden. Dubletten-Software hilft, diese fehlerhaften Einträge zu identifizieren und auch automatisch zu korrigieren. Die bekanntesten Programme für Dubletten-Korrektur sind Omikron und Doublefind. (cvi)