Customer Relationship Management

Datenqualität verbessern durch Dubletten-Korrektur

Das Dublettenproblem

Ein grundsätzliches Problem sind fälschlicherweise doppelt angelegte Adressen, die so genannten Dubletten. Sie entstehen, wenn die Daten bei der Neuanlage von Adressen nicht sorgfältig genug erfasst werden - oder wenn nicht überprüft wird, ob der Kunde schon vorhanden ist.

Konkrete Gründe für falsche Adress-Datensätze sind vor allem Schreibfehler ("Alexander / Alexnader"), verschiedene Namensschreibweisen ("Sylvia / Silvia", "Maier / Meier"), Namenszusätze ("Müller Möbel / Müller Möbel GmbH"), Hörfehler ("Maller / Mahler") und Vertauschungen ("Maier Design / Design-Maier"). Auch Abkürzungen ("Fa ./ Firma") führen dazu, dass ein Datensatz doppelt vorhanden ist. Und schließlich ist auch die Zusammenführung verschiedener Datenbestände eine häufige Fehlerquelle.

Ein Sonderfall sind versteckte Dubletten. Sie entstehen, wenn bei einem Kunden mit mehreren abteilungsspezifischen Adressen nach einem Umzug nicht die neue Anschrift in allen zugehörigen Datensätzen geändert wird. In diesem Fall bleiben alte, nicht mehr aktuelle Adressen erhalten, die aber von Kunden stammen, welche noch aktiv sind.

Das Dublettenproblem: Der gleiche Kunden ist in verschiedener Schreibweise in der Datenbank gespeichert (Quelle: SoIT)
Das Dublettenproblem: Der gleiche Kunden ist in verschiedener Schreibweise in der Datenbank gespeichert (Quelle: SoIT)

Solche Fehler führen zu Streuverlusten, weil ein Kunde bei einem Mailing mehrere Zusendungen erhält, der Kunde aber allenfalls einmal kauft. Das kann peinliche Verwicklungen zur Folge haben: Wenn der Stammkunde, die "Schreinerei Klopstock", 15 Prozent Treuerabatt erhält und mit der gleichen Post der Neukunde "Klopstock" 25 Prozent Nachlass für das Frühjahrsangebot, ist das nicht nur imageschädigend, sondern kostet auch Geld.

Nicht zuletzt führen Doppel-Adressen zu einem falschen Bild über die Kundschaft. Wenn auf der Basis fehlerbehafteter Datensätze Auswertungen erstellt werden, wie die Ermittlung der Kundenzahl oder des Durchschnittsumsatzes pro Kunde, so sind diese Analysen ebenfalls fehlerhaft.