Digital Marketing

Warum ein Online-Shop gute Datenqualität braucht

Big Data und Realtime Analytics wecken hohe Erwartungen bei Digital-Marketing-Profis. Nach Einführung modernster Analysetechnik kommen aber viele E-Commerce-Unternehmen und Online-Shop-Betreiber wieder in der Realität an: Die Daten sind falsch oder lückenhaft.

Grundsätzlich haben Entscheidungen, die auf Daten basieren, das Potenzial besser zu sein, als solche, die Menschen aufgrund ihrer individuellen Erfahrungen treffen. Das gilt allerdings nur dann, wenn die Menge der erfassten Daten groß und relevant genug ist. Bei aller Datengläubigkeit vergessen wir leicht, dass Menschen einen großen Datenvorteil gegenüber Maschinen haben: Er besteht im kontextuellen Wissen und semantischen Verständnis.

Menschen kennen die Zusammenhänge. Wenn ein Mensch eine Anzahl Kleidungsstücke sieht, kann er mit einer ziemlich hohen Treffsicherheit sagen, ob sie von jungen Frauen oder von älteren Männern gekauft werden - ohne auch nur einen einzigen direkten Kaufvorgang beobachtet zu haben.

Schwillt die Datenmenge an, wird die Maschine besser. Menschen tendieren zu Vorurteilen, sie sind auch dann noch von ihren Ideen überzeugt, wenn die Statistik schon klar in eine andere Richtung weist. Im Idealfall sollten daher objektive maschinelle Auswertungen mit kontextbezogener menschlicher Interpretation Hand in Hand gehen. Grundlage ist aber in jedem Fall ein gut gepflegter Datenbestand.

Stammdaten und Transaktionsdaten

Bekanntlich wird zwischen zwei Datenarten unterschieden, die für Analysen relevant sind: Transaktionsdaten (Transactional Data, früher auch Bewegungsdaten genannt) und Stammdaten (Master Data). Transaktionsdaten sind alle Daten von einzelnen Vorgängen: eine Rechnung, ein Kaufvorgang, aber auch ein einzelner Mausklick. Sie dokumentieren einen Vorgang, der abgeschlossen ist. Daher sind sie nach ihrer Erfassung keinen Änderungen unterworfen. Ein einmal erfolgter Mausklick ändert sich nicht, der nächste Mausklick auf ein anderes Produkt ist ein weiterer Datensatz.

Kaufwahrscheinlichkeit in Webshops - März 2014, Umfrage von Statista
Kaufwahrscheinlichkeit in Webshops - März 2014, Umfrage von Statista
Foto: Statista

Transaktionsdaten beziehen sich auf Stammdaten. Diese beschreiben Objekte beziehungsweise Subjekte. Ein Produkt in einem Onlineshop wird durch einen Stammdatensatz beschrieben, ebenso ein Kunde. Der Transaktionsdatensatz Mausklick im Onlineshop beschreibt beispielsweise, dass Kunde Nr. 4711 (Heinz Mustermann) auf Produkt 123456 (iPhone Cover Leder schwarz für 19,90 €) geklickt hat und zwar am 17. Juni 2015 um 14:51 Uhr. Zuvor hat er "iPhone Hüllen" gesucht und besagtes Produkt an Position vier gefunden.

Die Stammdaten zu Produkt 123456 enthalten neben einer Bezeichnung beispielsweise die Farbe, den Herstellernamen, den Preis und den Lagerbestand sowie oft zusätzliche Informationen. Die Stammdaten zu Kunde 4711 enthalten neben Namen und Adresse vielleicht das Geburtsdatum, die Bankverbindung und die Email-Adresse.

Im Gegensatz zu Bewegungsdaten können sich Stammdaten ändern. Der Shop kann den Preis von Produkt Nr. 123456 erhöhen oder senken, der Lagerbestand ändert sich nach jedem Kauf. Kunde 4711 kann umziehen oder seine Bank wechseln. Während die Anzahl von Transaktionsdaten in den Big-Data-Bereich anschwellen kann, ist die Anzahl der Stammdaten selten höher als ein paar Millionen.

Die Stammdaten sind entscheidend

Wenn also die Stammdaten zahlenmäßig so deutlich in der Minderheit sind - warum sind sie dann so wichtig? Weil Transaktionsdaten sich immer auf Stammdaten beziehen. Liegen in den Stammdaten Fehler vor, multiplizieren sich diese mit der Menge dieser Beziehungen. Ist also für das oben genannte iPhone Cover in den Stammdaten eine falsche Farbe hinterlegt, so werden in einer Analyse alle Klicks auf dieses Produkt falsche Farbpräferenzen des jeweiligen Kunden ermitteln.

Ganz abgesehen davon würde die Retourenquote massiv ansteigen. Steht Herr Mustermann fälschlich als Frau Mustermann in der Datenbank, würde ein verstärktes Interesse von Frauen an Rasierklingen und Technikspielzeugen erkannt - mit entsprechenden Folgen für das automatisierte Empfehlungssystem (Recommendation Engine).

Normalisierung der Produktdaten ist wichtig

Hersteller stellen ihre Produkte gerne als etwas ganz Besonderes dar, indem sie diese wolkig beschreiben. So sind Farben nicht mehr rot oder blau, sondern "Volcano" oder "Deep Ocean". Aus dem Material Baumwolle wird "Fil d’ecosse" oder auch "pure cotton" - klingt doch schon viel wertiger, oder? Damit aber die Personalisierungs-Engine im Online-Shop erkennen kann, dass der Kunde gerne Baumwolle trägt, müssen Sie wieder überall als Produktmerkmal "Baumwolle" eintragen. Das klingt zwar langweilig, funktioniert aber besser.

Tragen Sie diese Normalisierung in ein eigenes Feld zusätzlich zu den Phantasiebezeichnungen ein. Für die Conversion funktioniert die emotional aufgeladene Phantasiebezeichnung allerdings sicher besser, in der Produktbeschreibung sollte deshalb durchaus ein Satz stehen wie "Erhältlich in den Farben Volcano, Deep Ocean und Spring Blossom".

Sorgen Sie für Vollständigkeit!

Ist in einem Feld gar nichts eingetragen, kann auch nichts analysiert werden. Merkmale von Produkten sind für die Personalisierung der wichtigste Einflussfaktor. Fehlen Produktmerkmale, ist Personalisierung gar nicht mehr oder nur noch eingeschränkt möglich. In der gelebten Praxis fehlen aber oft Informationen. Viele Felder sind nicht befüllt, weil die Angaben vom Lieferanten nicht zur Verfügung gestellt werden.

Hier lohnt sich oftmals ein genauerer Blick. Nicht selten sind relevante Informationen im Fließtext enthalten: "Dieses wunderschöne Sommerhemd aus reiner Baumwolle bringt durch seine taillierte Form ohne aufgesetzte Taschen …" und schon weiß der Mensch, der das liest: Material: Baumwolle, Passform: tailliert, Taschenanzahl: 0. Maschinen können das heute auch. Doch dazu später mehr.