Wir zeigen dir, wie du Datenqualität und Datenintegrität sicherstellst, fehlerhafte Daten vermeidest und was zur Verwaltung und Verantwortung im Data Management gehört.
Es ist nun schon eine Weile her, dass Thorsten Dirks als damaliger CEO der Telefónica Deutschland AG sehr deftig formulierte, wie er zum Thema Qualität in Zeiten der Digitalisierung steht: „Wenn Sie einen Scheißprozess digitalisieren, dann haben Sie einen scheiß digitalen Prozess.“ Die Digitalisierung hat seitdem noch mehr Fahrt aufgenommen, automatisierte Datenverarbeitung spielt eine immer größere Rolle bei der Ausspielung kundenzentrischer Kommunikation in datengetriebenen Unternehmen – der lockere, inzwischen wohl allseits bekannte Spruch stimmt mehr denn je! Wenn das Fundament wackelt und die Datenqualität nicht stimmt, dann ist die cleverste Daten- und Systemarchitektur nicht mehr viel wert.
Was ist Datenqualität?
Die Datenqualität (Data Quality) definiert, wie gut sich deine Datenbestände für deine Anforderungen eignen. Wenn die Qualität nicht stimmt, dann kannst du nicht mit deinen Daten arbeiten oder erhältst im schlimmsten Fall falsche Ergebnisse, ohne dies zu bemerken. Infolge dessen wirst du falsche Entscheidungen treffen, womöglich viel Budget verbrennen und auch noch Kunden enttäuschen. Wie du Datenqualität und Datenintegrität sicherstellst und was zur Verwaltung und Verantwortung im Data Management gehört, das wollen wir hier und heute mal genauer ansehen …
1. Was definiert Qualität deiner Daten- und Systemarchitektur?
Ich gehe ja stark davon aus, dass es bei dir – wie in jedem datengetriebenen Unternehmen – ein generelles Bewusstsein für die Bedeutung der Datenqualität gibt. Es ist jedoch ein essentiell wichtiger Schritt, dieses Bewusstsein in konkrete Kriterien zu übersetzen. Welche Anforderungen hast du genau? Was bedeuten Qualität und Datenintegrität in deinem Kontext? Das beinhaltet auch die Definition von Standards und angemessenen Qualitätsmerkmalen und mündet schließlich in einer Strategie für Datenqualität in deinem Data Management. Diese Strategie zu formulieren, ist der erste Schritt in Richtung einer hohen Datenqualität.
2. Wie wird dein Data Management deinen eigenen Standards gerecht?
Datenqualität zu messen, setzt eine Vielzahl von Kriterien voraus. Wichtig ist, dass zunächst einmal die konkreten Qualitätskriterien für die Datenqualität definiert werden:
Es geht dabei etwa um vollständige und korrekte, aber auch um konsistente und einheitliche Daten mit geringer Redundanz (Dubletten), die aktuell und genau erfasst sind. Sie müssen zuverlässig nachvollziehbar in der Erhebung sein, eindeutig verständlich und somit interpretierbar sowie für die Problemstellung relevant und im Rahmen der Datenschutzrichtlinien verfügbar.
Nicht immer sind diese Kriterien, bzw. deren Wichtigkeit gleich. Ist etwa bei bestimmten Auswertungen der Zeitpunkt der Erhebung (etwa vor Beginn einer Krise) entscheidend, kann dies bei einer anderen Auswertung weniger relevant sein. Auch der Ausschluss einzelner fehlerhafter Daten spielt bei kleineren Stichproben naturgemäß eine größere Rolle.
Hast du diese Datenqualitätsregeln und Anforderungen an deinen Datensatz definiert, solltest Du anhand der vorhandenen Datensätze evaluieren, welche davon sich für die Auswertung eignen und welche dagegen den Regeln widersprechen. Hierfür stehen unterschiedliche Metriken bereit, aus denen sich eine objektive Datenqualitätszahl ergibt. Bei einer quantitativen Messung der Datenqualität stehen automatische Prüfregeln und Kriterien zur Verfügung, sie erfolgt in der Regel Software-basiert. Gerade bei Big-Data-Analysen und datenbasierten Verfahren mit großen Datenpools ist dies nur mit geeigneten Softwarelösungen wie SPSS machbar. Eine Analyse der qualitativen Antworten, etwa Freitextantworten, gestaltet sich dabei naturgemäß deutlich schwieriger und ist nur eingeschränkt automatisiert möglich.
Sei dir sicher: Schon bei der automatisierten Datenverarbeitung fallen die ganz großen Defizite in der Datenintegrität und Datenqualität sowieso auf. Anhand deiner Strategie mit ihren klar definierten Anforderungen kannst Du aber nun Schritt für Schritt deinen Status quo überprüfen und so auch kleineren Problemen auf die Spur kommen. Nach einer systematischen und kritischen Evaluation deiner bestehenden Daten- und Systemarchitektur im Hinblick auf die Datenqualitätssicherung weißt du, inwieweit deine Kundendaten korrekt, komplett und konsistent sind. Ein erfahrener Data Architect oder Engineer erkennt Knackpunkte bei der Datenintegrität und kann dir als Sparringspartner Zeit und Aufwand ersparen.
3. Was musst du jetzt tun, um die Datenqualität dauerhaft sicherzustellen?
Sobald du deine Defizite identifiziert hast, kannst du
a) sie beheben und
b) eine dauerhafte Datenqualitätssicherung einrichten.
Den ersten Punkt würden wir mit Data Cleansing überschreiben. Er umfasst neben der Bereinigung bestehender Datensätze auch die Einrichtung bzw. Korrektur von Prozessen für eine saubere Datenverarbeitung. Beim zweiten Punkt sprechen wir von Data Profiling, vereinfacht das Installieren von Kontrollmechanismen, welche die Datenqualität permanent monitoren.
Die Daten- und Systemarchitektur auf Vordermann bringen
Wenn die Datenbasis nicht passt, ist der Output aus deinem Data Management sch…, äh: unter den Möglichkeiten. Und das ist schade. Einerseits um die ganze Mühe, die ganze Intelligenz, die du in automatisierte Datenverarbeitung und clevere Use Cases steckst. Vom Budget ganz zu schweigen. Andererseits um die Potentiale, die du bei mangelnder Datenqualität verschenkst. Datenqualität und Datenintegrität sind Voraussetzung für nachhaltigen Erfolg im kundenzentrisch ausgerichteten Marketing. Die Verwaltung der Daten, und damit die Verantwortung, liegt im Data Management.
Was bedeutet Datenintegrität?
Datenintegrität bezeichnet die Qualität und Zuverlässigkeit von Daten innerhalb einer Daten- und Systemarchitektur. Datenintegrität erfordert, dass Daten korrekt, komplett und konsistent sind. Der Begriff beinhaltet auch die Sicherheit von Daten hinsichtlich regulatorischer Anforderungen (z. B. DSGVO) sowie den Schutz der Daten. Für die Datenintegrität werden schon in der sogenannten Designphase, also beim initialen Aufbau einer Datenbank, verschiedene Prozesse, Regeln und Standards angewandt. Bei gewährleisteter Integrität bleiben die gespeicherten Daten dauerhaft vertrauenswürdig und widerspruchsfrei – unabhängig von der Häufigkeit der Zugriffe – und werden zudem vor externen Einflüssen geschützt. Man unterscheidet zwischen physikalischer und logischer Datenintegrität.
Physikalische Datenintegrität
Die physikalische Datenintegrität beschreibt die Korrektheit und Vollständigkeit der Daten während ihrer Speicherung und Nutzung. Naturkatastrophen, Hackerangriffe, Stromausfälle oder auch Anwenderfehler können die physikalische Integrität stören.
Logische Datenintegrität
Die logische Datenintegrität verlangt dagegen, dass Daten im Betrieb einer relationalen Datenbank unverändert bleiben. Auch sie schützt Daten vor Hackern und Anwenderfehlern, jedoch auf eine andere Art und Weise. Zur logischen Datenintegrität zählen die Entitätenintegrität, die referentielle Integrität, die Domainintegrität sowie die anwenderdefinierte Integrität. Datenintegrität ist nicht mit Datensicherheit und mit reiner Datenqualität gleichzusetzen.
Du willst die Qualität deiner Daten verbessern? Wir sagen dir wie!
Hol dir jetzt die Unterstützung unserer Data Architects und Engineers. Sie helfen dir mit ihrer Expertise und Erfahrung bei allen notwendigen Schritten zur Datenqualitätssicherung, bei Strategie, Evaluation, Monitoring im Data Management. Vereinbare einen unverbindlichen Gesprächstermin mit uns.
Autor
Thomas Plennert
Executive Director Data Intelligence
DEFACTO GmbH
Tel. +49 151 1205 2965
thomas.plennert@defacto.de