QuanTD

IKT der Zukunft, 10. Ausschreibung, 2022 – 2025

Quantifying Trustworthiness of Data

Ausgangssituation, Problematik und Motivation

Fehlende, falsche und inkonsistente Daten verursachen viele Probleme und hohe Kosten. Datenqualität (DQ) ist also eine wichtige Voraussetzung für datenbasierte Anwendungen. Zum Messen von DQ existieren viele verschiedene Metriken für unterschiedliche DQ Dimensionen, z. B. Vollständigkeit oder Korrektheit. Da die globale Datenqualität eines Informationssystems auf Basis einzelner Metriken in der Praxis oft schwer zu erfassen ist, streben Organisationen nach aggregierten DQ-Scores, welche die Ergebnisse mehrere Metriken zu einzelnen Ergebniswerten kombinieren.

Die Verdichtung auf einen einzelnen Ergebniswert erhöht den Bedarf nach der Bewertung der Vertrauenswürdigkeit solcher DQ-Scores. In einigen Fällen können sie genau den „realen“ Wert der Datenqualität widerspiegeln, in anderen kann große Unsicherheit involviert sein, z. B. durch eine große Anzahl von Standardwerten.

Daher ist es unser Ziel, die Vertrauenswürdigkeit von Daten und deren DQ-Scores unter Berücksichtigung der Unsicherheit messbar zu machen. Zu diesem Zweck schlagen wir vor, die Entwicklung einzelner DQ-Scores zu untersuchen, indem Werte aus geeigneten DQ-Metriken für verschiedene DQ-Dimensionen kombiniert werden, wobei zusätzliche Informationen über ihre Unsicherheit berücksichtigt und in eine neue Darstellung der Unsicherheit solcher kombinierter einzelner DQ-Scores propagiert werden.

Ziel und Innovationsgehalt

Die Unsicherheit wird basierend auf Wahrscheinlichkeiten dargestellt und gemäß der Wahrscheinlichkeitstheorie propagiert. Unter anderem schlagen wir vor, Intervalle zu untersuchen, um die Unsicherheit eines einzelnen DQ-Scores darzustellen, z. B. unter Verwendung von Konfidenzintervallen. Zusätzlich schlagen wir einen Ansatz mittels maschinellem Lernen vor, um mehrere Werte von verschiedenen Metriken automatisch zu einzelnen DQ-Scores zu kombinieren.

Zur Erklärung der Datenqualitätsanalysen soll ein einzelner DQ-Score mittels einer Visualisierungskomponente in die aggregierten Metriken mit den zugehörigen Unsicherheiten zerlegt werden können. Das ermöglicht es den Benutzer:innen eine mehrdimensionale Analyse der Datenqualität vorzunehmen und im Rahmen von Data Governance Maßnahmen eine Verbesserung der Datenqualität zu erreichen.

Angestrebte Ergebnisse und Erkenntnisse

Es werden neue Ansätze in zwei verschiedenen Organisationen bewertet, der Robert Bosch AG und der Österreichischen Post AG. Ziel ist es, kombinierte DQ-Scores − mit Unsicherheiten − in verschiedenen Anwendungsfällen zu validieren, z. B. für Stammdatenmanagement und für Prozess- sowie Projektdaten. Dadurch wird es für Organisationen in der Praxis und in der Gesellschaft einfacher sein, die Qualität von strukturierten Daten anhand einzelner DQ-Scores und ihre Vertrauenswürdigkeit durch zusätzliche Informationen zur Unsicherheit zu analysieren und zu verstehen. Dies erleichtert die automatische Verwendung der Informationen über DQ für Berichte, Vorhersagen und Verbesserungen, sowie für den externen Austausch von Daten. Der Aufbau solchen Know-hows in Österreich leistet auch einen wichtigen Beitrag zur nationalen und europäischen Technologiesouveränität.

Projektdaten

Projektdauer: 1. Dezember 2022 – 1. Dezember 2025
Fördergeber: IKT der Zukunft, 10. Ausschreibung
Budget: 780.098 Euro Gesamtprojektkosten und 584.670 Euro Förderung

Projektpartner:

TU Wien, Institut für Computer Technologie
Software Competence Center Hagenberg GmbH
Robert Bosch AG, Bosch Engineering
Österreichische Post AG

Lettner Christian

Senior Research Project Manager Data Science
Research Team Lead Data Centric AI Engineering

christian.lettner@scch.at