Datenqualitätssteigerung als Enabler des Physical Internets - Steigerung von Datenqualität mittels Methoden der Datenfusion und der Entscheidungsfusion

Jokim Janßen und Tobias Schröer

Das Physical Internet (PI) basiert auf einer physischen, digitalen und operativen Interkonnektivität, ohne die ein weltweit fragmentiertes und standardisiertes Gütertransportsystem nicht effizient arbeiten könnte. Zur Selbststeuerung von globalen Warenströmen sind valide Eingangsdaten notwendig [1]. Darüber hinaus ist ein hohes Vertrauen in Steuerungsentscheidungen für eine weitreichende Akzeptanz aller Akteure und Kunden der Logistikbranche unabdingbar. Diese beiden Ziele können nur durch eine hohe Datenqualität erreicht werden. Neben der Erhöhung der Datenqualität durch Automatisierung oder Einsatz von erweiterter Sensorik [2] bieten Methoden der Datenfusion und der Entscheidungsfusion große Potenziale [3]. Dieser Beitrag beschreibt ein methodisches Vorgehen zur Analyse dieser Potenziale. Darüber hinaus wird anhand eines Transitcenters dieses Vorgehen beispielhaft durchgeführt.

Im Vergleich zum heutigen Gütertransportsystem werden Waren nach dem Konzept des Pysical Internets (PI) in fragmentierten kürzeren Transportabschnitten transportiert [4]. Zwischen solchen Transportabschnitten sollen Transitcenter etabliert werden. Ein Transitcenter fasst dabei Ladungsträger verschiedener Herkünfte zusammen, um die Beladung der Sattelauflieger im nächsten Transportabschnitt zu optimieren. Bei dieser Optimierung werden zwei Ziele verfolgt. Zum einen sollen der Sattelauflieger und damit einzelne Ladungsträger in einer möglichst kurzen Zeit an ihre Ziele befördert werden. Zum anderen soll es dem Zugfahrzeugfahrer ermöglicht werden am Ende seiner Arbeitszeit zu einem gewünschten Ziel, beispielsweise seinem Wohnort zu fahren [5, 6].


Bild 1: Datenqualitätskriterien (i. A. a. Wang und Strong [7]).

Bedeutung der Datenqualität für Transitcenter

Der Sattelauflieger oder einzelne Ladungsträger werden in einem solchen System von vielen verschiedenen Dienstleistern befördert, verladen oder gelagert. Eine Möglichkeit zur Abrechnung der Transportkosten ist die proportionale Berechnung zu den Durchführungszeiten. Durchführungszeiten sind hierbei die Zeiten, welche ein Dienstleister für Transport, Verladung oder Lagerung aufwenden muss. Anhand dieser Ausgangssituation wird im Folgenden die Relevanz hoher Datenqualität erläutert. Die Datenqualität kann grundsätzlich mittels zahlreicher Ansätze bestimmt werden. Im Folgenden wird der Ansatz nach Wang und Strong verfolgt [7]. Dieser Ansatz definiert Datenqualität nach einem „fit-foruse“-Konzept. Dabei werden fünfzehn Kriterien definiert, die in vier Dimensionen gemäß ihrem Untersuchungsgegenstand gegliedert werden (Bild 1).

Intrinsische Kriterien beschreiben die Qualität der Daten selbst, also deren Inhalt. Dazu zählen Glaubwürdigkeit, Genauigkeit, Objektivität und Reputation. Im Anwendungsfall des Transitcenters muss die aufgenommene Zeit in jedem intrinsischen Kriterium vollständig erfüllt sein, sodass die Kostenabrechnung vertrauensvoll von jedem Akteur akzeptiert werden kann. Die gleichermaßen bedeutsame Dimension der kontextuellen Kriterien berücksichtigt die Abhängigkeit der Datenqualität von der jeweiligen Anwendung. Anhand des Kriteriums der Relevanz lässt sich dies leicht verdeutlichen. Beispielsweise ist für die Erfassung der Ankunftszeit an einem Transitcenter eine aufgenommene GPS-Position wesentlich relevanter als die aufgenommene Fahrgeschwindigkeit eines Zugfahrzeugs. Somit ist die intrinsische Qualität der Fahrgeschwindigkeit hoch, jedoch bringt diese für den konkreten Anwendungsfall keinen relevanten Nutzen. Weiterhin lässt sich nachvollziehen, dass repräsentative Kriterien für diese Betrachtung notwendig sind. Diese beziehen sich auf die Verarbeitung und Nutzung der Daten innerhalb der IT-Infrastruktur. Das Kriterium der Einheitlichkeit ist in diesem Anwendungsfall besonders hervorzuheben. Die fortlaufende Darstellung auf dieselbe Art und Weise ermöglicht erst eine zuverlässige Verarbeitung über verschiedene IT-Systeme, wie sie im Konzept des PI gegeben sind. Die letzte Dimension der Datenqualität ist die zugangsbezogene Datenqualität, bei der die Zugänglichkeit zu Daten beschrieben wird. Hierbei stehen Systeme, in denen Daten erfasst oder verarbeitet werden, im Fokus. Besonders erforderlich zur Bestimmung der Durchführungszeiten ist hier die Erreichbarkeit. Die Daten zur Bestimmung der Durchlaufzeiten müssen einfach und schnell abrufbar sein [7].

Methoden der Datenfusion und der Entscheidungsfusion

Neben Steigerungen der Datenqualität über zusätzliche Sensorik ist es möglich, diese mittels Methoden der Datenfusion oder der Entscheidungsfusion (engl. decision fusion) zu verbessern [3]. Datenfusion beschreibt das Zusammenführen verschiedener, auf ein Realweltobjekt bezogener Datensätze. Zur Zusammenführung werden drei Schritte durchgeführt. Zunächst werden die Strukturen und Schemata der Datenbanken zusammengeführt (schema mapping). Danach werden redundante Daten (sog. Dubletten) erkannt und markiert (duplicate detection). Sich daraus ergebende Datenkonfl ikte werden in einem letzten Schritt mittels Datenfusion (im engeren Sinne) bereinigt. Zur Lösung dieser Konflikte können drei Strategien verfolgt werden. Die einfachste Lösung ist es, einen Konflikt zu ignorieren (conflict ignorance). Oft kann ein Konflikt jedoch bereits mit wenig komplexen Methoden, welche nur die zu konfligierenden Werte vergleichen, gelöst werden (confl ict avoidance). So kann beispielweise immer eine tatsächliche Information einem „NULL“-Wert vorgezogen werden („Take the information“) oder immer einer Quelle vertraut werden („Trust your friends“). Manchmal ist es darüber hinaus sinnvoll alle verfügbaren Daten und Metadaten in die Konfliktlösungsstrategie einzubeziehen (conflict resolution). Ein Beispiel für eine solche komplexere Methode ist: „Cry with the wolves“. Dort werden alle Werte verglichen und der häufiger vorkommende Wert im Konfliktfall ausgewählt [8].

Zum Weiterlesen hier klicken