Semantische Technologien sind in vielen Fällen noch akademische Ideen, denen die Use Cases fehlen. Für Robert Isele ist es deshalb umso wichtiger, dass das Feld der semantischen Technologien auch im Unternehmensalltag sinnvoll und effizient Anwendung findet. Als Verantwortlicher für Datenintegration bei der eccenca GmbH benötigt er handfeste Technologien, die sowohl den Marktanforderungen als auch den weiter wachsenden gesetzlichen Vorschriften entsprechen. Seit zehn Jahren ist er in diesem Kontext im Linked Data-Umfeld aktiv und hat über die skalierbare Integration von Datenquellen mittels genetischer Algorithmen promoviert.
Vor zwei Wochen hat Natanael Arndt bereits die akademische Seite zum Thema semantischer Datenintegration beleuchtet. Nun gibt uns Robert Isele an dieser Stelle einen Einblick in die unternehmerischen Herausforderungen und Anforderungen an die semantischen Technologien.
Welche Anwendungsfälle gibt es für Unternehmen heutzutage bei der Verarbeitung von Daten bzw. im Kontext von Big Data und IoT?
Traditionelle Anwendungsfälle für Datenintegration, insbesondere die Integration von Produkt- und Kundendaten, sind im Kontext von Big Data weiterhin wichtig. Zusätzlich stiegen die Anforderungen an die unternehmensweite Datenintegration durch neue regulatorische Anforderungen der letzten Jahre. Dies ist insbesondere im Bankenumfeld im Zuge der Risikoberichterstattung nach BCBS 239 aktuell.
Im Kontext von IoT stellen die Publikation, Extraktion und Komposition verteilter und heterogener Informationsquellen die größte Herausforderung dar. Aktuelle Forschungsprojekte, wie z.B. das EU-Forschungsprojekt bIoTope, nutzen moderne Echtzeit-Datenintegrationstechnologien, um im Smart-City-Umfeld unter anderem effizientere Routenplanungssysteme zu ermöglichen.
Welchen Herausforderungen stehen Unternehmen zur Umsetzung der Anwendungsfälle gegenüber?
Die größte Herausforderung in den meisten Unternehmen stellt der operative Aufwand beim Sammeln, sowie anschließenden Identifizieren und Verknüpfen von zusammenhängenden Informationen dar, welche typischerweise in unterschiedlichen Unternehmensbereichen verteilt liegen. Hinzu kommt das steigende Volumen vorhandener Daten und eine hohe Datenheterogenität verbunden mit der Anforderung, die Datenqualität durch die automatische Validation eingehender Daten kontrollierbar zu machen.
Wie werden Daten aktuell verarbeitet? Was sind die Nachteile?
Laut dem 2015 Data Management Industry Benchmark Report des EDM Councils, welcher sich hauptsächlich auf Unternehmen der Finanzindustrie fokussiert, verfügen die befragten Unternehmen größtenteils noch nicht über eine umfassende Data Management Infrastruktur. Über eine Data Management Infrastruktur werden komplexe Datenströme inklusive dem Tracking der Data-Lineage und unter Verwendung eindeutiger Identifier abgebildet. Damit verbunden ist eine unternehmensweite Ontologie zur einheitlichen Abbildung kritischer Datenelemente im Unternehmen.
Wie verbessern semantische Technologien die Datenverarbeitung?
Semantische Datenverwaltung erlaubt die zentrale Definition von Taxonomien und Ontologien, welche die strukturellen Beziehungen unterschiedlicher Entitäten erfassen. Damit legen sie die Bedeutung kritischer Datenelemente präzise und eindeutig fest und stellen sicher, dass die Verwaltung von Daten über Unternehmensbereiche hinweg konsistent und transparent erfolgt. Da eine einheitliche Datenrepräsenation über verschiedene Unternehmensbereiche oft nicht möglich ist, erlauben semantische Technologien das Mapping der physikalischen Datenhaltungen auf fachspezifische Ontologien und entkoppeln damit die physikalische von der logischen Datenrepräsentation. Prozesse, welche Daten verarbeiten, werden ebenfalls als Metadaten verwaltet. Damit können die durch Prozesse transformierten Daten mit Annotationen versehen werden, welche die Zurückverfolgung zu den Ursprungssystemen zulassen (Lineage). Außerdem können Prozesse versioniert und reproduziert werden.
Welche Funktionen und technischen Lösungen benötigen Unternehmen, um die Integration und Synchronisation von Daten aus verschiedenen, dynamischen Quellen sinnvoll, kosteneffizient und gewinnbringend für sich nutzen zu können?
Governance ist der Schlüssel zum erfolgreichen Datenmanagement. Er legt das organisatorische Model fest und stellt sicher, dass die Grundsätze der Datenverwaltung umgesetzt werden. Eng damit verbunden ist die Etablierung eines Data Management Lifecycles, welcher einen klaren Prozess für die Verwaltung und Verarbeitung der Unternehmensdaten definiert. Eingehende Daten müssen validiert und einem Konsolidierungsprozess unterworfen werden, welcher die für die Geschäftsprozesse notwendige Datenqualität sicherstellt. Die Harmonisierung von Daten über Prozesse innerhalb des Unternehmens ist Voraussetzung, um die Komplexität der Datenintegration zu bewältigen.
Wo gibt es auch bei den semantischen Technologien noch Engpässe?
Das Ziel von Big Data Lösungen wie Data Lakes ist die kosteneffiziente und skalierbare Verarbeitung großer Datenmengen. Data Lakes verwalten jedoch typischerweise große Menge nur schwach strukturierter Datensets. Dagegen unterliegen semantische Technologien oft dem Nachteil mangelnder Skalierbarkeit. Projekte, wie LEDS, verwenden semantische Technologien, um einen virtuellen Wissensgraphen über einen bestehenden Data Lake zu legen. Dadurch werden die Vorteile beider Herangehensweisen kombiniert. Die zeitnahe Verarbeitung und Integration eingehender Datenströme stellt einen weiteren aktuellen Trend dar, der durch LEDS bearbeitet wird.