Themenheft: Datenintegration

  • Theo Härder
  • Published 2002 in Informatik Forschung und Entwicklung

Abstract

Daten, die heutzutage in Geschäftsanwendungen benötigt werden, liegenmeist nicht in homogener Form, beispielsweise in relationalen Datenbanken, vor. Sie sind vielmehr inhärent heterogen, können verschiedenenOrganisationen gehören und über die ganzeWelt verteilt sein. Dabei können die benötigten Daten in strukturierter oder semi-strukturierter Form (Tabellen oder XML-Dokumente) vorliegen oder vollkommen unstrukturiert sein, d.h. keine dem Datenverwaltungssystem oder der Anwendung bekannte Struktur aufweisen. Der Zugriff auf solche Daten erfolgt entweder über generische und standardisierte Schnittstellen, wie z.B. SQL, oder über proprietäre undwenig flexibleAnwendungsprogrammschnittstellen (API), wobei in der Regel vordefinierte Funktionen eingesetzt werden. Wegen der Vielfalt der Möglichkeiten, solche Daten zu kombinieren und zu verarbeiten, wurde ein Bündel von Techniken entwickelt, die denAnwendungen eine mehr oder weniger integrierte (und transparente) Sicht auf die benötigten Daten bieten und unterschiedliche Flexibilität beim Zugriff und der Manipulation der Daten aufweisen. Dabei wird die engste Form der Datenintegration erreicht, wenn derAnwendung ein Integrationsschema – eine „homogenisierte Sicht“, die alle relevanten Daten als eine Datenquelle darstellt – und generische Funktionen für Zugriff und Aktualisierung verfügbar gemacht werden. Lose Formen der Datenintegration dagegen bieten nur einen Zugriff über vordefinierte Funktionen auf einzelne Datenquellen, wobei die eigentliche Integration durch den Programmcode der Anwendung vorzunehmen ist. Solche losen Formen der Datenintegration erfordern von den Anwendungen eine explizite Kooperation/Integration mit den verschiedenartigen Datenquellen. Datenintegration stellt sich uns als SpektrumvonAnsätzen dar.Werden bei der Integration auch inhaltliche oder semantischeAspekte, die durch Metadaten oder Ontologien beschrieben sind, berücksichtigt, sprechen einige Autoren auch von Informationsintegration. Sie wird als Grundlage der Anwendungsintegration und schließlich der Prozessintegration gesehen. Diese immer umfassenderen Formen der Integration bezeichnen manche Autoren schon als Geschäftsintegration. In diesem Themenheft wollen wir uns auf dieAspekte der Datenund Informationsintegration beschränken. Wegen der zunehmenden Heterogenität der Datenquellen und der wachsenden Vielfalt ihrer Nutzung wird erwartet, dass die Datenund Informationsintegration eine Schlüsseltechnologie in vielenAnwendungsbereichenwird.Obwohl es schon einige kommerzielle Lösungen dafür gibt, sind noch viele Forschungs-, Entwicklungsund Standardisierungsfragen offen. Sie betreffen vor allem folgende Aspekte: • Wie realisiert man den Zugriff auf die verschiedenartigen Datenquellen?Welchen der vorgeschlagenenAnsätze – wie SQL/MED-Wrapper, J2EE-Konnektoren, EAIAdapter oder Web-Services – kann man wann einsetzen? Gibt es ein vereinheitlichtes Verfahren? • Welche Systemstrukturen sind für die Datenintegration erforderlich? Welche Rolle spielen dabei Datenbanksysteme, Applikationsserver, Workflow-Systeme, Messaging-Systeme, Portal-Server usw.? Wie müssen diese Systeme als Komponenten zusammenarbeiten? • Ist dieWeb-DB-Technologie ausreichend? Ist dabei XML nur eine Nachrichtenaustausch-Sprache oder auch ein Speicherungsformat? Wie wird dabei die Funktionalität zur Navigation und zu generischen Anfragen kombiniert? • Wie wird die Information beschrieben? Welche Metadaten sind relevant (Schema, Ontologien)? Welche Qualität der Information ist dabei erforderlich, umunterschiedliche Datenquellen verknüpfen zu können? • Welche föderiertenDB-Technologien können dabei eingesetztwerden?Wie sehenTechniken zur Schemaintegration bei strukturierten und unstrukturierten Daten aus? • Welche Transaktionsmodelle sind angemessen? Welche Eigenschaften (ACID) müssen dabei gewährleistet werden? Wie müssen geeignete Modelle zur Synchronisation und Recovery aussehen? Dabei ist zu berücksichtigen, dass die zu integrierenden Daten verschiedenen Organisationen gehören und oft über das Internet bereitzustellen sind.

DOI: 10.1007/s00450-002-0115-z

Cite this paper

@article{Hrder2002ThemenheftD, title={Themenheft: Datenintegration}, author={Theo H{\"a}rder}, journal={Informatik Forschung und Entwicklung}, year={2002}, volume={17}, pages={99-100} }