Metadaten sind Teil jeder Informationsverwaltung und Wissenssicherung - somit sind Metadaten auch relevant für die Indizierung von Content, Enterprise Information Portals und die Informationssuche. Wir nennen kompakt die Zwecke, Typen, Standards, Nutzungsarten, Klassifikation und deren Bedeutung für XML. In diesem ersten Artikel zu Metadaten beschreiben wir Verwendungszweck und Notwendigkeit von Metadaten und wir nennen die Vorteile ihrer Verwendung.
1. Sinn von Metadaten
Anwendungsgebiet und Nutzen von Metadaten sind sehr gross. Die zahlreichen Punkte, die für eine Verwendung von Metadaten sprechen, lassen sich in folgende Bereiche einteilen:
- Information Retrieval, Suche in grossen Datenbeständen
- Datenaustausch, Datentransfer
- 'Datenfitness' oder Dokumentation der Daten
- 'Originärer' Sinn der Metadaten
1A) Information Retrieval, Suche in grossen Datenbeständen:
Anstatt grosse Datenbestände mit aufwendiger Volltextsuche hin zu durchforsten, ist es effizienter und nachvollziehbarer, Metadaten anzulegen, die um ein Vielfaches kleiner sind und damit schneller durchsucht werden können. Zwar sind heute Methoden und Techniken aus dem Information Retrieval verfügbar, die sowohl Effizienz in der Suche wie auch Qualität im Suchresultat vermuten lassen, doch dieser Punkt spricht meiner Meinung nach nicht dagegen, Metadaten gezielt einzusetzen. Denn die durchschnittlich benötigte Datenermittlungszeit sinkt somit deutlich. Besonders in bezug auf die zunehmende weltweite Vernetzung von Rechnern scheint diese Technik an Bedeutung zu gewinnen. Sucht man beispielsweise nach bestimmten Informationen, die auf einem entfernten Rechner liegen, möchte man im Normalfall vorher wissen, ob sich diese auch als nützlich erweisen. Metadaten ermöglichen in diesem Sinn, die Brauchbarkeit von Daten gezielt zu ermitteln.
1B) Datenaustausch, Datentransfer:
Mit dem sich beschleunigenden technologischen Wandel und der Erschliessung neuer Informations- und Kommunikationstechnologien werden Techniken zum gezielten Austausch von Daten immer wichtiger. Gerade beim vermehrten weltweiten Austausch von Informationen muss es eine Möglichkeit geben, wie sich Sender und Empfänger mitteilen können, wie diese genutzt werden können. Zum einen umfasst diese Mitteilung den syntaktischen Aufbau der übertragenen Datei, zum anderen die eigentliche Interpretation der Daten. Auch diese Aufgabe ist durch Metadaten lösbar.
Die Notwendigkeit, dass übergreifende Standards zu diesem Zweck eingesetzt werden müssen und dass schon die Haltung von Metadaten ermöglicht und vereinheitlicht werden muss, zeigt sich allein dadurch, dass mit zunehmender Abhängigkeit zwischen verschiedenen Softwareeinheiten überproportional mehr Übergänge geschaffen werden.
1C) 'Datenfitness' oder Dokumentation der Daten:
Im Software Engineering wird seit langem propagiert, dass die Dokumentation von Software enorm wichtig ist, ja sie ist sogar ein nicht unbedeutender Teil des Produktes Software. Mit den Daten verhält es sich genauso, auch sie bedürfen einer Dokumentation. Die Hauptaufgabe der Dokumentation ist bekanntlich die Wissenssicherung, denn ein nicht unerheblicher Anteil am Wert einer Software und der Daten befindet sich im Know-how der Ersteller beziehungsweise der Anwender. Wenn beispielsweise die Schlüsselpersonen in bezug auf das Wissen über ein Informationssystem eine Unternehmung verlassen, so würde bei fehlender oder unvollständiger Dokumentation eine bestehende Softwarelösung samt Daten faktisch wertlos.
In den letzten Jahrzehnten haben sich in den Unternehmungen immense Datenbestände angesammelt, die fast gänzlich undokumentiert sind. Dieser Notstand lässt sich am besten am Aufkommen von sogenannten Data Mining-Werkzeugen, die das Durchforsten von undokumentierten Datenbeständen ermöglichen sollen, illustrieren. (Natürlich kommen solchen Werkzeugen auch noch andere Aufgaben zu, wie etwa das Erkennen von Mustern in grossen Datenbeständen, sogenannten Clustern, mittels deren man beispielsweise 'interessante' Kunden ausfindig machen will). Die langfristige Werterhaltung, also die Datenfitness, kann nur durch gezielte Dokumentation in Form von Metadaten garantiert werden. Es lässt sich damit auch unnötige Redundanz in den Datenbeständen vermeiden, die Integration von Datenbeständen wird damit erleichtert. Zu dieser sogenannten Datenfitness gehört auch die Information der zeitlichen Gültigkeit und der Aktualität der Daten sowie weitergehende Qualitätsmerkmale der Daten.
1D) 'Originärer' Sinn der Metadaten:
Neben den genannten Bereichen, die für den Sinn der Verwendung von Metadaten sprechen, gibt es ein klassisches Beispiel aus dem alltäglichen Leben, das auf intuitive und verständliche Art den Zweck von Metadaten illustriert. Dieser Ansatz wurde mit dem Ausdruck originärer Sinn von Metadaten überschrieben, da es sich wahrscheinlich um den ursprünglichsten Sinn überhaupt handelt:
Eine Bibliothek eine Menge von Büchern (Dateneinheiten). Bücher lassen sich Attributen verschlagworten, so dass ein Katalog (Metadatenbank, Metadata Dictionary) entsteht, der die wichtigsten Suchkriterien (Metadaten) umfasst; Es gehören dazu etwa der Titel, der Autor, Erscheinungsdatum, assoziierte Schlagwörter aus einem Schlagwortverzeichnis oder andere Klassifizierungsattribute. Daneben werden auch noch weitere Informationen zu finden sein, etwa der Verwahrungsort, Verweise auf andere Bücher (Relationen) oder weitere externe Verweise wie beispielsweise auf Publikationen in anderen Fachbibliotheken. Wie wir in Kapitel 2.3 sehen werden, lassen sich die möglichen Attribute von Metadaten in logische Einheiten aufteilen und zusammenfassen. In diesem Beispiel finden wir alle Nutzen aus der Verwendung zusammengefasst: Mittels des Kataloges lässt sich einerseits auf einfache und effiziente Weise unter Angabe von wenigen Informationen suchen (querying data), andrerseits gibt er bei Neuaufnahmen und Änderungen vor, wie Einträge auszusehen haben und wie sie abzulegen sind (managing data). Durch das gezielte Auffinden wird Redundanz und Inkonsistenz vermieden und mittels der zahlreichen Begleitinformationen wird die Interpretation und das Verstehen der Einträge verbessert.
2. Begriffsdefinitionen
2A) Was sind Metadaten?
Wie bereits festgestellt, handelt es sich bei Metadaten um 'Daten über Daten', also Daten, die verschiedene Eigenschaften von Datensätzen beschreiben und den inhaltlichen Kontext herstellen. Eine verbindliche Erklärung des Begriffs Metadatum beziehungsweise eine begriffliche Abgrenzung zu Suchinformation, Kontextinformation oder Metainformation existiert bislang nicht. Das lässt sich auch mit dem Umstand illustrieren, dass praktisch jeder Artikel, der sich mit Metadaten befasst, seine eigene Definition von Metadatum proklamiert. Eine kurze, aber durchaus treffende Definition lässt sich im Entwurf der ISO Spezifikation 11179 finden. Metadaten werden dort unter Abschnitt 2 beschrieben als:
'The information and documentation which makes data sets understandable and sharable for users'
Die genannte ISO Definition 11179 ist die wichtigste Definition, die auf (Meta-)daten Anwendung finden kann. Es werden dort in sechs Abschnitten die Aufgaben, Prinzipien und Richtlinien für die Klassifizierung, Attributierung, Namenskonvention (Identifikation) und Strukturierung von Daten diskutiert.
Die meisten verfügbaren Definitionen von Metadatum decken sich in etwa mit dem Auszug aus der besagten ISO Definition. Demnach handelt es sich bei Metadaten um eine Dokumentation von Daten, die es uns erlauben, diese zu verstehen und damit auch austauschbar mit anderen Benutzern zu machen. Metadaten sind Informationen über Daten, die einen intelligenten und effizienten Zugriff auf die Verwaltung dieser Daten erlauben. Aus der Definition geht aber indirekt auch hervor, dass Metadaten erweiterbar und selbstdefinierend sein sollten. Erweiterbar, da das Wachstum der Datenbestände enorm und die Abhängigkeit von proprietären Systemen eher geringer werden, selbstdefinierend, da ansonsten wiederum Metadaten für die vorhandenen Metadaten benötigt werden müssten. Grundsätzlich sind Metadaten keinen Restriktionen unterworfen was die Mächtigkeit und den Platzbedarf betrifft - jedoch sollten sie sinnvollerweise den Platzbedarf der eigentlichen Daten nicht überschreiten.
In Analogie zu den Begriffen aus dem Datenbankbereich lassen sich wie folgt Begriffe ableiten, die auf Metadaten ausgerichtet sind:
2B) Metadatenmodell:
Datenmodelle haben die Aufgabe als Kommunikationsbasis, als eigene 'Sprache' die formale Beschreibung aller in der Datenbank enthaltenen Daten sowie deren Beziehungen untereinander zu ermöglichen. Demgegenüber ermöglicht das Metadatenmodell die formale Beschreibung der Metadaten und ihre Beziehung untereinander im sogenannten Metadatenschema.
2C) Metadatenschema:
Ein Schema ist eine strukturelle Beschreibung einer konkreten Datenbasis, die unter Verwendung eines Datenmodells entsteht. Demnach definieren wir als Metadatenschema die konkrete Beschreibung der Struktur der Metadaten.
2D) Metadatenbank (~Data Dictionary):
Der Begriff Metadatenbank bezieht sich auf eine strukturierte und wohldefinierte Sammlung von Metadaten, beschrieben durch das Metadatenschema. Auch hier gelten die Grundkonzepte der Datenbanktechnologie, welchen Datenbanken im Allgemeinen zu entsprechen haben.
Laut ISO/IEX 11179 handelt es sich bei einem Data Dictionary um eine Datenbank, die konzipiert ist zur Verwaltung von Daten, welche Informationen beinhalten über die Benutzung und die Struktur von anderen Daten: Eine Datenbank für Metadaten.
Originaltext:
'A database used for data that refers to the use and structure of other data; that is, a database for the storage of metadata [ANSI X3.172-1990]. See also data element dictionary'
Die Grundzüge des Terminus Metadaten sind damit dargelegt worden. Um den Begriff der Metadaten noch besser darstellen zu können, bedarf es einer genaueren Betrachtung anhand einer Klassifizierung nach verschiedenen Kriterien. Dazu werden Metadaten zuerst nach ihrer Inhaltssensitivität und desweiteren nach Ihrer Nutzbarkeit diskutiert.
3. Arten von Metadaten
Um den Begriff der Metadaten besser eingrenzen zu können, werden sie in verschiedene Klassen eingeteilt.
3A) Inhaltsabhängige Metadaten
Inhaltsabhängige Metadaten beziehen sich auf den Inhalt des Dokumentes bzw. der Information. Es gibt grundsätzlich drei Arten von inhaltsabhängigen Metadaten:
- 3Aa) Inhaltsbeschreibende Metadaten:
Als inhaltsbeschreibende oder auch semantische Metadaten werden Daten bezeichnet, die den Inhalt eines Dokumentes beschreiben, aber nicht direkt im Dokument selbst enthalten sind. Es sind sozusagen Assoziative Informationen, die mit der Informationseinheit korrespondieren, beispielsweise Begleitinformationen über ein geographische Karte: 'Die Karte zeigt den südlichen Verlauf des Greifensee. Auf der Karte sind Rastplätze eingetragen'.
- 3Ab) Metadaten für die Interpretation der Daten:
Es handelt sich hierbei um Metadaten, welche zur Interpretation der Daten Verwendung finden, sie stellen also Informationen über den syntaktischen Aufbau der Daten dar. Beispiele zu diesem Typ sind etwa Datentypen von Feldern (String, Boolean etc.), der Aufbau von zusammengesetzten Datenfeldern, die Farbtiefe einer Bilddatei, die Minimal- bzw. Maximalgrösse eines Datenelementes.
- 3Ac) Inhaltsmetadaten:
Dieser Typ vereint alle Inhaltsabhängigen Metadaten, die nicht zu den beiden anderen genannten Typen gehören. Als Beispiel dazu könnte etwa eine Verschlagwortung Mithilfe eines Thesaurus, Kontextabhängige Schlüsselwörter etc. nennen.
3B) Inhaltsunabhängige Metadaten
Inhaltsunabhängige Metadaten beziehen sich auf Informationen, welche nichts mit dem Inhalt des Dokumentes, das sie beschreibe, zu tun haben.
Es lassen sich hauptsächlich zwei Arten von inhaltsunabhängigen Metadaten unterscheiden:
- 3Ba) Identifizierende Metadaten
Sie bestimmen die eindeutige Identifikation des Dokumentes beziehungsweise der Informationseinheit. Typischerweise handelt es sich dabei um identifizierende Merkmale wie etwa der Name des Autors, eine generierte Identifikationsnummer (ID-Nummer), eine Versionsnummer, ein einheitlicher Dokumentname oder irgendein anderes identifizierendes Merkmal beziehungsweise eine Kombination aus verschiedenen Einzelmerkmalen.
- 3Bb) Administrative Metadaten
Informationen, die zur Verwaltung der zugehörigen Daten dienen, werden unter dem Begriff Administrative Metadaten zusammengefasst. Als mögliche Ausprägungen seien beispielsweise der Aufbewahrungsort (physischer Ort, Verzeichnisstruktur, URL etc.), Beziehungen zu anderen Daten oder ein Status (In Bearbeitung, genehmigt etc. ) genannt . Es fallen in diesen Bereich grundsätzlich alle möglichen Metainformationen, welche direkt oder indirekt mit allgemeinen administrativen Informationen zu tun haben.
4. Nutzungsarten von Metadaten
Es gibt eine zweite Art und Weise der Klassifizierung von Metadaten, nämlich nach der Nutzungsart. Es werden grundsätzlich zwei verschiedene Arten unterschieden:
- 4A) Aktive Nutzung der Metadaten:
Ein System (Metadata Repository, System Catalog), das aktive Nutzung der Metadaten betreibt, ist immer konsistent mit der zugrundeliegenden Datenbankstruktur. Denn alle Änderungen in Struktur und Daten werden automatisch im System geändert.
- 4B) Passive Nutzung der Metadaten:
Demgegenüber kann bei passiver Nutzung der Metadaten Inkonsistenz auftreten zwischen Metainformation und Datenstruktur. Denn die Akteure der Datenbank (Systemadministratoren, Softwareentwickler, Power-Anwender und Endanwender) sind selbst verantwortlich für die Aktualität und Konsistenz ihrer Dokumentation von Struktur und Prozessen der Datenbank.
Demgegenüber findet sich in weitergehender Literatur noch eine dritte Art, die von den beiden genannten abgeleitet wird und sich im speziellen auf Metadaten von Data Warehouse bezieht:
- 4C) Semi-Aktive Nutzung von Metadaten:
Als Semi-Aktive Metadaten werden solche bezeichnet, die einen gewissen Ausschnitt von statischen Informationen über eine Datenbank beinhalten (z.B: Strukturdefinitionen, Spezifikation einer Konfiguration etc.), welche von gewissen Applikationen zur Laufzeit gelesen werden und gezielt Verwendung finden. Im Gegensatz zur aktiven Nutzung von Metadaten, werden Metadaten hier aber nicht direkt ausgeführt, sondern lediglich gelesen.
In Verbindung mit der Nutzungsart wird meist auch der logische Ort der Metadaten im Verhältnis zur eigentlichen Datenbank erwähnt. Wenn bei einem aktiven System die Metadaten innerhalb desselben Datenbankmanagementsystems (DBMS) verwaltet werden, auf die sie sich beziehen, spricht man von einem sogenanntem 'integrated data dictionary'. Im Gegensatz dazu besitzt das sogenannte 'standalone data dictionary' ein eigenes, oft spezialisiertes DBMS. Im Normfall handelt es sich dabei um passive Nutzung von Metadaten.
5. Klassifikation von Metadaten
Eine weitere Möglichkeit zur Klassifikation von Metadaten, im Speziellen von Data Warehouse Metadaten, werden in als sogenannte Dimensionen der Klassifizierung bezeichnet. Dabei lassen sich diese Dimensionen als direkte Bestandteile des jeweiligen Metamodells verstanden werden, als eine Erweiterung zu den anwendungsspezifischen Aspekten oder als deren Verfeinerung:
- 5A) Dimension Metadatentyp: Diese erste Dimension teilt Metadaten in sogenannte Primärdaten und Metadaten für Prozesse. Primärdaten umfassen Strukturdefinition der Quellsysteme, des Data Warehouse und der Data Marts. Prozessmetadaten hingegen beschreiben die Prozesse des Data Warehouse. Diese können sowohl als ausführbare Spezifikationen wie auch als natürlichsprachliche Beschreibungen im Sinne einer Dokumentation definiert werden.
- 5B) Dimension Abstraktion: In Analogie zum Datenbankentwurfsprozess können Metadaten auf den drei bekannten Abstraktionsstufen konzeptuell (meist in sprachlicher, teilformaler Form), logisch (formale Darstellung, beispielsweise mittels eines Schemas für eine relationale Datenbank) und physisch (konkrete Implementierung, beispielsweise ausführbarer SQL-Code) modelliert werden.
- 5C) Dimension Benutzersicht: Je nach Benutzergruppe und Aufgabenbereich bestehen sehr verschiedene Bedürfnisse nach Metainformation. Analog dieser Anforderungen ergeben sich verschiedenartige Sichten über die Metadaten: Einerseits werden dabei die Geschäftsmetadaten genannt. Diese stehen vor allem dem Endanwender zur Verfügung und lassen sich grob beschreiben als Hilfe zum besseren Verständnis der Softwaresysteme. Sie umfassen etwa Fragestellungen rund um einheitliche Terminologie von Geschäftsbegriffen, Informationen zu vordefinierten Abfragen beziehungsweise Berichten und Dokumentation aller Art. Andererseits gibt es die Technischen Metadaten, welche vor allem durch Administratoren, Applikationsentwicklern und Power-Anwender verwendet werden. Darunter fallen etwa Schemadefinitionen oder Quellcode einer Applikation. Die verschiedenen Sichten sind aber nicht disjunkt, sondern überlappen sich oft.
- 5D) Dimension Herkunft: Die Herkunft von Metadaten stellt eine weitere Dimension dar. Mögliche Fragestellungen sind: Wer hat einen Import von Metadaten veranlasst? Durch welches Werkzeug wurde er durchgeführt? Welches Austauschformat wurde verwendet? Woher stammen die Daten?
- 5E) Dimension Verwendungszweck: Diese Dimension unterscheidet den Verwendungszweck von Metadaten: Es gibt Metadaten, die für administrative Zwecke gebraucht werden, andere für Wartung und Unterhalt, wieder andere für Analysen.
- 5F) Dimension Erstellungs-/Verwendungszeitpunkt: Es gibt drei verschiedene Kategorien, die wir unterscheiden können: Entwurfsmetadaten (Daten wie Schemadefinitionen, Zugangsberechtigungen), Aufbaumetadaten und Benutzungsmetadaten (Benutzungsstatistiken etc.)
In einem Folgeartikel zu Metadaten, der voraussichtlich Mitte April erscheinen wird, stellen wir Ihnen einige Standards im Zusammenhang mit Metadaten vor - darunter gehört auch XML.
(Thomas Marugg)