Langzeitarchivierung

Langzeitarchiverung - das Mittel gegen das DIGITALE DATENDESASTER !?

Herausforderung:

Unter Langzeitarchivierung versteht man die langfristige (mehr als 10 Jahre) Aufbewahrung und die Sicherstellung der dauerhaften Verfügbarkeit von Informationen. Wichtig ist es, auf den Begriff der Information und deren Verfügbarkeit und Unveränderbarkeit zu achten. Es reicht bei weitem nicht aus, Dokumente oder Dateien allein zu sichern, vielmehr muss Sorge getragen werden, dass auch die passenden Werkzeuge für Zugriff und Aufbereitung der Daten zu jedem Zeitpunkt bereitstehen.
Archivierung ist nicht zu verwechslen mit Backup, bei dem es um eine Sicherung von Daten geht, auf die zur Wiederherstellung versehentlich gelöschter oder anders veränderter Dateien zurückgegriffen wird. Ein wesentliches Unterscheidungsmerkmal ist auch die Tatsache, dass bei einem Backup immer mehrere Versionen der zu sichernden Daten gibt. Bei der Archivierung gibt es in der Regel genau eine Version einer Datei oder Information, deren Authentizität über die gesamte Aufbewahrungszeit sichergestellt werden muss.
Durch die zunehmende Digitaliserung und die hierduch bedingte dramatische Zunahme digitaler Dokumente stellt sich analog zu anderen Trägermedien (Papier, Stein- und Wachstafeln) die Frage der Haltbarkeit. Es liegt in der Natur der Sache, dass digitale Trägermedien ohne besondere Vorkehrungen nicht für eine dauerhafte Aufbewahrung geeignet sind. Bei Festplatten können externe Magnetfelder zu Datenverlusten führen, optische Medien müssen sehr sorgfältig behandelt werden und dürfen keinesfalls einer Bestrahlung durch UV-Licht ausgesetzt werden.

Die eigentliche Herausforderung liegt aber im schnellen Medien- und Systemwechsel und der Verwendung von unterschiedlichen, z.T. proprietärern Formaten. Dies führt teilweise dazu, dass Informationen nur dann lesbar sind, wenn spezielle Softwareprodukte vorhanden und lauffähig sind. Diese setzen teilweise ganz bestimmte Betriebssysteme voraus, die häufig nur auf alter Hardware funktionieren. Ältere Daten, die beispielsweise unter dem Betriebsystem MS-DOS erstellt wurden, sind wegen unterschiedlicher Zeichenkodierungen -- hier spielen Umlaute eine wesentliche Rolle -- ausschließlich mit den damals genutzten Programmen lesbar. Diese stehen heute aber ohne besondere Vorkehrungen nicht mehr zur Verfügung.
Hinzu kommt der ebenso rasante Wechsel der Datenträger. Informationen auf alten Medien sind heute wegen fehlender Laufwerke und mangelnder Unterstützung durch neue Hardware nicht mehr lesbar. Beste Beispiele sind alte Disketten, ZIP-Laufwerke und Sonderformen von Disketten. Aber auch im Festplattenbereich sind solche Entwicklungen zu beobachten. Begonnen hat hier alles mit der MFM-Schnittstelle, die durch die heute nur noch in älteren Geräten zu findenden IDE-Schnittstelle (auch ATA bzw. PATA) abgelöst wurde. Ein ähnlicher Wandel ist auch im Serverbereich mit den unterschiedlichsten und inkompatiblen Versionen der SCSI-Schnittstellen zu beobachten. Derzeit kommen in der Regel SATA oder SAS Geräte zum Einsatz. Ein Abwärtskompatibilität ist nicht gegeben. 

Die  zehn Gebote der elektronischen Archivierung:[1]

  1. Jedes Dokument muss unveränderbar archiviert werden
  2. Es darf kein Dokument auf dem Weg ins Archiv oder im Archiv selbst verloren gehen
  3. Jedes Dokument muss mit geeigneten Retrievaltechniken wieder auffindbar sein
  4. Es muss genau das Dokument wiedergefunden werden, das gesucht worden ist
  5. Kein Dokument darf während seiner vorgesehenen Lebenszeit zerstört werden können
  6. Jedes Dokument muss in genau der gleichen Form, wie es erfasst wurde, wieder angezeigt und gedruckt werden können
  7. Jedes Dokument muss zeitnah wiedergefunden werden können
  8. Alle Aktionen im Archiv, die Veränderungen in der Organisation und Struktur bewirken, sind derart zu protokollieren, dass die Wiederherstellung des ursprünglichen Zustandes möglich ist
  9. Elektronische Archive sind so auszulegen, dass eine Migration auf neue Plattformen, Medien, Softwareversionen und Komponenten ohne Informationsverlust möglich ist
  10. Das System muss dem Anwender die Möglichkeit bieten, die gesetzlichen Bestimmungen (BDSG, HGB/AO etc.) sowie die betrieblichen Bestimmungen des Anwenders hinsichtlich Datensicherheit und Datenschutz über die Lebensdauer des Archivs sicherzustellen 

Technische Aspekte

Es bleibt die Frage der technischen Umsetzung und der Integration in die IT-Infrastruktur. Ein Archiv ist nicht zu verwechseln mit einem Tresor, der alle drei bis fünf Jahre einmal inspiziert wird, deren Inhalte ansonsten aber unter Verschluss gehalten werden. Vielmehr sollen die vorhandenen Informationen  online zur Verfügung gestellt werden und in vorhandenen System abrufbar sein.
Bei einem immer größer werdenden Archiv ist es unverzichtbar, alle dort abgelegten Daten mit Stichworten (Metadaten) zu verschlagworten. Dies ermöglicht eine Suche im Archiv, die unabhängig von konkreten Formaten der Daten selbst ist. Und letztlich müssen Daten auch in aktuellen IT-Systemen sichtbar gemacht und ein transparenter Zugriff ermöglicht werden. Neben der technischen Realisierung zur Speicherung ist der zweckmäßige Aufbau des Informations-Retrieval Systems für den Zugriff auf die Daten enorm wichtig.
Auf der Seite der Auswahl der Speichermedien stehen neben WORM (``Write Once, Read Multiple times'') auf der Basis von CD, DVD und weiteren speziellen optischen Laufwerken auch Systeme zur Verfügung, die auf Magnetbändern und zunehmend auch auf Festplatten basieren. Vorteile der optischen Laufwerke ist die vergleichsweise lange Lebensdauer und der Schutz gegen Veränderungen. Nachteil ist ganz klar, dass zwingend eine Migration der Daten bei Wechsel der Laufwerke vorzunehmen ist. Neuere Geräte können in der Regel ältere Datenträger nicht mehr lesen. Vielversprechend sind neuere Entwicklungen, die unter dem Begriff CAS (Content Adressed Storage) firmieren und vergleichbar zu gewöhnlichen Fileservern sind. Die verwendeten Festplatten sind natürlich redundant ausgelegt. Solche Geräte verfügen über Strategien die Energiekosten zu reduzieren, in dem beispielsweise nicht genutzte Baugruppen abgeschaltet werden. Spezielle Softwareprodukte sorgen für die WORM-Funktionalität.

Ausgangssituation

Auch für die Universität Trier stellt sich die Frage, welche Daten in einer entsprechenden Struktur gesichert und in Form einer Dienstleistung dauerhaft zur Verfügung gestellt werden müssen. Zunehmend fordern Projektträger (DFG, BMBF) entsprechende Verpflichtungen und den Nachweis entsprechender Konzepte. Die Nachfrage nach einem "Langzeitarchiv" als Dienstleistung mit der Integration in die bestehende IT-Landschaft (CMS, WWW, Lehr u. Lernplattform) steigt ständig.
Für die Universität muss ein Langzeitarchivsystem aufgebaut und den Nutzern zur Verfügung gestellt werden. Wegen der speziellen und kostenintensiven Hardware kommt nur eine zentrale Lösung für alle Nutzer in Frage. Unabhängig von der konkreten Architektur und der eingesetzten Technik muss ein Langzeitarchiv dauerhaft von qualifiziertem Personal betreut werden.

Archivierungsanforderungen des SFB 600 

Forschungsnetzwerk und Datenbanksystem (FuD-System)

Die innerhalb des Sonderforschungsbereichs entwicklete
"netzbasierte Arbeits-, Informations- und Publikationsplattform''
besteht aus technischer Sicht aus einer Fülle von Daten und einer hoch spezialisierten Anwendung, die einen Zugriff auf diese Daten erst ermöglicht und durch Suche und Verlinkungsfunktionen einen den wissenschaftlichen Aspekten folgenden Zusammenhang dieser Daten erlaubt. Aus der Sicht einer Archivierung der Gesamtinformation ist es absolut zwingend, auch die Plattform in einer speziellen, für eine Archivierung geeigneten Form, in Zukunft im Archiv zur Verfügung zu stellen. Die eigentliche Herausforderung ergibt sich gerade aus diesem Aspekt. Bei der Anwendung FuD handelt es sich um ein komplexes System, das im Wesentlichen aus mehreren Datenbanken, einem Content-Management-System (CMS) und einem WWW-Server besteht. Zur Kopplung der Systeme kommen weitere Komponenten hinzu. Das FuD-System ist zur Zeit nur unter einem speziellen Betriebssystem lauffähig.

Im Rahmen eines Projektes soll untersucht werden, wie ein derartiges System archivert und für eine dauerhafte Nutzung zur Verfügung gestellt werden kann. Unter dem Link Projektskizze finden Sie eine kurze Beschreibung der geplanten Vorgehensweise.

Literatur:

[1] Grundsätze der elektronischen Archivierung. Verband Organisations- und Informationssysteme e. V., Darmstadt 1997, ISBN 3-932898-03-6}