English: Long-term data storage / Español: Almacenamiento de datos a largo plazo / Português: Armazenamento de dados de longo prazo / Français: Stockage de données à long terme / Italiano: Archiviazione dati a lungo termine
Die Langzeitdatenspeicherung bezeichnet die dauerhafte und sichere Aufbewahrung digitaler Informationen über Jahrzehnte oder sogar Jahrhunderte hinweg. Sie ist essenziell für Archive, wissenschaftliche Forschung und rechtliche Dokumentation, da sie sicherstellt, dass Daten trotz technologischer Veränderungen oder physischer Degradation zugänglich bleiben. Ohne spezielle Verfahren und Medien drohen digitale Bestände durch Obsoleszenz oder Materialermüdung unwiederbringlich verloren zu gehen.
Allgemeine Beschreibung
Langzeitdatenspeicherung zielt darauf ab, digitale Informationen über extrem lange Zeiträume – oft 50 Jahre und mehr – unverändert und lesbar zu erhalten. Im Gegensatz zur kurzfristigen Datensicherung, die etwa Backups für Wochen oder Monate umfasst, erfordert sie Strategien gegen drei zentrale Bedrohungen: technologische Obsoleszenz (veraltete Hardware/Software), physikalische Degradation (z. B. magnetische Entladung bei Bändern) und organisatorische Lücken (fehlende Dokumentation oder Migration).
Ein Kernproblem ist die Haltbarkeit der Speichermedien. Optische Discs wie DVDs oder Blu-rays altern durch Oxidation, magnetische Bänder verlieren nach 10–30 Jahren ihre Lesbarkeit, und Flash-Speicher (SSDs) leiden unter Zellermüdung durch begrenzte Schreibzyklen. Selbst "archivtaugliche" Medien wie M-Discs (mit anorganischen Schichten) garantieren laut Herstellerangaben (z. B. Millenniata) "nur" 1.000 Jahre Haltbarkeit – unter idealen Lagerbedingungen (Temperatur: 20–25 °C, Luftfeuchtigkeit: 20–50 %).
Ein zweiter kritischer Faktor ist die Datenmigration. Da Dateiformate (z. B. DOC, PDF/A) und Betriebssysteme sich alle 5–10 Jahre ändern, müssen Daten regelmäßig in aktuelle Formate konvertiert werden, um sie zugänglich zu halten. Dies erfordert automatisierte Prozesse und Metadaten-Standards wie PREMIS (Preservation Metadata Implementation Strategies), die Herkunft, Integrität und Rechte der Daten dokumentieren.
Rechtliche Vorgaben verstärken die Notwendigkeit: In der EU schreibt die DSGVO (Datenschutz-Grundverordnung) für bestimmte Daten eine Aufbewahrung von bis zu 100 Jahren vor (z. B. Patientenakten in der Medizin), während steuerrechtliche Dokumente in Deutschland gemäß § 147 AO (Abgabenordnung) 6–10 Jahre archiviert werden müssen. Wissenschaftliche Daten – etwa Klimamodelle oder genetische Sequenzen – erfordern oft noch längere Zeiträume, um Reproduzierbarkeit zu gewährleisten.
Technisch setzt Langzeitdatenspeicherung auf redundante Systeme, etwa RAID-6-Arrays (mit doppelter Parität) oder geografisch verteilte Cloud-Archive (z. B. AWS Glacier Deep Archive), die Daten in mindestens drei Rechenzentren replizieren. Für maximale Sicherheit kombinieren Institutionen wie die Deutsche Nationalbibliothek oder das CERN mehrere Medien: magnetische Bänder (LTO-9 mit 30 TB Kapazität pro Kassette), optische Speicher (5D-Datenträger aus Quarzglas, entwickelt an der Universität Southampton) und "kalte" Serverfarmen mit extrem niedrigem Energieverbrauch.
Technische Grundlagen
Die Wahl des Speichermediums hängt von Faktoren wie Kapazität, Lesegeschwindigkeit, Energieeffizienz und Kosten pro Terabyte ab. Magnetische Bänder (LTO, Linear Tape-Open) dominieren in Großarchiven aufgrund ihrer Langlebigkeit (30+ Jahre) und niedrigen Betriebskosten (ca. 0,005 €/GB/Jahr). Moderne LTO-9-Bänder speichern bis zu 45 TB komprimierte Daten bei einer Transferrate von 400 MB/s. Nachteilig sind jedoch hohe Latenzzeiten (Minuten bis zum Zugriff) und die Anfälligkeit für mechanische Schäden.
Optische Medien wie M-Discs oder Blu-ray Archive Discs (von Sony/Panasonic) nutzen anorganische Schichten (z. B. aus Tellur oder Gold), die weniger anfällig für UV-Licht oder Feuchtigkeit sind. Tests des U.S. Department of Defense (2018) bestätigten eine Haltbarkeit von über 50 Jahren bei Lagerung in Dunkeln und stabilen Klimabedingungen. Allerdings ist ihre Kapazität (max. 128 GB pro Disc) für Big-Data-Anwendungen begrenzt.
Flash-Speicher (NAND) scheidet für Langzeitarchivierung meist aus, da die Datenretention (Zeit, bis Ladungen in Zellen verloren gehen) bei 1–10 Jahren liegt – selbst bei Enterprise-SSDs mit 3D-XPoint-Technologie (Intel Optane). Eine Ausnahme bilden QLC-NANDs (Quad-Level Cell) in spezialisierten Archiven, die durch Refresh-Zyklen (automatisches Umschreiben der Daten alle 2–3 Jahre) die Haltbarkeit verlängern.
Ein vielversprechender Ansatz ist die DNA-Datenspeicherung, bei der digitale Informationen in synthetische DNA-Sequenzen codiert werden. Microsoft und die Universität Washington demonstrierten 2021 die Speicherung von 1 GB Daten in DNA mit einer theoretischen Haltbarkeit von 2.000+ Jahren (bei 10 °C). Die Technologie ist jedoch noch zu kostspielig (ca. 3.500 €/MB) und langsam (Schreibgeschwindigkeit: ~400 Byte/s).
Standards und Protokolle
Um Interoperabilität und Zukunftssicherheit zu gewährleisten, setzen Archive auf internationale Standards:
Der OAIS-Standard (Open Archival Information System, ISO 14721:2012) definiert ein Rahmenwerk für digitale Archive, einschließlich der Rollen von Produzenten, Verwaltern und Nutzern von Daten. Er fordert die Trennung von Datenobjekten (Bitstreams) und Metadaten (Beschreibungen, Rechte, Prüfsummen) sowie regelmäßige Integritätsprüfungen (z. B. via SHA-256-Hashes).
Für Dateiformate empfiehlt die Library of Congress PDF/A (ISO 19005) für Dokumente, TIFF (unkomprimiert) für Bilder und XML mit Schema-Validierung für strukturierte Daten. FITS (Flexible Image Transport System) wird in der Astronomie für Rohdaten verwendet, während HDF5 (Hierarchical Data Format) in der Wissenschaft für komplexe Datensätze (z. B. Simulationen) eingesetzt wird.
Die IETF (Internet Engineering Task Force) entwickelt Protokolle wie IPFS (InterPlanetary File System), das Daten dezentral über ein peer-to-peer-Netzwerk speichert und via Content-Addressing (Hash-basierte Adressierung) vor Manipulation schützt. Blockchain-Technologien (z. B. Arweave) experimentieren mit "permanentem" Speicher durch ökonomische Anreize (Endowment-Modell), sind jedoch noch nicht ausgereift für kritische Anwendungen.
Anwendungsbereiche
- Staatliche Archive: Nationalbibliotheken (z. B. DNB in Deutschland) und Landesarchive speichern Gesetzestexte, historische Dokumente und Kulturgut digital. Das Bundesarchiv nutzt ein hybrides System aus LTO-Bändern und optischen Medien für über 1 Petabyte Daten.
- Medizin und Pharmazie: Krankenakten müssen gemäß ICH-GCP (International Council for Harmonisation) bis zu 25 Jahre nach Studienabschluss aufbewahrt werden. Genomdaten (z. B. vom 1000 Genomes Project) erfordern Speicherlösungen für mindestens 50 Jahre.
- Wissenschaft und Forschung: Klimadaten (z. B. vom IPCC) oder Teilchenphysik-Experimente (CERN mit 300+ PB Daten aus dem LHC) benötigen langfristige Verfügbarkeit für Reanalysen. Das PANGAEA-Datenrepository speichert geowissenschaftliche Daten mit DOIs für dauerhafte Zitierbarkeit.
- Recht und Finanzen: Banken archivieren Transaktionsdaten gemäß Basel III für 10+ Jahre, während Gerichte digitale Akten (z. B. EGVP in Deutschland) mindestens 30 Jahre vorhalten müssen.
- Kunst und Kultur: Museen wie das MoMA digitalisieren Kunstwerke in 16K-Auflösung und speichern sie in DNG- oder JPEG2000-Formaten, kombiniert mit Farbprofilen (ICC) für farbgetreue Reproduktion.
Bekannte Beispiele
- Arctic World Archive (AWA): Ein unterirdisches Datenlager auf Spitzbergen (Norwegen), das digitale Kopien von Kulturgut (z. B. Wikipedia, GitHub-Code) auf piqlFilm (analoges Mikrofilm-ähnliches Medium) für 500+ Jahre speichert. Betrieben von Piql und Store Norske.
- Internet Archive: Die non-profit-Organisation archiviert seit 1996 Webseiten (über 600 Milliarden URLs) in WARC-Dateien und bietet Zugriff via Wayback Machine. Die Daten sind auf Servern in den USA und Kanada redundant gespeichert.
- CERN Data Centre: Speichert seit 2011 die Rohdaten des Large Hadron Collider (LHC) auf einem CASTOR-Tapesystem (150+ PB Kapazität). Die Daten werden alle 5 Jahre auf neue LTO-Generationen migriert.
- Rosetta-Projekt (Long Now Foundation): Ein physisches Archiv mit Mikrofilm-Discs (2.800 Seiten in 1.500 Sprachen), das in einer Edelstahl-Kapsel für 10.000 Jahre haltbar sein soll. Ziel ist die Bewahrung linguistischer Vielfalt.
- 5D-Datenträger (Universität Southampton): Quarzglas-Speicher mit femtosekunden-Laser-beschriebenen Nanostrukturen, die 360 TB pro Disc bei 19 °C für 13,8 Milliarden Jahre halten sollen (theoretisch, basierend auf Arrhenius-Gleichung).
Risiken und Herausforderungen
- Technologische Obsoleszenz: Hardware (z. B. 8-Zoll-Disketten-Laufwerke) oder Software (z. B. WordStar-Dokumente) wird unlesbar, wenn keine Emulatoren oder Konverter verfügbar sind. Beispiel: Die NASA verlor 2008 vorübergehend Daten der Lunar Orbiter-Mission (1966), weil die ursprünglichen Bandlaufwerke nicht mehr existierten.
- Datenkorruption: Bit Rot (spontane Änderungen einzelner Bits durch Strahlung oder elektrische Störungen) kann Dateien unbrauchbar machen. Studien der Carnegie Mellon University zeigen, dass ohne regelmäßige Prüfsummen-Kontrollen bis zu 0,5 % der Daten pro Jahr korrumpieren.
- Energieverbrauch: Große Archive (z. B. Google Coldline) verbrauchen trotz "kalter" Speicherung (nearline) erhebliche Energie für Kühlung und Migration. Das U.S. Data Center Energy Report (2020) schätzt, dass 2 % des globalen Stromverbrauchs auf Datenspeicherung entfallen.
- Rechtliche Unsicherheiten: Urheberrecht (z. B. § 53 UrhG in Deutschland) oder Datenschutz (DSGVO) können die Langzeitarchivierung erschweren, wenn Rechteinhaber nicht mehr auffindbar sind ("Orphan Works-Problem").
- Kosten: Die Total Cost of Ownership (TCO) für 50 Jahre Archivierung liegt bei 5–10 €/GB (inkl. Migration, Hardware-Ersatz und Personal). Projekte wie LOCKSS ("Lots of Copies Keep Stuff Safe") reduzieren Kosten durch dezentrale Replikation.
- Physische Katastrophen: Brände (z. B. Brasilianisches Nationalmuseum 2018), Überschwemmungen oder geomagnetische Stürme können auch redundante Systeme zerstören. Das Svalbard Global Seed Vault zeigt, wie selbst "unkaputtbare" Archive anfällig sind (Wassereinbruch 2017 durch Permafrost-Schmelze).
Ähnliche Begriffe
- Digitale Langzeitarchivierung (DLZA): Ein Teilbereich der Langzeitdatenspeicherung, der sich speziell auf die Erhaltung des kontextuellen Zugangs (z. B. durch Emulation alter Software) konzentriert. Wird oft von Bibliotheken und Museen verwendet.
- Kaltes Backup: Bezeichnet Datensicherungen auf offline-Medien (z. B. Bänder in Tresoren), die nur im Katastrophenfall genutzt werden. Im Gegensatz zur Langzeitarchivierung fehlen oft Metadaten oder Migrationspläne.
- Data Hoarding: Das private Sammeln großer Datenmengen ohne strukturierte Archivierung. Führt oft zu Data Graveyards (unbrauchbare Bestände durch fehlende Organisation).
- Perpetual Storage: Ein Marketingbegriff für Speicherlösungen, die "unbegrenzte" Haltbarkeit versprechen (z. B. durch Blockchain). Technisch ist dies unmöglich, da alle Medien physikalischen Grenzen unterliegen.
- Dark Archive: Ein Archiv, das Daten nur für Notfälle vorhält und keinen öffentlichen Zugriff erlaubt (z. B. Portico für wissenschaftliche Zeitschriften). Dient der Risikostreuung.
Zusammenfassung
Langzeitdatenspeicherung ist ein multidisziplinäres Feld, das technische, organisatorische und rechtliche Herausforderungen vereint. Ihr Ziel ist es, digitale Informationen über Generationen hinweg nutzbar zu halten – trotz sich wandelnder Technologien und physikalischer Degradation. Die Wahl der Speichermedien (Bänder, optische Discs, DNA) und Standards (OAIS, PDF/A) hängt von Anforderungen wie Haltbarkeit, Kapazität und Zugriffsgeschwindigkeit ab. Während Institutionen wie das Arctic World Archive oder das CERN Vorreiterrollen einnehmen, bleiben Risiken wie Obsoleszenz, Bit Rot oder hohe Kosten bestehen. Zukunftstechnologien wie 5D-Quarzglas oder DNA-Speicher könnten die Grenzen des Machbaren erweitern, erfordern jedoch noch grundlegende Fortschritte in Skalierbarkeit und Wirtschaftlichkeit. Letztlich ist Langzeitdatenspeicherung nicht nur eine technische, sondern auch eine kulturelle Aufgabe: Sie entscheidet, welches Wissen der Menschheit erhalten bleibt.
--
Dieses Lexikon ist ein Produkt der quality-Datenbank.