Einführung
Herausforderungen bei Archivierung und Tiered Storage
Angesichts des ungebremsten Datenwachstums setzen Unternehmen auf Archivierung und Tiered Storage, um Kapazität, Kosten, Leistung und Compliance effizient zu managen. Diese Speichermodelle platzieren häufig genutzte „heiße“ Daten und selten genutzte „kalte“ Daten auf der jeweils optimal geeigneten Speicherebene.
Die Anforderungen bei der Implementierung und beim Management von Archivierung und Tiering sind jedoch hoch. Innerhalb der Speicherinfrastruktur müssen unterschiedliche Speichertechnologien (Flash, Festplatte und Tape) integriert werden, damit die Daten entsprechend ihrer Bedeutung und Verwendung auf der am besten geeigneten Technologie gespeichert werden. Der Tiering- und Archivierungsprozess muss automatisiert auf Basis von Policies durchgeführt werden. Außerdem sollten die Speichersysteme standardisierte Protokolle unterstützen.
Die Kombination von IBM Storage Ceph und PoINT Archival Gateway ist die Antwort auf diese Herausforderungen. PoINT Archival Gateway bindet Tape-Storage-Produkte über die standardisierte S3-Schnittstelle homogen in einen Ceph-Cluster ein. Mit dieser Integration werden Archivierungs- und Tiering-Anforderungen in einem konsistenten Gesamtsystem erfüllt.
PoINT Archival Gateway
Überblick und Funktionen
PoINT Archival Gateway (PAG) ist ein hoch performanter, skalierbarer S3 Object Storage für Tape. Die Softwarelösung verbindet S3-fähige Speichersysteme wie IBM Storage Ceph mit Tape Libraries als Zielspeicher.
Die Grundfunktionalität von PAG umfasst Nutzer-, Daten- und Speichermanagement, Zugangskontrolle, Logging und Monitoring. PAG ermöglicht das direkte Schreiben auf Tape-Medien. Kostenintensive Disk Caches werden nicht benötigt. Die optionale Integration einer zusätzlichen Disk/Flash-Speicherklasse erfüllt die Anforderungen von Anwendungsfällen, die auf einen schnellen Datenzugriff angewiesen sind. Internes Tiering auf Basis der standardisierten S3 Lifecycle Policies gewährleistet ein optimales Daten- und Speichermanagement.
Schlüsselfunktionen:
- Hohe Durchsatzraten durch Parallelisierung
- Hochverfügbarkeit mit redundanten Server Nodes
- Hohe Skalierbarkeit inkl. Load Balancing
- Direkter Lese- und Schreibzugriff auf Tape, keine Disk Caches erforderlich
- S3 und S3 Glacier Kompatibilität inkl. Lifecycle Policies
- Unterstützung von LTO und 3592 Tape-Laufwerken
- Erasure Coding auf Tape
- Object Versioning
- Datensicherheit durch Object Locking, Authentifizierung und Verschlüsselung
IBM Storage Ceph Object Storage
Überblick und Funktionen
IBM Storage Ceph ist eine Software-definierte Speicherlösung der Enterprise-Klasse, die für datenintensive Anwendungen besonders in der Hybrid-Cloud entwickelt wurde. Mit IBM Storage Ceph können Unternehmen ihre Infrastruktur modernisieren und die Kosten durch flexible Bereitstellung im Rechenzentrum oder als Service senken.
Ceph bietet eine einheitliche und effiziente Speicherplattform für Objekt-, Block- und Dateispeicher, mit Enterprise-Support und -Services, zertifizierten Updates und Service Level Agreements für Produktionsumgebungen.
IBM Storage Ceph kann auf branchenüblicher x86-Serverhardware des bevorzugten Hardwareanbieters installiert und betrieben werden.
Schlüsselfunktionen:
- Enterprise Ready: Robuster, skalierbarer und weit verbreiteter S3-Endpoint, der einen Objektspeicher mit niedriger Latenz und hoher Leistung für Unternehmen bereitstellt.
- S3 & IAM Kompatibilität: Nahezu vollständige Kompatibilität mit Amazon S3 und IAM. Kontinuierliche Erweiterung der Anzahl unterstützter S3 APIs.
- Einfaches Deployment: Stellen Sie den Objektspeicherdienst und die Multi-Site-Replikation in wenigen Minuten über die Benutzeroberfläche oder CLI bereit. Day-two Admin Operations API für die Automatisierung.
- Sicherheits-, Compliance- und Audit-Funktionen: Verschlüsselung, STS, Object Lock, Public Access Block, MFA Delete, IAM Policy (Bucket, User, Session, Role).
- Skalierbarkeit und Wachstumspotenzial: Unbegrenzte Kapazität. Horizontale Skalierung auf Petabyte- und Exabyte-Ebene. Flexibles Wachstum, Hinzufügen von Speicherknoten ohne Ausfallzeiten.
IBM Storage Ceph Object Tiering Funktionen
Ceph bietet Funktionen für das Object Storage Tiering, um durch das nahtlose Verschieben von Daten zwischen den Speicherklassen sowohl die Kosten als auch die Performance zu optimieren.
Diese Tiers können lokal innerhalb einer on-prem Infrastruktur konfiguriert werden. Sie können ebenso um Cloud-basierte Speicherklassen erweitert werden, um eine flexible und skalierbare Lösung für unterschiedliche Workloads bereit zu stellen. Administratoren bestimmen Lifecycle Policies für die regelbasierte Automatisierung, um Daten zwischen hochperformanten Speichersystemen und kosteneffizienten Archive Tiers zu verschieben und so ein Gleichgewicht von Geschwindigkeit, Haltbarkeit und Kosteneffizienz zu gewährleisten.
Vorteile der Integration von PoINT Archival Gateway mit IBM Storage Ceph Object Storage
PAG ermöglicht die homogene Integration einer Tape-Speicherklasse in einen Ceph Cluster. So kann eine Multi-Tier-Konfiguration mit Tape als Active Archive Tier umgesetzt werden. Ceph unterstützt die Funktionalitäten für die regelbasierte Datenarchivierung und Wiederherstellung, um PAG als S3 Tape Endpoint für die langfristige Datenspeicherung, zu Disaster Recovery Zwecken oder als kostenoptimierten Cold Storage zu integrieren. Durch die Nutzung regelbasierter Automatisierung gewährleistet Ceph den Datentransfer zu PAG und damit auch auf Tape, entsprechend der zuvor definierten Lifecycle Policies. PAG ermöglicht die effiziente Integration von Tape in Ceph, da keine zusätzliche Disk-Speicherklasse benötigt wird.
Vorteile der Kombination von Ceph und PAG:
- Kostenoptimierung durch Tiering kalter Daten auf Tape
- Geringer Energieverbrauch dank energieeffizienter Tape-Technologie
- Direkte Tape-Integration ohne zusätzliche Disk-Speicherklasse
- Erfüllung von Archivierungs- und Compliance-Anforderungen
- Schutz vor Cybercrime durch “Air Gap” der Tape-Medien
- Optimierte Datenspeicherung zum Ausgleich von Geschwindigkeit, Haltbarkeit und Kosteneffizienz
- Unabhängigkeit vom Tape-Hersteller
Workflow der Integration von PAG und IBM Storage Ceph
- Ceph Administrator richtet eine Cloud Tier (Tape) Speicherklasse ein
Mithilfe der CLI oder einer Operations-API konfiguriert der Ceph Administrator ein Storage Tier, um Objekte zum S3 Tape Endpoint PoINT Archival Gateway zu verschieben. - End User erstellt Objekte in einem Ceph Bucket
Ein End User (oder eine Anwendung) lädt Objekte (z.B. JPG-Dateien) über die standardisierte S3 API in einen „User Data Bucket“ hoch, der von Ceph Object verwaltet wird. Zunächst verbleiben die neu erstellten Objekte in dem konfigurierten „heißen“ bzw. Standard-Tier. - Lifecycle Policy regelt Tiering
Für den User Bucket wird eine Lifecycle Policy definiert; so kann beispielsweise festgelegt werden, dass Objekte, die älter sind als 365 Tage, zur Langzeitspeicherung auf das kostengünstigere Storage Tier (Tape) verschoben werden. - Automatische Archivierung auf Tape
Sobald ein Objekt aufgrund seines Alters unter die Policy fällt (also nach 365 Tagen), verschiebt Ceph es automatisch über PAG auf das Tape Tier. - Langfristige Speicherung und Wiederherstellung
Nach der Archivierung speichert PAG die Objekte auf Tape-Medien. In den Ceph Metadaten werden die Objekte weiterhin referenziert. Später können sie über denselben S3 Ceph Endpoint, das PAG Tape Tier, wiederhergestellt werden.

Mit der Version 8.0 von IBM Storage Ceph wurde mit der regelbasierten Datenwiederherstellung eine signifikante Weiterentwicklung der Funktionalität vorgestellt. Sie ist nun als Tech Preview verfügbar. Durch diese Verbesserung können Nutzer archivierte Objekte von S3 Tape Endpoints (wie z.B. PAG) direkt in ihrer on-prem Ceph Umgebung wiederherstellen.
Daten können als temporäre oder dauerhafte Objekte wiederhergestellt werden:
- Temporäre Wiederherstellung: Die wiederhergestellten Daten unterliegen nicht den Lifecycle Policies für das Tiering in die Cloud, sondern werden nach der angegebenen Zeitspanne automatisch gelöscht. Das Objekt wird in seinen vorherigen Stub-Zustand zurückversetzt.
- Dauerhafte Wiederherstellung: Mit der dauerhaften Wiederherstellung werden Objekte wieder vollständig in das Ceph Cluster integriert und wie reguläre Objekte behandelt. Sie unterliegen den Standard Lifecycle Policies und Replikationsprozessen.
Die Objektwiederherstellung kann auf zwei Arten durchgeführt werden:
- Mithilfe des S3 RestoreObject API Befehls können Nutzer Objekte vom Remote S3 Endpoint wiederherstellen.
- Das Read-through Object Retrieval ermöglicht Standard S3 GET Befehle für verschobene Objekte, um sie transparent auf dem Ceph Cluster wiederherzustellen.

Anwendungsfälle für die regelbasierte Archivierung und Wiederherstellung auf und von Tape
Erfüllung langfristiger Archivierungs- und Compliance-Vorgaben
- Anforderungen für Auditing & Retention: In vielen Branchen (Finanzwesen, Gesundheitswesen, Regierung usw.) müssen Daten für bestimmte, festgelegte Zeiträume gespeichert werden. Die Datenspeicherung auf Tape durch PoINT Archival Gateway gewährleistet die sichere und kosteneffiziente Aufbewahrung zur Erfüllung von Compliance-Vorgaben.
Archivierung in der Medien- und Unterhaltungsbranche
- Medienarchive mit großen Datenvolumen: Medienstudios, Sendeanstalten und Content-Entwickler können selten genutzte Inhalte wie Rohmaterial oder archivierte Episoden nahtlos auf Tape speichern.
- On-Demand-Wiederherstellung: Produzenten oder Redakteure können Inhalte (auch teilweise) bequem von Tape auf den lokalen Ceph-Speicher wiederherstellen, um sie zu bearbeiten oder zu verteilen.
Forschung und HPC
- Große Datenbestände: Forschungseinrichtungen generieren große Datenvolumen, die langfristig archiviert werden müssen. Dabei muss zu Analysezwecken der Zugriff auf archivierte Daten gewährleistet bleiben.
- Policy‐gesteuerte Workflows: Mit Hilfe der Lifecycle Policies, die Ceph bereitstellt, können aktive Forschungsdaten auf schnellen Festplatten verbleiben, während inaktive Daten aus abgeschlossenen Experimenten auf Tape verschoben werden. So können die Speicherkosten reduziert werden.
Cybersecurity & Schutz vor Ransomware
- Schutz durch Air‐Gap: Tape-Medien stellen eine Offline-Speicherschicht bereit und reduzieren dadurch die Angriffsfläche für böswillige Verschlüsselung oder Löschung von Daten.
- Immutable Backups: Regelbasierte Aufbewahrungsfristen in Kombination mit Verschlüsselung und den Offline-Fähigkeiten von Tape schützen wichtige Daten vor Cyberbedrohungen.
Strategien für Multi Cloud & Hybrid Cloud
- Einheitliche S3-Schnittstelle: Unternehmen können Tape, Public Clouds oder on-prem Ceph-Speicherpools nutzen und dabei dieselben S3 APIs und Lifecycle Policies verwenden. Dies vereinfacht den hybriden Datenfluss.
- On‐Demand Wiederherstellung: Dank des gleichbleibenden S3 Zugangsschemas können auf Tape archivierte Daten nach Bedarf wiederhergestellt werden, ohne die Logik der Anwendung anzupassen.
Erhöhung von Datensicherheit und Performance durch Erasure Coding auf Tape
Die Sicherheit der Daten auf den Tape-Medien wird durch Erasure Coding gewährleistet. Dabei werden Datenblöcke redundant auf mehreren Medien gespeichert. Im Falle der Beschädigung eines Mediums sind die Daten nicht verloren. PoINT Archival Gateway unterstützt die Erasure Code (EC) Raten 1/2, 1/3, 1/4, 2/3, 2/4 und 3/4. Mit dem Einsatz von Erasure Coding werden Datensicherheit und Redundanz weiter erhöht, z.B. durch den parallelen Einsatz von zwei, drei oder vier Tapes in der Tape-Speicherklasse. Diese Kombination mehrerer Medien ist ein sogenanntes Protected Volume Array. Ein Protected Volume Array, das aus N Tape-Medien besteht, kann sich auch über N Tape Libraries erstrecken. Die EC-Raten 1/2, 1/3, 1/4 verweisen auf die automatische Erstellung von Kopien. Für die Tape-Speicherklasse heißt das, dass mehrere Tape-Kopien erstellt werden können (auch in unterschiedlichen Líbraries). Die Durchsatzraten können mit EC-Raten, die Daten über mehrere Medien verteilen, erheblich erhöht werden (EC 2/3, 2/4, and 3/4).

Werden EC-Raten genutzt, die die Daten auf mehreren Medien verteilen (EC 2/3, 2/4, and 3/4), so erhöht sich nicht nur die Durchsatzrate signifikant, sondern auch die Redundanz.
Leitfaden für die Implementierung (Praktischer Teil)
Installation von PoINT Archival Gateway auf RHEL 9.3
In der Enterprise Edition kann PoINT Archival Gateway (PAG) auf mehreren Servern installiert werden (Multi-Node Installation); in der Compact Edition wird PAG auf einem Server installiert. Der folgende Abschnitt beschreibt die Implementierung der Compact Edition.
Um die PAG Compact Edition auf RHEL 9.3 zu installieren, muss zunächst der Installations-tarball auf den Server kopiert und entpackt werden. Nach dem Entpacken müssen alle erforderlichen .NET-Laufzeiten installiert und die systemd-Dienste konfiguriert werden, damit PAG im Hintergrund laufen kann.
Beispiel:

Nach der Installation der Dateien und Abhängigkeiten müssen die PAG-Konfigurationsdateien aktualisiert werden, damit sie die richtigen IP-Adressen, Ports und Lizenzschlüssel enthalten. Die wichtigsten Änderungen erfolgen in der Regel in /etc/opt/PoINT/PAG/CGN/pag-cgn.conf für die S3 REST API und in /etc/opt/PoINT/PAG/GUI/pag-gui.conf für die administrative GUI. Eine Bearbeitung könnte beispielsweise so aussehen:
Auch die Bearbeitung der GUI-Konfigurationsdatei kann ähnliche IP-Aktualisierungen erforderlich machen:
Sobald die Konfigurationen vorliegen, können die Dienste aktiviert und gestartet werden:
Nach der Bestätigung, dass alles läuft, können Sie über HTTPS mit der konfigurierten IP-Adresse und dem Port auf die PAG-GUI zugreifen. Sie können sich dann mit den Standard-Admin-Zugangsdaten anmelden, Ihren Lizenzschlüssel eingeben und die Software über den Abschnitt „System Management“ → „Information“ in der PAG-GUI aktivieren.
Nach abgeschlossener Lizenzierung wird durch das Anlegen einer Partition und eines Object Repository in der PAG-Oberfläche das Backend für die Speicherung von Objekten auf Tape vorbereitet.
Unter dem Menüpunkt “Storage Management” → “Storage Partitions” erhalten Sie eine Übersicht über alle angelegten Speicherpartitionen:

Um eine neue Speicherpartition zu erstellen, klicken Sie auf „Create Partition” und füllen Sie den folgenden Dialog aus:

Unter dem Menüpunkt „Storage Management“ → „Object Repositories“ erhalten Sie eine Übersicht über alle angelegten Object Repositories (Buckets):

Um ein neues Object Repository (Bucket) zu erstellen, klicken Sie auf „Create Object Repository“ und füllen den folgenden Dialog aus:

Die Einrichtung eines Benutzers mit HMAC-Anmeldeinformationen ermöglicht Ceph die Authentifizierung gegenüber dem S3-Endpoint von PAG.

Zur Integration von PAG als Speicherklasse in Ceph RGW gehört die Konfiguration einer Cloud-Tier-Platzierung für Tape mithilfe der Standard-Ceph-CLI. Das Hinzufügen einer neuen „point-tape“ Speicherklasse zur Standardplatzierung sieht wie folgt aus:
Eine vollständige Beschreibung aller verfügbaren Konfigurationsparameter finden Sie unter diesem Link. Mit dem folgenden Befehl können wir unsere neue Zonengruppen-Platzierungskonfiguration auflisten:
HINWEIS: Wenn Sie keine vorherige Multisite-Konfiguration vorgenommen haben, werden eine Standardzone und -Zonengruppe für Sie erstellt. Die Änderungen an der Zone/Zonengruppe werden erst nach einem Neustart des Ceph Object Gateways wirksam. Wenn Sie einen Realm für Multisite erstellt haben, werden die Änderungen an der Zone/Zonengruppe wirksam, sobald die Änderungen mit ‚radosgw-admin period update –commit‘ bestätigt wurden.
Danach folgt die Erstellung eines Buckets und die Zuweisung einer Lifecycle Policy. Mit dieser Policy werden Objekte nach einer bestimmten Anzahl von Tagen automatisch vom STANDARD-Tier auf ‚point-tape‘ umgestellt:
Zunächst erstellen wir einen Bucket namens ‚dataset‘:
Der Inhalt von point-tape-lc.json könnte folgendermaßen aussehen:
Um die Lifecycle Konfiguration auf den Bucket „Dataset“ anzuwenden, können Sie sie über die AWS Cli anwenden:
Beim Testen des integrierten Setups wird auch überprüft, ob neu hochgeladene Objekte gemäß den Lifecycle Policies in das PAG Tape Tier übergehen. Das Hochladen einer Datei in den Bucket und die Bestätigung geschehen mit:
Der Ceph-Lifecycle-Daemon wird in geplanten Intervallen ausgeführt. Nach dem Abschluss können Sie überprüfen, ob die Objekte erfolgreich migriert wurden. Die Größe des Objekts im Ceph-Bucket ist jetzt 0, da nur die Stub-Datei im lokalen Ceph-Cluster verbleibt; die „StorageClass“ ist „point-tape“:
In der Ausgabe sollte „StorageClass“ für Objekte, die auf zum PAG Tier migriert wurden, in „point-tape“ geändert werden. Die Validierung der tatsächlichen Daten im PAG Backend erfolgt durch Abfrage des Bucket-Pfads in PAG über dessen S3 REST API:
Der Workflow zum Abrufen von Objekten kann dann durch Anstoßen eines Restore getestet werden. Ein Restore Request kann mit dem API-Call restore-object gestellt werden. Wir werden zunächst mit einer temporären Wiederherstellung testen; das Objekt wird in unserem Ceph Cluster für drei Tage verfügbar sein, das Ablaufdatum für das Objekt ist Teil der Metadaten des wiederhergestellten Objekts:
Sie können später bestätigen, dass das wiederhergestellte Objekt in Ceph zugänglich und aufgelistet ist. Da es sich um eine temporäre Wiederherstellung handelt, wird die Speicherklasse nicht geändert, sondern bleibt „point-tape“. Das Objekt ist weder den Lifecycle Policies noch der Multisite Replikation unterworfen:
Wird im Restore Request keine Anzahl an Tagen angegeben, wird das Objekt dauerhaft wiederhergestellt werden. Hier ein Beispiel: Wir laden eine neue Datei in unseren „Datensatz“-Bucket hoch:
Sobald die Lifecycle Policy greift, wird das Objekt auf Tape verschoben. Dies wird aus der Storage Class Ausgabe des Head Object Call ersichtlich:
Ich werde nun den API-Aufruf „RestoreObject“ verwenden, ohne die Anzahl der Tage im Feld „restore-request“ anzugeben, damit die Wiederherstellung dauerhaft ist:
Wir sehen, dass die Speicherklasse aufgrund der permanenten Wiederherstellung wieder auf „STANDARD“ zurückgesetzt wurde; die Wiederherstellung hat kein Ablaufdatum:
Fazit
Mit dem oben beschriebenen Ansatz können Sie den PoINT Archival Gateway effektiv implementieren, ihn als neues Tape Tier in IBM Storage Ceph integrieren und den gesamten Lifecycle Workflow validieren – vom Hochladen und der automatischen Migration bis hin zur Wiederherstellung und Überprüfung. Diese kombinierte Lösung senkt die Speicherkosten, verbessert Datensicherheit und Compliance und bietet On-Premises-Tape-Funktionen über die standardisierte S3 Schnittstelle.