Datenreduktion

IONOS Redaktion10.01.20244 mins

Inhaltsverzeichnis

Mit dem Begriff Datenreduktion sind Methoden gemeint, mit deren Hilfe die physisch zu speichernde Datenmenge reduziert werden kann. Auf diese Weise werden Speicherplatz und Kosten eingespart.

Was versteht man unter Datenreduktion?

Unter dem Begriff Datenreduktion werden verschiedene Verfahren der Kapazitätsoptimierung zusammengefasst. Diese haben zum Ziel, die zu speichernde Datenmenge zu reduzieren. Angesichts weltweit steigender Datenmengen ist eine solche Reduktion erforderlich, um eine ressourcen- und kosteneffiziente Speicherung der Daten zu gewährleisten.

Man unterscheidet verschiedene Ansätze bei der Datenreduktion: Datenkompression und Deduplikation. Während die verlustfreie Kompression Redundanzen innerhalb einer Datei nutzt, um Daten zu verdichten, gleichen Deduplikations-Algorithmen Daten dateiübergreifend ab, um Wiederholungen zu vermeiden.

Deduplikation

Bei Deduplikation handelt es sich um einen Prozess der Datenreduktion, der im Wesentlichen auf einer Vermeidung von Datenredundanz auf einem Speichersystem beruht. Er lässt sich entweder am Speicherziel oder an der Datenquelle realisieren. Dabei kommt eine Deduplikations-Engine zum Einsatz, die sich spezieller Algorithmen bedient, um redundante Dateien oder Datenblöcke zu identifizieren und zu eliminieren. Zentrales Anwendungsgebiet der Deduplikation ist die Datensicherung.

Die Datenreduktion mithilfe von Deduplikation verfolgt das Ziel, lediglich so viele Informationen auf einen nichtflüchtigen Datenträger zu schreiben, wie nötig sind, um eine Datei verlustfrei rekonstruieren zu können. Je mehr Duplikate entfernt werden, desto kleiner wird die Datenmenge, die gespeichert oder übertragen werden muss.

Die Identifikation von Duplikaten kann wie beispielsweise bei Git oder Dropbox auf Datei-Ebene erfolgen, effizienter jedoch sind Deduplikations-Algorithmen, die auf der Sub-Datei-Ebene arbeiten. Dazu werden Dateien zunächst in Datenblöcke (Chunks) zerlegt und mit eindeutigen Prüfsummen, sogenannten Hashwerten, versehen. Als zentrale Kontrollinstanz dient eine Tracking-Datenbank, die sämtliche Prüfsummen beinhaltet.

Man kann zwei Varianten der blockbasierten Deduplikation unterscheiden:

Feste Blocklänge: Dateien werden in Abschnitte mit exakt gleicher Länge unterteilt, die sich an der Clustergröße des Datei- oder RAID-Systems (typischerweise 4 KB) orientiert.
Variable Blocklänge: Der Algorithmus teilt die Daten in unterschiedliche Blöcke auf, deren Länge je nach Art der zu verarbeitenden Daten variiert.

Die Art der Blockeinteilung hat einen gravierenden Einfluss auf die Effizienz der Datendeduplikation. Vor allem bei der nachträglichen Veränderung deduplizierter Dateien wird dies deutlich: Bei der Nutzung fester Blockgrößen werden bei Änderung einer Datei auch alle nachfolgenden Segmente aufgrund der Verschiebung der Blockgrenzen vom Deduplikations-Algorithmus als neu eingestuft. Dies erhöht den Rechenaufwand sowie die Auslastung der Bandbreite.

Nutzt ein Algorithmus hingegen variable Blockgrenzen, wirken sich die Veränderungen eines einzelnen Datenblocks nicht auf die angrenzenden Segmente aus. Stattdessen wird lediglich der veränderte Datenblock um die neuen Bytes erweitert und gespeichert. Dies entlastet das Netzwerk. Die Flexibilität in Bezug auf Dateiänderungen ist jedoch rechenintensiver, da ein Algorithmus erst einmal herausfinden muss, wie die Chunks aufgeteilt sind.

Cloud Backup powered by Acronis

Minimieren Sie Ausfallzeiten mit unserem Komplettschutz

Automatisch: Backups und Recovery
Intuitiv: Planung und Management
Intelligent: KI-basierter Bedrohungsschutz
Inkl. 300,- € Startguthaben im 1. Monat

Datenkompression

Bei der Datenkompression werden Dateien in eine alternative Darstellung überführt, die effizienter ist als die ursprüngliche. Ziel dieser Datenreduktion ist es, sowohl den benötigten Speicherplatz als auch die Übertragungszeit zu verringern. Solch ein Codiergewinn lässt sich durch zwei unterschiedliche Ansätze erreichen:

Redundanz-Kompression: Bei einer verlustfreien Datenkompression lassen sich Daten auch nach der Kompression wieder bitgenau dekomprimieren. Eingangs- und Ausgangsdaten sind somit identisch. Eine solche Redundanz-Kompression ist nur möglich, wenn eine Datei redundante Informationen beinhaltet.
Irrelevanz-Kompression: Bei einer verlustbehafteten Kompression werden irrelevante Informationen entfernt, um eine Datei zu komprimieren. Dies geht in jedem Fall mit einem Datenverlust einher. Die Ursprungsdaten lassen sich nach einer Irrelevanz-Kompression daher nur noch annähernd wiederherstellen. Welche Daten als irrelevant eingestuft werden, ist Ermessenssache. Bei einer MP3-Audiokompression werden beispielsweise Frequenzmuster entfernt, von denen angenommen wird, dass Menschen diese kaum oder gar nicht hören.

Während Kompression auf der Ebene von Speichersystemen grundsätzlich verlustfrei erfolgt, werden Datenverluste in anderen Bereichen wie der Bild-, Video- und Audio-Übertragung bewusst in Kauf genommen, um eine Reduktion der Dateigröße zu erzielen.

Sowohl die Codierung als auch die Decodierung einer Datei erfordert Berechnungsaufwand. Dieser hängt in erster Linie von der verwendeten Kompressionsmethode ab. Während einige Techniken auf eine möglichst kompakte Darstellung der Ausgangsdaten ausgelegt sind, steht bei anderen eine Reduktion der benötigten Rechenzeit im Mittelpunkt. Die Wahl der Kompressionsmethode richtet sich daher immer nach den Anforderungen des Einsatzgebiets.

Verschiedene Möglichkeiten zur Datenreduktion im Vergleich

Um Backup-Prozeduren zu realisieren oder die Ablage in Standard-Dateisystemen zu optimieren, setzen Unternehmen in der Regel auf Deduplikation. Dies liegt vor allem daran, dass Deduplikations-Systeme extrem effizient arbeiten, wenn identische Dateien abgelegt werden sollen.

Datenkompressionsverfahren hingegen sind in der Regel mit einem höheren Rechenaufwand verbunden und benötigen daher aufwendigere Plattformen. Am effektivsten lassen sich Speichersysteme mit einer Kombination beider Datenreduktionsverfahren nutzen. Dabei werden Redundanzen aus den zu speichernden Dateien zunächst durch Deduplikation entfernt und die verbliebenen Daten anschließend komprimiert.

War dieser Artikel hilfreich?

Load Balancing

Die Verfügbarkeit von Unternehmenswebseiten, Onlineshops und Informationsportalen ist für den Geschäftserfolg der Betreiber maßgeblich entscheidend. Immer mehr Unternehmen setzen daher auf Load Balancer, um Serveranfragen durch Internetnutzer gleichmäßig auf mehrere Rechner zu…

Lexikon

Datensicherung von Datenbanken

Das Erstellen von Backups ist eine beliebte Möglichkeit, um für die Sicherung von Datenbanken zu sorgen. Um solche Sicherheitskopien zu erstellen, bedarf es allerdings zusätzlicher Hardware und der Einrichtung passender Backup-Strukturen. Wie sichern Sie das eigene Netzwerk bzw.…

Datenbank
PHP
MySQL

Server-Backups mit rsync erstellen

Ein Server-Backup ist das beste Mittel, um wichtige Daten Ihres Onlineprojekts zu sichern und einem Datenverlust vorzubeugen. Gerade in Server-Umgebungen ist eine ausgeklügelte Backup-Strategie angebracht, die alle Endgeräte berücksichtigt. Wenn Sie mit Linux arbeiten, sind…

Datenbank
Linux
Windows

RAID-Level: Die wichtigsten RAID-Ansätze im Vergleich

Wer Festplatten in einem RAID zusammenschließen möchte, kann dabei aus einer Reihe von Standard-Setups wählen, die man auch als RAID-Level bezeichnet. Diese vordefinierten Konstellationen beschreiben die Anordnung der einzelnen Platten sowie die zu verwendenden Verfahren bei der…

Datenschutz
Sicherheit

UndreyShutterstock

.tar-Dateierweiterung: So entpacken Sie .tar-Dateien

Es hat viele Vorteile, größere Dateien mit .tar zu verpacken. Das Format funktioniert auf allen gängigen Betriebssystemen und ermöglicht eine sehr platzsparende Speicherung großer Daten und Datenmengen. Hier erklären wir Ihnen, was es mit dem Format auf sich hat, wie eine…

Tutorials