Datenreduktion

Mit dem Begriff Datenreduktion sind Methoden gemeint, mit deren Hilfe die physisch zu speichernde Datenmenge reduziert werden kann. Auf diese Weise werden Speicherplatz und Kosten eingespart.

Was versteht man unter Datenreduktion?

Unter dem Begriff Datenreduktion werden verschiedene Verfahren der Kapazitätsoptimierung zusammengefasst. Diese haben zum Ziel, die zu speichernde Datenmenge zu reduzieren. Angesichts weltweit steigender Datenmengen ist eine solche Reduktion erforderlich, um eine ressourcen- und kosteneffiziente Speicherung der Daten zu gewährleisten.

Man unterscheidet verschiedene Ansätze bei der Datenreduktion: Datenkompression und Deduplikation. Während die verlustfreie Kompression Redundanzen innerhalb einer Datei nutzt, um Daten zu verdichten, gleichen Deduplikations-Algorithmen Daten dateiübergreifend ab, um Wiederholungen zu vermeiden.

Deduplikation

Bei Deduplikation handelt es sich um einen Prozess der Datenreduktion, der im Wesentlichen auf einer Vermeidung von Datenredundanz auf einem Speichersystem beruht. Er lässt sich entweder am Speicherziel oder an der Datenquelle realisieren. Dabei kommt eine Deduplikations-Engine zum Einsatz, die sich spezieller Algorithmen bedient, um redundante Dateien oder Datenblöcke zu identifizieren und zu eliminieren. Zentrales Anwendungsgebiet der Deduplikation ist die Datensicherung.

Die Datenreduktion mithilfe von Deduplikation verfolgt das Ziel, lediglich so viele Informationen auf einen nichtflüchtigen Datenträger zu schreiben, wie nötig sind, um eine Datei verlustfrei rekonstruieren zu können. Je mehr Duplikate entfernt werden, desto kleiner wird die Datenmenge, die gespeichert oder übertragen werden muss.

Die Identifikation von Duplikaten kann wie beispielsweise bei Git oder Dropbox auf Datei-Ebene erfolgen, effizienter jedoch sind Deduplikations-Algorithmen, die auf der Sub-Datei-Ebene arbeiten. Dazu werden Dateien zunächst in Datenblöcke (Chunks) zerlegt und mit eindeutigen Prüfsummen, sogenannten Hashwerten, versehen. Als zentrale Kontrollinstanz dient eine Tracking-Datenbank, die sämtliche Prüfsummen beinhaltet.

Man kann zwei Varianten der blockbasierten Deduplikation unterscheiden:

  • Feste Blocklänge: Dateien werden in Abschnitte mit exakt gleicher Länge unterteilt, die sich an der Clustergröße des Datei- oder RAID-Systems (typischerweise 4 KB) orientiert.
  • Variable Blocklänge: Der Algorithmus teilt die Daten in unterschiedliche Blöcke auf, deren Länge je nach Art der zu verarbeitenden Daten variiert.

Die Art der Blockeinteilung hat einen gravierenden Einfluss auf die Effizienz der Datendeduplikation. Vor allem bei der nachträglichen Veränderung deduplizierter Dateien wird dies deutlich: Bei der Nutzung fester Blockgrößen werden bei Änderung einer Datei auch alle nachfolgenden Segmente aufgrund der Verschiebung der Blockgrenzen vom Deduplikations-Algorithmus als neu eingestuft. Dies erhöht den Rechenaufwand sowie die Auslastung der Bandbreite.

Nutzt ein Algorithmus hingegen variable Blockgrenzen, wirken sich die Veränderungen eines einzelnen Datenblocks nicht auf die angrenzenden Segmente aus. Stattdessen wird lediglich der veränderte Datenblock um die neuen Bytes erweitert und gespeichert. Dies entlastet das Netzwerk. Die Flexibilität in Bezug auf Dateiänderungen ist jedoch rechenintensiver, da ein Algorithmus erst einmal herausfinden muss, wie die Chunks aufgeteilt sind.

Cloud Backup von IONOS

Maximaler Schutz für Ihre Unternehmensdaten: Einfache Backups für Cloud-Infrastruktur, PCs und Smartphones, inklusive persönlichem Berater!

Umfassender Schutz
Einfache Wiederherstellung
Schnelle Datenspeicherung

Datenkompression

Bei der Datenkompression werden Dateien in eine alternative Darstellung überführt, die effizienter ist als die ursprüngliche. Ziel dieser Datenreduktion ist es, sowohl den benötigten Speicherplatz als auch die Übertragungszeit zu verringern. Solch ein Codiergewinn lässt sich durch zwei unterschiedliche Ansätze erreichen:

  • Redundanz-Kompression: Bei einer verlustfreien Datenkompression lassen sich Daten auch nach der Kompression wieder bitgenau dekomprimieren. Eingangs- und Ausgangsdaten sind somit identisch. Eine solche Redundanz-Kompression ist nur möglich, wenn eine Datei redundante Informationen beinhaltet.
  • Irrelevanz-Kompression: Bei einer verlustbehafteten Kompression werden irrelevante Informationen entfernt, um eine Datei zu komprimieren. Dies geht in jedem Fall mit einem Datenverlust einher. Die Ursprungsdaten lassen sich nach einer Irrelevanz-Kompression daher nur noch annähernd wiederherstellen. Welche Daten als irrelevant eingestuft werden, ist Ermessenssache. Bei einer MP3-Audiokompression werden beispielsweise Frequenzmuster entfernt, von denen angenommen wird, dass Menschen diese kaum oder gar nicht hören.

Während Kompression auf der Ebene von Speichersystemen grundsätzlich verlustfrei erfolgt, werden Datenverluste in anderen Bereichen wie der Bild-, Video- und Audio-Übertragung bewusst in Kauf genommen, um eine Reduktion der Dateigröße zu erzielen.

Sowohl die Codierung als auch die Decodierung einer Datei erfordert Berechnungsaufwand. Dieser hängt in erster Linie von der verwendeten Kompressionsmethode ab. Während einige Techniken auf eine möglichst kompakte Darstellung der Ausgangsdaten ausgelegt sind, steht bei anderen eine Reduktion der benötigten Rechenzeit im Mittelpunkt. Die Wahl der Kompressionsmethode richtet sich daher immer nach den Anforderungen des Einsatzgebiets.

Verschiedene Möglichkeiten zur Datenreduktion im Vergleich

Um Backup-Prozeduren zu realisieren oder die Ablage in Standard-Dateisystemen zu optimieren, setzen Unternehmen in der Regel auf Deduplikation. Dies liegt vor allem daran, dass Deduplikations-Systeme extrem effizient arbeiten, wenn identische Dateien abgelegt werden sollen.

Datenkompressionsverfahren hingegen sind in der Regel mit einem höheren Rechenaufwand verbunden und benötigen daher aufwendigere Plattformen. Am effektivsten lassen sich Speichersysteme mit einer Kombination beider Datenreduktionsverfahren nutzen. Dabei werden Redundanzen aus den zu speichernden Dateien zunächst durch Deduplikation entfernt und die verbliebenen Daten anschließend komprimiert.