Was ist de-dublication oder Deduplikation?

Artikelbild Technik

Auf Grund meiner Arbeit habe ich mit Storage Systemen bei Pure Storage zu tun und finde dort sehr häufig den Begriff Deduplikation oder englisch de-dublication. Was sich dahinter verbirgt und was dies ist und bedeutet, versuche ich euch im folgenden Artikel näher zu bringen.

Was ist Deduplikation?

Mit einfachen Worten ist Deduplikation, die Prüfung ob es mehrfach den gleichen Datensatz gibt. Oder in der Fachsprache der Prozess der die Identifizierung von redundanten Datensätzen oder auch Duplikatserkennung und deren Eliminierung. Meist wird dies im flüchtigen Speicher gemacht, bevor die Daten dann auf nichtflüchtigem Speicher geschrieben werden. Es wurde entwickelt, um Duplikate zu vermeiden, sprich die zu speichernde Datei, wurde mit einer Kontrollsumme versehen, an Hand dieser wurden Duplikate entdeckt und an die zu speichernde Datei wurde entsprechende Verweise angehangen. Hierbei geht es um die effektive Speichernutzung und Speicherplatzersparnis. Wobei hier die Technik und die Verfahren mittlerweile so weit sind, dass Datei in verschiedene Abschnitte zerlegt werden und diese verglichen werden, ob es von den Abschnitten Duplikate gibt. Solche Duplikate werden dann eliminiert und der originale Abschnitt bekommt dafür wieder einen Verweis.

Hierbei sind zwei Methoden im Einsatz, die Post-Processing und die Inline Methode. Der grobe Unterschied ist, dass Post-Processing nach dem speichern auf Duplikate auf dem gesamten Speichersystem sucht. Der Hauptnachteil hier ist, dass auf dem Array immer Speicherplatz reserviert sein muss auch für nicht redundante Datei, bis die Deduplikation durchgeführt wird. Sollte es allerdings sehr hohe Schreibraten in Verbindung mit Deduplikationen geben, kann allerdings auch der Speicher relativ schnell überlaufen. Die zweite Methode ist die Inline Methode, hierbei wird hierbei werden die Informationen der Deduplikationen im Dateipfad dedubliziert, also bevor sie auf das System geschrieben wird. Dabei muss dann hier kein Platz für nicht zu de-duplizierende Daten vorbehalten werden, sondern diese können gleich auf die Platte gespeichert werden.

Wo wird Deduplikation eingesetzt?

Die Deduplikation wird meist in SAN und NAS eingesetzt, da hier meist die Massenspeicherung von Daten vorgenommen wird. Allerdings haben Unternehmen oft auch Zweigstellen, wo die Daten dann zwecks Backup an die Zentrale geschickt werden. Wenn man diese Daten jedoch nicht schon in der Zweigstelle de-dupliziert oder verkleinert, wird eine hohe Bandbreite und entsprechend Zeit benötigt, bis die Daten die Hauptstelle erreichen. Dies kann realisiert werden durch entsprechende Funktionen auf den Arrays in der Aussenstellen oder aber es werden die entsprechenden Storage Systeme in einer kleineren Ausführung in der Außenstelle aufgebaut. Durch den Versand der nun de-duplizierten Daten, spart man einerseits Bandbreite und damit Übertragungszeit und auch Platz auf dem Hauptspeicher. Wenn man dies noch effektiver gestalten will, macht man auf dem Hauptspeicher oder Backupsystem noch einmal einen Vergleich der Daten und führt ggf. eine weitere Deduplikation durch.

Wo mach Deduplikation Sinn, bringt aber eventuell nicht den erhofften Erfolg oder Effekt?

Deduplikation oder das verhindern von Redundanzen macht dann Sinn, wenn Speicherplatz gespart werden soll und muss. Allerdings kann es Probleme bei Storage Systemen die auf Standardfestplatten aufgebaut sind. Denn sobald sich die Daten in verschiedenen Luns befinden, können diese nicht mehr lunübergreifend geprüft werden. Daher kommt man in solchen Fällen immer gut auch einen Blick in All Flash Arrays zu werfen und einen Return Of Investment zu machen. Meist ist zwar die Investition in ein All Flash Array im ersten teuerer, da diese Speicher im Normalfall mehr Geld kosten. Allerdings, wenn man auf den Stromverbrauch, die Kühlungskosten und auch auf den Administrationsaufwand schaut, wird man je nach Storage Größe feststellen, dass man durch diesen Einsatz bei Berücksichtigung der normalen Lebensdauer eines Storage Systems wiederum günstiger kommt.

Wo macht Deduplikation Sinn?

Wo Deduplikation Sinn macht oder machte ist mit relativ wenigen Worten gesagt. Überall dort, wo es um große Datenmengen geht oder aber auch dort, wo man durch Deduplizierung die Anschaffung eines größeren Arrays / Storage Systems einspart. Denn damit spart man wieder Platz, Stromverbrauch, weitere Kühlungskosten und of auch Administrationskosten.

Wie ist Deduplikation auf die Umwelt und andere Faktoren zu betrachten?

Wenn man allein auf den Aspekt Umwelt schaut, wird man feststellen, dass man durch Deduplikation enormen Speicherplatz sparen kann. Z.B. bei Pure Storage mit einem Faktor von bis zu 1 zu 10 in machen Fällen auch mehr. Wenn man hier eine einfache Kalkulation macht, kommt man dann, wenn man diese Rate erreichen kann, auf eine Einsparung von z.B. 90TB (Terrabyte). Dies bedeutet bei Standardfestplatten, dass man hier das 9fache an Stromverbrauch und Kühlungskosten einspart, vom Administrationsaufwand ganz zu schweigen. Und durch die ständige Weiterentwicklung den Deduplizierungsverfahrens, würde es mich nicht wundern, wenn man in naher Zukunft bei dem Verhältnis von 1 zu 20 ist. Dies kommt im Fall der Storage Systemen der Umwelt auf alle Fälle mehr als zu gute, da hier weniger Energie produziert werden muss und man auch bei der Größe von Rechenzentren sparen kann. Generell sollte man bei der Anschaffung von einem neuen System immer den Aufwand betreiben auch mach einen Blick in die All Flash Arrays zu werfen, gerade dann, wenn man auf der eigenen Webseite mit Umweltbewusstsein wirbt. Denn All Flash Arrays sparen nicht nur bei Speicherplatz, da hier die Deduplizierungsrate meist extrem höher ist sondern diese Systeme sparen auch an Platz, da Sie von Haus aus kleiner sind und zusätzlich auch wesentlich weniger Strom verbrauchen. Teilweise bis zum 10fachen. Wenn man dies dann in Summe betrachtet, dass man durch Deduplizierung das bis zu 10fache an Speicherplatz spart, als bis zum 10fachen an Strom und Kühlungskosten und mit einem entsprechenden Array eventuell auch noch zusätzlich das 10fache on top mit Stromverbrauch und Kühlungskosten einsparen kann kommt man schnell zu einer Einsparung von einem Wert, der sich um das 20fache bewegt.

Storage Projekte in Planung?

Ihr plant ein Storage Projekt oder denkt darüber nach den herkömmlichen Storage gegen ein All Flash Array auszutauschen?

Dann meldet euch einfach unter michael.bergler@purestorage.com, wir haben gute System Ingenieure und auch Account Manager, die euch bei der Evaluierung helfen können, gern auch mit einem Vororttermin.

Quellen:

http://de.wikipedia.org/wiki/Deduplikation

http://de.wikipedia.org/wiki/Datenbereinigung

http://de.wikipedia.org/wiki/Datenm%C3%BCll-Management

http://www.linux-magazin.de/Ausgaben/2014/03/Deduplizierung

http://de.wikipedia.org/wiki/Redundanz_(Informationstheorie)

http://www.tecchannel.de/storage/management/2038620/thin_provisioning_tiering_deduplizierung_sinnvoll_einsetzen/index4.html

http://www.tecchannel.de/storage/backup/1754177/deduplizierung_speicherplatz_statt_redundanz/

http://progtech.net/produkte/bayern-backup/technologie/deduplikation-und-komprimierung/

http://www.heise.de/microsites/barracuda-backup-und-recovery/background/beitrag-deduplikation-schnelleres-backup-und-recovery/150/446/1374/2

http://www.speicherguide.de/wissen/glossar/d/deduplikation,-datendeduplikation-data-de-duplication-8502.aspx

http://www.speicherguide.de/backup-recovery/disk-backup/deduplikation-oder-kompression-zwei-methoden,-ein-ziel-16597.aspx

http://www.experian.de/glossar/deduplikation.html

Über Michael Bergler 683 Artikel
Mein Name ist Michael Bergler ich stamme aus Sachsen und habe seit 10 Jahren die Leidenschaft mich mit HTML, PHP, Bildbearbeitung und Perl zu beschäftigen. Seit 2011 lebe ich in Chemnitz und arbeite als Selbständiger in dem Bereich Informationstechnologie (IT), Büroservice und Telefonmarketing. In meinem Blog, online seit Dezember 2010, geht es um die Ausbildung zum IT-Systemkaufmann, Games und alles rund um den PC. Von daher lag es nah eine Umschulung 2006 – 2009 in dem Beruf IT-Systemkaufmann zu absolvieren, welche ich dann auch im Januar 2009 erfolgreich abgeschlossen habe. Ich bin in Leipzig geboren und in der Umgebung von Dresden aufgewachsen.

Ersten Kommentar schreiben

Kommentar verfassen