Michael Chen | Content Strategist | 14. Februar 2024
Der Prozess der Datendeduplizierung beseitigt systematisch redundante Kopien von Daten und Dateien. Das senkt Speicherkosten und verbessert die Versionskontrolle. In einer Zeit, in der jedes Gerät Daten erzeugt und ganze Organisationen Dateien gemeinsam nutzen, ist Datendeduplizierung ein zentraler Bestandteil des IT-Betriebs. Sie spielt zudem eine wichtige Rolle beim Datenschutz und bei der Sicherstellung der Betriebskontinuität. Wird Datendeduplizierung auf Backups angewendet, identifiziert und entfernt sie doppelte Dateien und Blöcke und speichert nur eine einzige Instanz jeder eindeutig identifizierbaren Information. Das spart nicht nur Kosten, sondern verbessert auch Backup- und Wiederherstellungszeiten, da weniger Daten über das Netzwerk übertragen werden müssen.
Datendeduplizierung ist der Prozess, bei dem identische Dateien oder Datenblöcke aus Datenbanken und Speichersystemen entfernt werden. Dies kann dateiweise, blockweise, auf Byte-Ebene oder auf einer Zwischenstufe erfolgen – je nach eingesetztem Algorithmus. Die Ergebnisse werden häufig über das sogenannte „Datendeduplizierungsverhältnis“ bewertet. Nach der Deduplizierung sollte mehr freier Speicherplatz zur Verfügung stehen, wobei das tatsächliche Einsparpotenzial stark variiert, da manche Aktivitäten und Dateitypen deutlich anfälliger für Duplikate sind als andere. IT-Abteilungen sollten regelmäßig nach Duplikaten suchen; der Nutzen häufiger Deduplizierung hängt jedoch stark vom jeweiligen Umfeld und mehreren Einflussfaktoren ab.
Wichtige Erkenntnisse
Im Prozess der Daten-Deduplizierung durchsucht ein Tool die Speichervolumen nach doppelten Daten und entfernt erkannte Duplikate. Um Duplikate zu finden, vergleicht das System eindeutige Kennungen – sogenannte Hashes – die jedem Datenobjekt zugeordnet sind. Wird eine Übereinstimmung festgestellt, wird nur eine Kopie der Daten gespeichert; alle weiteren Duplikate werden durch Verweise auf das Original ersetzt.
Das Deduplizierungssystem sucht sowohl im lokalen Speicher, in Verwaltungstools wie Datenkatalogen, als auch in anderen Datenspeichern und berücksichtigt dabei strukturierte und unstrukturierte Daten. Zum besseren Verständnis des Prozesses sind folgende Begriffe wichtig:
Durch Datendeduplizierung lassen sich Ressourcen wie Speicherplatz, Rechenleistung und Kosten einsparen. Im Kern geht es darum, das Datenvolumen zu reduzieren. Doch wenn jedes Gerät riesige Datenmengen erzeugt und Dateien kontinuierlich zwischen Abteilungen ausgetauscht werden, hat doppelte Datenspeicherung weitreichende Konsequenzen: Sie kann Prozesse verlangsamen, Hardware-Ressourcen beanspruchen, unnötige Redundanzen schaffen und für Verwirrung sorgen, wenn verschiedene Teams mit unterschiedlichen, redundanten Dateien arbeiten. Die Deduplizierung kann all diese Probleme effektiv beheben. Daher setzen viele Unternehmen sie regelmäßig und fest geplant im Rahmen ihrer IT-Wartungsstrategien ein.
Da die Datendeduplizierung ein ressourcenintensiver Datenmanagement-Prozess ist, sollte der Zeitpunkt ihrer Durchführung von verschiedenen Faktoren abhängen – darunter das Netzwerkdesign und die Zeiträume, in denen Mitarbeiter auf Dateien zugreifen. Die folgenden Anwendungsfälle sind besonders häufig:
Allgemein genutzte Dateiserver bieten Speicher und Services für eine Vielzahl von Daten, darunter persönliche Dateisammlungen einzelner Mitarbeiter sowie geteilte Abteilungsordner. Aufgrund der meist hohen Nutzeranzahl und der unterschiedlichen Rollen entstehen häufig mehrere Duplikate derselben Datei. Ursachen hierfür sind beispielsweise Backups von lokalen Festplatten, Anwendungsinstallationen, Dateifreigaben und ähnliche Prozesse.
Die Virtual-Desktop-Infrastruktur-Technologie ermöglicht das zentrale Hosting und das Management virtualisierter Desktops für den Remote-Zugriff. Das Problem dabei: Virtuelle Festplatten sind häufig identisch aufgebaut und enthalten zahlreiche doppelte Dateien, die viel Speicherplatz beanspruchen. Zudem kann das gleichzeitige Hochfahren vieler virtueller Maschinen, wie z. B. zu Beginn des Arbeitstags – der sogenannte „VDI-Bootstorm“ – die Systemperformance stark beeinträchtigen oder sogar zum Stillstand führen. Die Deduplizierung kann hier Abhilfe schaffen, indem sie häufig genutzte Anwendungsressourcen im Arbeitsspeicher zwischenspeichert und bedarfsgerecht bereitstellt.
Backups führen aus gutem Grund zur Erstellung von doppelten Dateiversionen. Allerdings muss dieselbe Datei nicht immer wieder erneut abgespeichert werden. Die Daten-Deduplizierung stellt sicher, dass es eine saubere Sicherungskopie gibt, während in neueren Backup-Versionen lediglich auf diese Hauptdatei verwiesen wird. Dadurch bleibt die Redundanz erhalten, Speicher und Ressourcen werden jedoch effizient genutzt.
Deduplizierungstools sorgen für einen effizienteren Datenübertragungsprozess. Statt einer vollständigen Überschreibung erkennen sie Dateien in Segmenten. Beim Dateitransfer werden lediglich diejenigen Segmente übertragen, die verändert wurden. Erhält beispielsweise jemand eine neue Version einer großen Datei, in der nur wenige Segmente aktualisiert sind, beschleunigt sich der Übertragungsprozess deutlich, weil nur diese Segmente neu geschrieben werden.
Archivsysteme werden häufig mit Backups verwechselt, da beide für die langfristige Datenspeicherung eingesetzt werden. Während Backups jedoch in erster Linie zur Disaster Recovery und für den Katastrophenfall erstellt werden, dienen Archivsysteme dazu, nicht mehr aktiv genutzte Daten dauerhaft aufzubewahren. Duplikate können entstehen, wenn Speichervolumen zusammengeführt oder neue Segmente ins Archivsystem aufgenommen werden. Der Deduplizierungsprozess sorgt für eine maximale Effizienz der Archivierung.
Aus übergeordneter Sicht vergleichen Deduplizierungstools Dateien oder Dateiblöcke anhand eindeutiger Fingerabdrücke, sogenannte Hashes, um Duplikate zu identifizieren. Sobald Duplikate bestätigt sind, werden sie protokolliert und entfernt. Im Folgenden sind die einzelnen Schritte dieses Prozesses näher beschrieben.
Chunking bezeichnet einen Deduplizierungsprozess, bei dem Dateien in Segmente – sogenannte Chunks – unterteilt werden. Die Größe dieser Segmente kann entweder algorithmisch berechnet oder anhand festgelegter Richtlinien bestimmt werden. Der Vorteil des Chunkings liegt in einer präziseren Deduplizierung; dies erfordert jedoch einen höheren Einsatz von Rechenressourcen.
Wenn Daten von einem Deduplizierungstool verarbeitet werden, weist ein Hashing-Algorithmus ihnen einen Hash-Wert zu. Dieser Hash wird anschließend geprüft, ob er bereits im Protokoll der verarbeiteten Daten vorhanden ist. Ist dies der Fall, wird das entsprechende Element als Duplikat eingestuft und gelöscht, um Speicherplatz freizugeben.
Die Ergebnisse des Deduplizierungsprozesses werden in einer Referenztabelle gespeichert. Diese Tabelle dokumentiert, welche Segmente oder Dateien entfernt wurden und auf welche Originaldateien sie sich bezogen. Referenztabellen sorgen für Transparenz und Nachvollziehbarkeit und bieten gleichzeitig einen umfassenden Überblick darüber, welche Quellen eine Datei innerhalb eines Speichervolumens referenziert.
Unternehmen können aus verschiedenen Methoden der Datendeduplizierung wählen, je nachdem, welche Lösung am besten zu ihrem Budget, ihrer verfügbaren Bandbreite und ihrem Bedarf an Redundanz passt. Wo der Prozess stattfindet, wann er durchgeführt wird und mit welchem Detaillierungsgrad – all diese Variablen lassen sich flexibel kombinieren, um eine passgenaue Lösung für das jeweilige Unternehmen zu gestalten.
Diagramm: Inline- vs. Post-Process-Deduplizierung
Inline-Deduplizierung:
Deduplizierung nach der Verarbeitung
Ähnlich wie das Bearbeiten eines Dokuments überflüssige Wörter oder Formulierungen entfernt, um den Text prägnanter zu gestalten, sorgt die Deduplizierung für eine Optimierung der Unternehmensdaten. Davon profitieren Organisationen durch niedrigere Speicherkosten, einen geringeren Bandbreitenverbrauch und eine effizientere Datensicherung.
Wenn weniger Dateien vorhanden sind, benötigen Unternehmen weniger Speicherplatz. Das ist einer der klarsten Vorteile der Daten-Deduplizierung – und dieser Mehrwert erstreckt sich auch auf andere Systeme. Unternehmen benötigen weniger Speicherplatz für Backups und verbrauchen weniger Rechen- sowie Bandbreitenressourcen für das Scannen und Sichern von Daten.
Da die Daten-Deduplizierung den Aufwand für Backups verringert, profitieren Unternehmen von einer schnelleren und einfacheren Disaster Recovery. Kleinere Backups lassen sich effizienter erstellen, was wiederum dazu führt, dass für die Wiederherstellung weniger Ressourcen benötigt werden.
Durch Datendeduplizierung verkleinert sich der Speicherbedarf von Backup-Dateien, was den Ressourcenverbrauch während Backup-Prozessen – sei es Speicherplatz, Rechenleistung oder Prozessdauer – deutlich senkt. Dadurch erhalten Unternehmen zusätzliche Flexibilität bei der Planung ihrer Backups.
Je weniger Dateien übertragen werden müssen, desto weniger Bandbreite wird benötigt und umso geringer ist der Verbrauch von Netzwerkressourcen. Datendeduplizierung steigert somit die Netzwerkeffizienz, indem sie den Ressourcenbedarf beim Übertragen von Daten – wie z. B. für die Archivierung oder Wiederherstellung von Backups – reduziert.
Explodierende Datenmengen führen in Unternehmen aller Größen zu steigenden Ausgaben für Speicherlösungen. Durch Deduplizierung können die Kosten gesenkt werden, da weniger Speicherplatz für den täglichen Betrieb sowie für Backups und Archivierung benötigt wird. Zusätzliche Kosteneinsparungen ergeben sich durch den geringeren Bedarf an Energie, Rechenleistung und Bandbreite sowie durch einen geringeren Aufwand an personellen Ressourcen zur Verwaltung und Behebung von Dateiduplikaten.
Die Datendeduplizierung ist ein effektives Mittel, um Ressourcen bestmöglich zu nutzen und Kosten zu senken. Allerdings gehen diese Vorteile mit einigen Herausforderungen einher – viele davon betreffen die benötigte Rechenleistung für eine feingranulare Deduplizierung. Zu den häufigsten Nachteilen und Bedenken im Zusammenhang mit der Datendeduplizierung gehören:
Datendeduplizierung ist besonders ressourcenintensiv, insbesondere auf Blockebene. IT-Teams sollten daher den Zeitplan und die Durchführung der Deduplizierungsprozesse sorgfältig planen – unter Berücksichtigung verfügbarer Bandbreite, der Aktivitäten und Anforderungen der Organisation, der Backup-Standorte, Deadlines und weiterer individueller Faktoren.
Hash-Kollisionen entstehen, wenn zufällig generierte Hash-Werte übereinstimmen. Bei der Block-Level-Deduplizierung werden Datenblöcken Hashes zugewiesen, wodurch die Gefahr von Kollisionen und potenzieller Datenkorruption steigt. Um Hash-Kollisionen zu vermeiden, kann die Größe der Hashtabelle erhöht oder eine Kollisionsbehandlung wie Chaining oder Open Addressing eingesetzt werden. Beim Chaining werden mehrere Elemente mit gleichem Hash in einer verketteten Liste oder einer anderen Datenstruktur gespeichert, während beim Open Addressing ein alternativer Speicherort innerhalb der Tabelle gefunden wird. Beide Methoden haben Vor- und Nachteile, weshalb IT-Teams die Länge und Komplexität des Hashing-Algorithmus sorgfältig gegen mögliche Workarounds abwägen sollten.
Kein Prozess ist völlig fehlerfrei. Während der Deduplizierung besteht stets das Risiko, dass einzigartige und wichtige Daten versehentlich gelöscht oder verändert werden. Integritätsprobleme können durch Hash-Kollisionen, beschädigte Quellblöcke, unterbrochene Prozesse infolge unerwarteter Ereignisse wie Festplattenausfälle, menschliche Fehler, Stromausfälle, erfolgreiche Cyberangriffe oder einfache Bedienfehler entstehen. Auch wenn solche Probleme angesichts moderner Deduplizierungslösungen selten auftreten, bleiben sie möglich und können erhebliche Schwierigkeiten verursachen.
Beim Deduplizierungsprozess entsteht eine zusätzliche Metadatenebene für Änderungsprotokolle und die digitalen Signaturen, die jedem verarbeiteten Block zugeordnet werden. Diese wird als „Fingerprint-Datei“ bezeichnet. Diese Metadaten benötigen nicht nur zusätzlichen Speicherplatz, sondern können auch eigene Integritätsprobleme verursachen. Wird die Fingerprint-Datei beispielsweise beschädigt, gestaltet sich die Wiederherstellung der Daten deutlich schwieriger.
Auch wenn die Datendeduplizierung langfristig durch geringeren Speicherbedarf Kosten spart, ist zunächst eine Investition erforderlich. Diese umfasst die Anschaffung des Deduplizierungstools, das meist nach der Anzahl der Datensätze lizenziert wird, sowie den zeitlichen Aufwand der IT-Mitarbeiter für die Planung, Durchführung und Verwaltung des Deduplizierungsprozesses.
Wie funktioniert Datendeduplizierung in der Praxis? Theoretisch ist es ein einfaches Data-Science-Konzept: Doppelte Daten werden entfernt, um den Ressourcenverbrauch zu senken und Fehler zu minimieren, die auftreten, wenn mehrere Versionen einer Datei im Umlauf sind. Doch verschiedene Branchen, Sektoren und sogar einzelne Abteilungen verfolgen jeweils eigene Ziele und Anforderungen. Nachfolgend einige typische Anwendungsfälle.
Customer Relationship Management (CRM): In einem CRM-System können Kundenstammdaten, Kontaktinformationen und Geschäftsabschlüsse aus verschiedenen Quellen, mit unterschiedlichen Detailgraden und in unterschiedlichen Formaten gespeichert werden. Dies führt zu uneinheitlichen Datenbeständen – wie z. B. wenn zwei Manager jeweils unterschiedliche Versionen eines Kontaktdatensatzes haben. Wird eine Ansprechperson in mehreren Datenquellen geführt und nach deren Ausscheiden nur an einer Stelle aktualisiert, nutzen manche Mitarbeiter weiterhin veraltete Informationen. Mithilfe von Datendeduplizierung lässt sich eine zentrale und verlässliche Informationsquelle schaffen, sodass alle Teams und Einzelpersonen stets auf aktuelle Kundendaten zugreifen können – egal ob für Visualisierungen oder Analysen.
Datenintegration: Wenn zwei Organisationen zusammengeführt werden – wie z. B. durch eine Übernahme oder interne Umstrukturierung – können doppelte Datensätze entstehen, weil verschiedene Instanzen derselben Anwendung genutzt wurden. Beispielsweise kauft ein größeres Unternehmen einen kleineren Wettbewerber, wobei sich der Kundenstamm zu 40 % überschneidet und dies auch in den jeweiligen ERP-Systemen abgebildet ist. Durch Deduplizierung lassen sich diese Redundanzen beseitigen, Speicherressourcen optimal nutzen und sicherstellen, dass innerhalb der neu entstandenen Organisation immer nur die aktuellste Version jedes Datensatzes verwendet wird.
Virtuelle IT-Umgebungen: Beim Einsatz virtueller Desktops – wie z. B. für Testumgebungen oder den Zugriff auf spezialisierte Anwendungen und interne Systeme – trägt Daten-Deduplizierung erheblich zur Effizienzsteigerung bei, insbesondere bei einer hohen Nutzerzahl. Virtuelle Maschinen enthalten häufig sehr ähnliche Dateien, was zu zahlreichen Duplikaten führen kann. Die Deduplizierung entfernt diese Mehrfachversionen, sodass der Speicher nicht durch von den virtuellen Maschinen erzeugte redundante Daten überlastet wird.
Bankwesen: In Finanzinstituten kommt es häufig vor, dass verschiedene Abteilungen oder Filialen doppelte Kundendatensätze führen. Jede dieser Duplikate stellt ein potenzielles Einfallstor für Identitätsdiebstahl, betrügerische Transaktionen und andere illegale Aktivitäten dar. Zudem ist für die Bearbeitung und Überprüfung redundanter Daten auf Betrugsfälle ein erhöhter Ressourcenaufwand notwendig. Die Daten-Deduplizierung hilft Banken und Kreditgenossenschaften, sowohl die Effizienz als auch die Sicherheit deutlich zu verbessern.
Dies sind nur einige Beispiele für Anwendungsfälle. Jedes Unternehmen mit großem Datenaufkommen profitiert von Deduplizierung.
Viele Anbieter haben Tools zur Datendeduplizierung im Portfolio – aber welches passt zu Ihrem Unternehmen? Hier sind die wichtigsten Faktoren, die Teams bei der Auswahl berücksichtigen sollten:
Die effektivste Methode, Probleme durch doppelt vorhandene Daten zu vermeiden, ist, sie gar nicht erst entstehen zu lassen. Oracle HeatWave unterstützt genau dabei, indem es Transaktionen, Echtzeitanalysen über Data Warehouses und Data Lakes, Machine Learning und Generative KI in einem einzigen Cloud-Service vereint. HeatWave-Kunden müssen keine Daten mehr aus einer transaktionalen Datenbank in eine separate Analysedatenbank kopieren, was zahlreiche Vorteile bietet.
Dank integriertem HeatWave AutoML können Machine-Learning-Modelle direkt in HeatWave erstellt, trainiert und erklärt werden – ebenfalls ohne Daten in einen separaten ML-Service zu verschieben.
HeatWave GenAI bietet integrierte, automatisierte und sichere GenAI-Funktionen mit in der Datenbank verfügbaren Large Language Models, einem automatisierten Vektorspeicher, skalierbarer Vektorverarbeitung sowie der Möglichkeit, kontextbezogene Gespräche in natürlicher Sprache zu führen. Unternehmen nutzen damit GenAI ohne eigene KI-Expertise und ohne Daten in eine separate Vektordatenbank zu übertragen.
Indem HeatWave Datenduplizierung über verschiedene Cloud-Services für Transaktionen, Analysen, Machine Learning und GenAI verhindert, vereinfacht der Service Datenarchitekturen, ermöglicht schnellere und fundiertere Entscheidungen, steigert die Produktivität, verbessert die Sicherheit und senkt die Kosten.
KI kann CIOs dabei helfen, Daten zu analysieren, um die Cloud-Ausgaben zu optimieren und dem Architekten Code-Optimierungen vorzuschlagen, um den Datenverkehr zu minimieren. Erfahren Sie, wie Sie das Potenzial der künstlichen Intelligenz jetzt nutzen können, um Talente, Sicherheit und andere Herausforderungen anzugehen.
Ein typisches Beispiel ergibt sich bei versionsbasierten Backups und Archiven von Unternehmensdaten. Jede dieser Sicherungen enthält zahlreiche identische, unveränderte Dateien. Mit Deduplizierung wird der Backup-Prozess optimiert, indem eine neue Version des Archivs ohne diese mehrfach vorhandenen Dateien erstellt wird. Stattdessen verweist die neue Version über Pointer auf die einzelne Originaldatei – so bleibt sie im Archiv verfügbar, ohne zusätzlichen Speicherplatz zu verbrauchen.
Doppelte Datensätze verbrauchen unnötig Speicherplatz. Dieser zusätzliche Speicherbedarf zieht weitere Ressourcen nach sich – wie z. B. Speichervolumen, Übertragungsbandbreite und Rechenleistung, zum Beispiel bei Malware-Scans. Deduplizierung reduziert den benötigten Speicherplatz und senkt so den gesamten Ressourcenverbrauch, sei es Bandbreite oder Speicherkapazität.
Duplikate entstehen sowohl durch Datenduplizität als auch durch Datenredundanz. Datenduplizität liegt vor, wenn Nutzer selbst eine doppelte Datei ins System einfügen. Datenredundanz entsteht, wenn Datenbanken mit überschneidenden Dateien oder Datensätzen zusammengeführt werden und dadurch Duplikate entstehen.
Deduplizierung schafft langfristig mehr Effizienz und Kostenvorteile, da Speicherplatz frei wird. Der eigentliche Deduplizierungsprozess ist jedoch ressourcenintensiv und kann Teile des Netzwerks verlangsamen – darunter die Rechenleistung und die Übertragungsbandbreite. IT-Abteilungen müssen daher sorgfältig planen, wann Deduplizierung durchgeführt wird.