Effiziente Datendeduplizierung in Hadoop

Effiziente Datendeduplizierung in Hadoop

Versandkostenfrei!
Versandfertig in 6-10 Tagen
39,90 €
inkl. MwSt.
PAYBACK Punkte
0 °P sammeln!
Hadoop wird häufig für die Speicherung massiv verteilter Daten verwendet. Obwohl es sehr fehlertolerant und skalierbar ist und auf handelsüblicher Hardware läuft, bietet es keine effiziente und optimierte Datenspeicherlösung. Wenn Benutzer Dateien mit identischem Inhalt in Hadoop hochladen, werden alle Dateien im HDFS (Hadoop Distributed File System) gespeichert, auch wenn der Inhalt identisch ist, was zu einer Duplizierung des Inhalts und damit zu einer Verschwendung von Speicherplatz führt. Datendeduplizierung ist ein Prozess zur Reduzierung der erforderlichen Speicherkapazität, da nu...