Warum dauert der erste Backup-Durchlauf mit Duplicati ungewöhnlich lange?
- Einführung
- Initiale Datenanalyse und Verarbeitung
- Vollständiges Einlesen und Chunking der Daten
- Aufbau der Datenbank und Indexierung
- Upload und Netzwerkaktivitäten
- Fazit
Einführung
Duplicati ist eine beliebte Open-Source-Backup-Lösung, die zur Sicherung von Daten in der Cloud oder auf anderen Speichermedien eingesetzt wird. Nutzer stellen häufig fest, dass der allererste Backup-Durchlauf mit Duplicati ungewöhnlich viel Zeit in Anspruch nimmt. Diese Beobachtung hat mehrere technische Gründe, die das Verhalten von Duplicati im ersten Backup-Zyklus prägen.
Initiale Datenanalyse und Verarbeitung
Beim ersten Backup-Durchlauf kennt Duplicati den Zustand der zu sichernden Daten noch nicht. Es existiert keine vorherige Aufzeichnung über Dateien, deren Zustand oder Hash-Werte. Aus diesem Grund muss Duplicati sämtliche zu sichernden Dateien komplett durchgehen, öffnen und analysieren. Dabei werden Metadaten wie Änderungszeitpunkt, Dateigröße und vor allem Hash-Werte berechnet, damit später erkannt werden kann, ob sich Dateien verändern oder ob Blöcke von Daten bereits gesichert wurden.
Vollständiges Einlesen und Chunking der Daten
Bei der Sicherung verarbeitet Duplicati die Daten in kleinen Blöcken, sogenannten Chunks. Diese werden dedupliziert, verschlüsselt und komprimiert. Im ersten Durchlauf müssen sämtliche Chunks erstmals erzeugt und gespeichert werden. Dies erfordert nicht nur das Lesen der kompletten Datenmenge von der Festplatte, sondern auch einen intensiven Rechenaufwand für die Chunk-Erstellung und anschließende Verarbeitung.
Aufbau der Datenbank und Indexierung
Duplicati legt beim ersten Backup eine lokale Datenbank an, in der alle Informationen über die gesicherten Dateien und deren strukturelle Einteilung abgespeichert werden. Diese Datenbank dient dazu, in zukünftigen Backups schnell zu erkennen, welche Daten sich geändert haben und welche bereits vorhanden sind. Der Aufbau und die Initialbefüllung dieser Datenbank schlagen sich merklich in der Dauer des ersten Backups nieder, da viele Indexierungen und Verwaltungsdaten erzeugt werden müssen.
Upload und Netzwerkaktivitäten
Da alle Daten im allerersten Backup komplett zum Ziel-Speicherort übertragen werden müssen, kann die Geschwindigkeit des Backups stark durch die Upload-Bandbreite und die Latenz der Netzwerkanbindung beeinflusst werden. Es gibt noch keine vorhandenen Daten auf dem Zielserver, die dedupliziert werden könnten, wodurch jede Datenportion vollständig und ungekürzt übertragen wird. Dies verlängert die benötigte Zeit im Vergleich zu inkrementellen Backups deutlich.
Fazit
Zusammenfassend lässt sich sagen, dass der erste Backup-Durchlauf mit Duplicati aufgrund der umfassenden Initialanalyse der Daten, der vollständigen Verarbeitung und Chunk-Erstellung, der Einrichtung der lokalen Datenbank sowie der Übertragung aller Daten auf das Backup-Ziel naturgemäß deutlich länger dauert als die nachfolgenden inkrementellen Sicherungen. Dieses Verhalten ist typisch für viele Backup-Programme, die für eine effiziente, deduplizierte und inkrementelle Sicherung optimiert sind und erst bei späteren Durchläufen von Vorteilen wie verkürzten Datenmengen und schnelleren Übertragungszeiten profitieren.
