Wie kombiniere ich in SPSS Datendateien mit unterschiedlicher Variablenanzahl?
- Einleitung
- Situation verstehen
- Daten zusammenführen: Dateianhänge (Add Files) vs. Datei verbinden (Merge Files)
- Zusammensetzen bei unterschiedlicher Variablenanzahl mit "Add Files"
- Verbinden von Dateien mit unterschiedlichen Variablenanzahlen anhand gemeinsamer ID
- Praktische Tipps und Hinweise
- Fazit
Einleitung
In SPSS gibt es verschiedene Möglichkeiten, Daten aus mehreren Dateien zusammenzuführen.
Wenn die Dateien unterschiedliche Variablenanzahlen besitzen, ist der Vorgang etwas komplexer als bei identischen Variablen.
Ziel ist es häufig, eine einzige Datendatei zu erstellen, die alle Fälle enthält und alle benötigten Variablen (auch wenn sie nicht in jeder Datei vorkommen).
Hierbei werden fehlende Werte ergänzt, wenn Variablen in einer Datei nicht vorhanden waren.
Situation verstehen
Zunächst ist wichtig zu verstehen, wie die Dateien strukturiert sind: Handelt es sich um Dateien mit unterschiedlichen Fällen (also mehr Zeilen, gleiche Variablen) oder um Dateien mit unterschiedlichen Variablen (also mehr Spalten, gleiche Fälle)?
Wenn die Dateien unterschiedliche Variablen und unterschiedliche Fälle haben, muss man sich Gedanken machen, wie die Daten sinnvoll kombiniert werden können.
Die Antwort hier bezieht sich auf den Fall, dass Dateien unterschiedliche Variablenanzahl haben, wohl aber unterschiedlich viele Fälle oder ergänzend Fälle.
Daten zusammenführen: Dateianhänge (Add Files) vs. Datei verbinden (Merge Files)
In SPSS gibt es zwei grundlegende Vorgehensweisen, um Dateien zusammenzuführen: Das Anhängen von Dateien (Add Files) und das Verbinden von Dateien nach gemeinsamen Variablen (Merge Files).
Beim Anhängen (Add Files) werden Fälle untereinander angefügt, vorausgesetzt die Variablen sind gleich oder können ergänzt werden.
Beim Verbinden (Merge Files) werden Datensätze anhand eines gemeinsamen Schlüssels (z. B. ID) zusammengefügt, wodurch die Fallzahl meist gleich bleibt, aber die Anzahl der Variablen vergrößert wird.
Zusammensetzen bei unterschiedlicher Variablenanzahl mit "Add Files"
Möchte man zwei Datendateien aneinanderhängen, die nicht dieselben Variablen besitzen, ist das mit der Funktion Daten anhängen (Add Files) möglich.
Öffnet man in SPSS über das Menü Daten → Dateien anhängen (Add Cases) und wählt die zweite Datei aus, erkennt SPSS automatisch, wenn Variablen in einer der Dateien fehlen.
Das heißt, die stapelweise angehängten Fälle erweitern die Datendatei um alle Variablen aus beiden Dateien. Die fehlenden Werte für nicht vorhandene Variablen in jeweils einer Datei werden mit Fehlwerten markiert.
Wenn Variablennamen unterschiedlich sind, aber dieselbe Information enthalten (z. B. "alter" vs. "age"), müssen Sie vor dem Anhängen die Variablen mit SPSS-Befehlen umbenennen, damit sie übereinstimmen. Sonst erstellt SPSS zwei verschiedene Variablen, die eigentlich dieselben Informationen beinhalten.
Verbinden von Dateien mit unterschiedlichen Variablenanzahlen anhand gemeinsamer ID
Wenn Sie jedoch zwei Dateien haben, die sich auf dieselben Fälle beziehen (also gleiche Personen oder Beobachtungen) und diese Dateien unterschiedliche Variablen enthalten, ist das Merge Files-Verfahren sinnvoll.
Hierfür wählen Sie im Menü Daten → Dateien zusammenführen → Nach Schlüsselvariablen… (Merge Files / Add Variables).
SPSS fragt Sie nach einer oder mehreren Schlüsselvariablen, z. B. eine Personen-ID, über die die Fälle eindeutig identifiziert werden.
Wichtig ist, dass alle Dateien nach diesem Schlüssel sortiert sind, da SPSS die Dateien fallweise zusammenführt.
Beim Zusammenführen können Sie außerdem auswählen, welche Variablen aus der zweiten Datei übernommen werden sollen, und es wird automatisch erkannt, dass Variablen, die in der ersten Datei bereits vorhanden sind, nicht doppelt hinzugefügt werden. Fehlt der Schlüssel in einer der Dateien oder sind Fälle nicht übereinstimmend, werden die Daten je nach Einstellung mit Fehlwerten ergänzt.
Praktische Tipps und Hinweise
Vor dem Zusammenführen sollten Sie unbedingt prüfen, ob die Variablennamen und -formate richtig übereinstimmen. Inkonsistenzen führen oft zu Fehlern oder unerwarteten Ergebnissen.
Weiterhin empfiehlt es sich, vor dem Verknüpfen über Daten prüfen (Deskriptive Statistiken oder Frequenzen) zu kontrollieren, ob die Schlüsselvariablen keine Doppelungen enthalten und die Sortierung korrekt ist.
SPSS sortiert auch nicht automatisch vor Merge-Vorgängen – Sie müssen die Daten selbstständig mit Daten sortieren auf dem Schlüssel vorbereiten.
Für komplexere Zusammenführungen kann es hilfreich sein, die SPSS-Syntax zu nutzen. Beispielsweise:
MATCH FILES /FILE=Datei1.sav /FILE=Datei2.sav /BY ID.EXECUTE.Oder bei Add Files:
ADD FILES /FILE=Datei1.sav /FILE=Datei2.sav.EXECUTE.Diese Befehle lassen sich anpassen und automatisieren. Syntax ist besonders nützlich, wenn man den Prozess mehrfach wiederholen oder dokumentieren möchte.
Fazit
Das Kombinieren von SPSS-Datendateien mit unterschiedlicher Variablenanzahl ist gut möglich, wenn man sich für den passenden Vorgang entscheidet:
Sollten Sie Fälle aneinanderfügen (Add Files), können fehlende Variablen ergänzt und mit Fehlwerten gefüllt werden. Beim Verbinden anhand gemeinsamer Fälle (Merge Files) werden unterschiedlich viele Variablen ergänzt, wobei auf die Sortierung und den Schlüssel zu achten ist.
Fehlerfreie Kombination erfordert eine sorgfältige Vorbereitung der Daten, insbesondere eine einheitliche Benennung der Variablen und korrekte Sortierung.
