Wie kann man in pandas ein DataFrame slices (ausschneiden)?
- Grundlagen des Slicens von DataFrames
- Methoden zum Slicen in pandas
- Label-basierte Auswahl mit loc
- Positionsbasierte Auswahl mit iloc
- Weiterführende Techniken und Bedingungen
- Performance und praktische Hinweise
- Zusammenfassung
In der Datenanalyse mit Python ist das Modul pandas eines der wichtigsten Werkzeuge zur
Verarbeitung und Analyse von Daten. Eine oft benötigte Operation ist das "Slicen" eines DataFrames, also das
Herausschneiden oder Auswählen bestimmter Teile eines DataFrames. Im Folgenden wird ausführlich erläutert, wie
Grundlagen des Slicens von DataFrames
Ein DataFrame in pandas ist eine zweidimensionale, tabellarische Datenstruktur mit Zeilen und Spalten. Das
Slicen bezieht sich darauf, bestimmte Zeilen, Spalten oder Bereiche auszuwählen. Dabei kann man entweder
ganze Zeilen, einzelne Spalten oder einen Ausschnitt, der sowohl Zeilen als auch Spalten umfasst, extrahieren.
Methoden zum Slicen in pandas
pandas bietet verschiedene Möglichkeiten, DataFrames zu slicen. Eine zentrale Methode ist das Indexieren mittels
loc und iloc. loc arbeitet mit Label-basierten Indexen, das heißt, es
bezieht sich auf die tatsächlichen Zeilen- oder Spaltennamen. iloc hingegen nutzt die
Label-basierte Auswahl mit loc
Möchte man z. B. bestimmte Zeilen nach deren Indexnamen und bestimmte Spalten nach ihrem Namen auswählen, nutzt
man loc. Beispiel: df.loc ] holt alle
Positionsbasierte Auswahl mit iloc
Wenn man Zeilen und Spalten anhand ihrer Position innerhalb des DataFrames angeben möchte, kommt iloc
zum Einsatz. Beispiel: df.iloc wählt die ersten zehn Zeilen und die ersten zwei Spalten
Weiterführende Techniken und Bedingungen
Zusätzlich zu den schon genannten Methoden kann man DataFrames auch auf Grundlage von Bedingungen slicen.
Das bedeutet, man filtert Zeilen, die bestimmte Kriterien erfüllen, z. B. alle Zeilen, bei denen ein Wert größer
als ein bestimmter Grenzwert ist. Dies erfolgt häufig mit boolean indexing, also einer Maske aus Wahr/Falsch-Werten.
Beispiel: df > 100] gibt alle Zeilen zurück, bei denen der Wert in "Spalte" größer als 100 ist.
Performance und praktische Hinweise
Die Auswahl bestimmter Teilbereiche eines DataFrames mit loc und iloc ist sehr effizient
und für große Datenmengen zu empfehlen. Wichtig ist, darauf zu achten, ob der Index eindeutig ist und wie die
Reihenfolge der Daten im DataFrame aussieht. Wenn man beispielsweise mit Zeiten oder Datumsangaben arbeitet,
empfiehlt es sich, den Index entsprechend zu setzen, um lokalisierte Schnitte einfacher und performanter zu
Zusammenfassung
Das Slicen von DataFrames in pandas ist eine grundlegende und sehr flexible Operation. Ob mittels
positionsbasierter Indizes mit iloc, labelbasierter Auswahl mit loc oder auf Grundlage
von Bedingungen – die Methoden erlauben eine präzise Auswahl von Datenbereichen. Dadurch können Daten effizient
