Wie kann man in pandas ein DataFrame slices (ausschneiden)?

Melden
  1. Grundlagen des Slicens von DataFrames
  2. Methoden zum Slicen in pandas
  3. Label-basierte Auswahl mit loc
  4. Positionsbasierte Auswahl mit iloc
  5. Weiterführende Techniken und Bedingungen
  6. Performance und praktische Hinweise
  7. Zusammenfassung

In der Datenanalyse mit Python ist das Modul pandas eines der wichtigsten Werkzeuge zur

Verarbeitung und Analyse von Daten. Eine oft benötigte Operation ist das "Slicen" eines DataFrames, also das

Herausschneiden oder Auswählen bestimmter Teile eines DataFrames. Im Folgenden wird ausführlich erläutert, wie

Grundlagen des Slicens von DataFrames

Ein DataFrame in pandas ist eine zweidimensionale, tabellarische Datenstruktur mit Zeilen und Spalten. Das

Slicen bezieht sich darauf, bestimmte Zeilen, Spalten oder Bereiche auszuwählen. Dabei kann man entweder

ganze Zeilen, einzelne Spalten oder einen Ausschnitt, der sowohl Zeilen als auch Spalten umfasst, extrahieren.

Methoden zum Slicen in pandas

pandas bietet verschiedene Möglichkeiten, DataFrames zu slicen. Eine zentrale Methode ist das Indexieren mittels

loc und iloc. loc arbeitet mit Label-basierten Indexen, das heißt, es

bezieht sich auf die tatsächlichen Zeilen- oder Spaltennamen. iloc hingegen nutzt die

Label-basierte Auswahl mit loc

Möchte man z. B. bestimmte Zeilen nach deren Indexnamen und bestimmte Spalten nach ihrem Namen auswählen, nutzt

man loc. Beispiel: df.loc ] holt alle

Positionsbasierte Auswahl mit iloc

Wenn man Zeilen und Spalten anhand ihrer Position innerhalb des DataFrames angeben möchte, kommt iloc

zum Einsatz. Beispiel: df.iloc wählt die ersten zehn Zeilen und die ersten zwei Spalten

Weiterführende Techniken und Bedingungen

Zusätzlich zu den schon genannten Methoden kann man DataFrames auch auf Grundlage von Bedingungen slicen.

Das bedeutet, man filtert Zeilen, die bestimmte Kriterien erfüllen, z. B. alle Zeilen, bei denen ein Wert größer

als ein bestimmter Grenzwert ist. Dies erfolgt häufig mit boolean indexing, also einer Maske aus Wahr/Falsch-Werten.

Beispiel: df > 100] gibt alle Zeilen zurück, bei denen der Wert in "Spalte" größer als 100 ist.

Performance und praktische Hinweise

Die Auswahl bestimmter Teilbereiche eines DataFrames mit loc und iloc ist sehr effizient

und für große Datenmengen zu empfehlen. Wichtig ist, darauf zu achten, ob der Index eindeutig ist und wie die

Reihenfolge der Daten im DataFrame aussieht. Wenn man beispielsweise mit Zeiten oder Datumsangaben arbeitet,

empfiehlt es sich, den Index entsprechend zu setzen, um lokalisierte Schnitte einfacher und performanter zu

Zusammenfassung

Das Slicen von DataFrames in pandas ist eine grundlegende und sehr flexible Operation. Ob mittels

positionsbasierter Indizes mit iloc, labelbasierter Auswahl mit loc oder auf Grundlage

von Bedingungen – die Methoden erlauben eine präzise Auswahl von Datenbereichen. Dadurch können Daten effizient

0

Kommentare