Pandas: DataFrame Index verstehen

Inhaltsverzeichnis

Die Indexierung von Python Pandas DataFrames ist ermöglicht den effizienten und direkten Zugriff auf spezifische Daten innerhalb eines DataFrames. Mithilfe eines Pandas-DataFrame-Index wählt man spezifische Zeilen und Spalten aus, was die Datenanalyse erheblich erleichtern kann.

Webhosting

Das beste Webhosting zum Spitzenpreis

3x schneller und 60 % günstiger
Maximale Verfügbarkeit mit > 99.99 %
Nur bei IONOS: Bis zu 500 GB Speicherplatz inklusive

Was passiert bei der Indexierung?

Bei der Indexierung eines Pandas DataFrames soll die Auswahl bestimmter Elemente des DataFrames erleichtert werden. Dies kann durch die Auswahl von Zeilen und Spalten anhand ihrer Positionen oder Bezeichnungen erfolgen. Indizes können dabei helfen, Daten schneller zu finden und zu bearbeiten, indem sie eine Art „Adresssystem“ für die Datenstruktur bieten.

Syntax von Pandas `DataFrame.index`

Man kann sich die Index-Labels eines Pandas DataFrames mit der index-Eigenschaft ansehen. De Syntax sieht wie folgt aus:

DataFrame.index

python

Syntax zur Indizierung von DataFrames

Es gibt verschiedene Möglichkeiten der Indexierung von Pandas DataFrames. Die Syntax zur Indexierung variiert dabei je nach der gewünschten Operation.

Indexierung mit Labels (Spaltennamen)

Pandas DataFrames können für die Indexierung Spaltennamen nutzen. Hierfür wird zunächst ein Beispiel-DataFrame erstellt:

import pandas as pd
# Beispiel-DataFrame erstellen
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Alter': [25, 30, 35],
    'Stadt': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print(df)

python

Der DataFrame sieht wie folgt aus:

Name  Alter      Stadt
0    Alice     25     New York
1    Bob     30  Los Angeles
2  Charlie     35    Chicago

Möchten Sie nun auf alle Werte einer spezifischen Spalte zugreifen, können Sie deren Namen in Verbindung mit dem Indizierungsoperator [] zur Indexierung nutzen. Geben Sie den Spaltennamen einfach im Indizierungsoperator als Python-String an:

# Zugriff auf die Spalte „Alter“
print(df['Alter'])

python

Als Resultat erhalten Sie die verschiedenen Alterswerte:

0    25
1    30
2    35
Name: Alter, dtype: int64

Wenn Sie sich nicht nur für eine, sondern für mehrere Spalten interessieren, können Sie deren Namen einfach mit Kommata getrennt im Indizierungsoperator angeben.

Indexierung mit `loc[]` (Zeilennamen)

Wenn Sie auf eine bestimmte Zeile Ihres DataFrames zugreifen möchten, benötigen Sie hierzu den Pandas-Indexer loc. Diesem übergeben Sie entweder den Zeilennamen oder aber die Zeilennummer. Im folgenden Codebeispiel wird derselbe DataFrame wie zuvor betrachtet; es soll die nullte Spalte mit den Werten für „Alice“ extrahiert werden:

print(df.loc[0])

python

Im Ergebnis sind nun also wie erwartet die Werte sichtbar, die zu „Alice“ gehören:

Name        Alice
Alter          25
Stadt    New York
Name: 0, dtype: object

Indexierung mit `iloc[]` (Zeilen- und Spaltennummern)

Eine andere und die vermutlich populärste Möglichkeit, auf spezifische Elemente Ihres DataFrames zuzugreifen, bieten die Zeilen- und Spaltennummern. Um mit dem numerischen Pandas-DataFrame-Index zu arbeiten, benötigen Sie die DataFrame-Eigenschaft iloc.

# Zugriff auf die nullte Zeile
print(df.iloc[0])
# Zugriff auf den Wert in der nullten Zeile und ersten Spalte
print(df.iloc[0, 1])

python

Die Ergebnisse der Arbeit mit iloc[] sehen folgendermaßen aus und geben die erwarteten Werte zurück:

Name        Alice
Alter          25
Stadt    New York
Name: 0, dtype: object
25

Einzelne Werte indizieren

Wenn Sie sich nur für einen spezifischen Wert aus Ihrem DataFrame interessieren, ist der Indexer at eine schnelle und elegante Möglichkeit, diesen speziellen Wert zu extrahieren. Definieren Sie einfach die entsprechende Zeile und Spalte, in der der Wert aufzufinden ist, mit ihren Namen. Wenn also der Wohnort von Bob von Interesse ist, benötigen wir die Spalte „Stadt“ und die erste Zeile:

print(df.at(1, 'Stadt'))

python

Wie gewünscht ist die Ausgabe der Wohnort von Bob und somit „Los Angeles“.

Alternativ können Sie den iat-Indexer nutzen, der analog zu at funktioniert, statt des Namens aber die Position erwartet. Dasselbe Ergebnis wie im vorherigen Codebeispiel erhält man mit folgender Nutzung von iat:

print(df.iat(1, 2))

python

Boolesche Indexierung

Teilmengen eines DataFrames lassen sich auch basierend auf einer bestimmten Bedingung indizieren. In diesem Fall spricht man von boolescher Indizierung. Die Bedingung, die überprüft werden soll, muss entweder zu True oder zu False auswerten und wird direkt in den Indizierungsoperator gesetzt. Um nur die Zeilen zu extrahieren, in denen die Person älter als 30 ist, kann wie folgt vorgegangen werden:

# Auswahl der Zeilen, in denen das Alter größer als 30 ist
print(df[df[Alter] > 30])

python

Wie erwartet trifft die obige Bedingung nur auf den 35-jährigen „Charlie“ zu. Die Ausgabe ergibt daher Folgendes:

Name  Alter    Stadt
2  Charlie     35  Chicago

Hinweis

Beachten Sie, dass Sie bei der booleschen Indizierung sämtliche booleschen Vergleichsoperatoren nutzen können, die entweder zu True oder zu False auswerten. Erfahren Sie mehr über die verschiedenen Python-Operatoren in unserem Ratgeber-Artikel zum Thema.

Pandas iterrows(): So iterieren Sie über DataFrames

Pandas DataFrame.iterrows() ist eine Möglichkeit, um über die Zeilen eines DataFrames zu iterieren. Sie wird insbesondere dann eingesetzt, wenn eine zeilenweise Verarbeitung erforderlich ist, zum Beipsiel bei der Durchführung von Berechnungen. Erfahren Sie hier, wie Sie mit der…

Python Pandas

Mr. Kosalshutterstock

Python Pandas any() im Überblick

Die Methode Pandas DataFrame any() ist ein effizientes Werkzeug, um schnell zu prüfen, ob in einer bestimmten Achse eines DataFrames mindestens ein True-Wert vorhanden ist. Sie ist besonders hilfreich bei der Analyse und Validierung von Daten. Wir zeigen Ihnen, wie Sie die…

Python Pandas

ESB Professionalshutterstock

Pandas DataFrame: In Python Tabellen schnell und übersichtlich manipulieren!

Das Pandas-Modul ist eines der mächtigsten Werkzeuge zur Datenmanipulation in Python. Eine der zentralen Datenstrukturen in Pandas ist der DataFrame. Mit DataFrames kann man zweidimensionale, strukturierte Daten effizient und übersichtlich manipulieren. Wir erklären Ihnen anhand…

Python Pandas

ra2 studioShutterstock

Python Pandas: Die Bibliothek für Datenanalyse und -manipulation

Mithilfe von Python Pandas lassen sich Datensätze einfach verarbeiten, manipulieren und analysieren. Das ist insbesondere für Datenanalysten und -analystinnen oder Forschende sehr hilfreich. Wir zeigen Ihnen, welche Vorteile die Nutzung der Pandas-Bibliothek bietet, und erklären…

Python
Python Pandas

UndreyShutterstock

Python Pandas: Die Eigenschaft iloc[]

Bei der Arbeit mit DataFrames in Python Pandas kann es vorkommen, dass nicht alle Zeilen oder Spalten eines DataFrames für die Datenanalyse relevant sind. Die Pandas-DataFrame-Eigenschaft iloc[] ist daher ein nützliches Werkzeug, um die gewünschten Zeile oder Spalten anhand ihrer…

Python Pandas

REDPIXEL.PLShutterstock

Pandas mean(): Durchschnittswerte einfach errechnen

Pandas DataFrame.mean() ist eine Funktion zur Berechnung von Durchschnittswerten in einem DataFrame. Sie bietet Flexibilität bei der Handhabung von NaN-Werten und ermöglicht es, sowohl über Zeilen als auch über Spalten Mittelwerte zu berechnen. In diesem Artikel erfahren Sie,…

Python Pandas

Pandas: DataFrame Index verstehen

Was passiert bei der In­de­xie­rung?

Syntax von Pandas DataFrame.index

Syntax zur In­di­zie­rung von Da­ta­Frames

In­de­xie­rung mit Labels (Spal­ten­na­men)

In­de­xie­rung mit loc[] (Zei­len­na­men)

In­de­xie­rung mit iloc[] (Zeilen- und Spal­ten­num­mern)

Einzelne Werte in­di­zie­ren

Boolesche In­de­xie­rung

Was passiert bei der Indexierung?

Syntax von Pandas `DataFrame.index`

Syntax zur Indizierung von DataFrames

Indexierung mit Labels (Spaltennamen)

Indexierung mit `loc[]` (Zeilennamen)

Indexierung mit `iloc[]` (Zeilen- und Spaltennummern)

Einzelne Werte indizieren

Boolesche Indexierung