Wie berechnet man das R-Quadrat in der Statistik?
- Einführung in das R-Quadrat
- Was bedeutet das R-Quadrat konkret?
- Berechnung des R-Quadrats
- Bedeutung und Anwendung des R-Quadrats
- Zusammenfassung
Einführung in das R-Quadrat
Das R-Quadrat, oft auch als Bestimmtheitsmaß bezeichnet, ist eine wichtige Kenngröße in der Statistik, insbesondere bei der Regressionsanalyse. Es gibt an, wie gut ein statistisches Modell die vorhandenen Daten erklärt. Einfach gesagt, zeigt das R-Quadrat an, welcher Anteil der Varianz der abhängigen Variablen durch die unabhängigen Variablen im Modell erklärt wird.
Was bedeutet das R-Quadrat konkret?
Das R-Quadrat liegt immer zwischen 0 und 1. Ein Wert von 0 bedeutet, dass das Modell keinerlei Erklärungskraft besitzt und die unabhängigen Variablen keinen Einfluss auf die abhängige Variable haben. Ein Wert von 1 hingegen bedeutet, dass das Modell die abhängige Variable perfekt erklärt. Werte dazwischen zeigen den Grad der Erklärungskraft an.
Berechnung des R-Quadrats
Das R-Quadrat wird anhand der Summe der Quadrate berechnet. Zunächst wird die Gesamtvarianz der abhängigen Variable (Gesamtsumme der Quadrate, kurz SST) bestimmt. Diese misst die Abweichungen der einzelnen Beobachtungswerte vom Mittelwert der abhängigen Variable. Danach wird die nicht erklärte Varianz (Residuenquadratsumme, RSS) berechnet, also die Summe der quadrierten Abweichungen zwischen den beobachteten Werten und den durch das Modell vorhergesagten Werten.
Das R-Quadrat ergibt sich nun als der Anteil der erklärten Varianz an der Gesamtvarianz. Mathematisch lautet die Formel:
Dabei steht RSS für die Residuenquadratsumme und SST für die Gesamtsumme der Quadrate. Je kleiner der Wert von RSS im Verhältnis zu SST ist, desto näher liegt R-Quadrat an 1 und desto besser passt das Modell zu den Daten.
Bedeutung und Anwendung des R-Quadrats
Das R-Quadrat hilft Forschern und Analysten, die Güte ihrer Prognose- oder Regressionsmodelle einzuschätzen. Ein hohes R-Quadrat bedeutet, dass das Modell die Realität gut abbildet, während ein niedriges R-Quadrat darauf hinweist, dass weitere unabhängige Variablen oder andere Modellansätze notwendig sind. Dabei sollte beachtet werden, dass ein sehr hohes R-Quadrat nicht automatisch ein gutes Modell garantiert, da beispielsweise Überanpassung (Overfitting) entstehen kann. Daher wird das R-Quadrat oft in Kombination mit weiteren Kriterien ausgewertet.
Zusammenfassung
Das R-Quadrat ist ein Maß dafür, wie gut ein statistisches Modell die Abweichungen der abhängigen Variablen erklärt. Es wird berechnet, indem die unerklärte Varianz ins Verhältnis zur Gesamtvarianz gesetzt wird. Ein Wert nahe 1 zeigt eine hohe Erklärungsrate an, während ein Wert nahe 0 auf wenig Erklärungsfähigkeit hinweist. Das R-Quadrat ist somit ein grundlegendes Werkzeug zur Modellbewertung in der Statistik.
