R-squared in R: Interpretation und Berechnung

R-squared (R2) ist eine Fehlermetrik der Statistik, die insbesondere für die Messung der Güte von linearen Regressionen genutzt wird. In der R-Programmierung kann sie durch einen einfachen Funktionsaufruf errechnet werden.

Wofür ist R-squared in R wichtig?

R-squared ist ein statistisches Maß, das die Qualität der Anpassung eines linearen Regressionsmodells an die Daten misst. Er nimmt Werte zwischen 0 und 1 an und ist ein zentrales Maß für die Güte von Regressionsmodellen.

Eine R-squared-Interpretation gibt Aufschluss darüber, wie dicht die beobachteten Daten an einer errechneten Regressionsgerade liegen. Hierbei gilt: Je höher der R-squared-Wert, desto besser erklärt das Modell die Daten. Ein niedriger R-squared-Wert weist auf eine schlechte Modellanpassung hin.

Tipp

Mit R können Sie eine ganze Reihe verschiedener Anwendungen programmieren. Wenn Sie eine davon hosten wollen, bietet sich ein eigener Webspace an. Bei IONOS können Sie einen Webspace mieten, der dank verschiedener Tarife Ihren individuellen Bedürfnissen gerecht wird.

R-squared in R mit linearer Regression

R-squared in R wird häufig im Kontext der linearen Regression verwendet. Da es sich bei R um eine Programmiersprache handelt, die oft in der Statistik Anwendung findet, ist es nicht verwunderlich, dass es verschiedene R-Funktionen gibt, die bei der Berechnung helfen:

x <- c(1, 2, 3, 4, 5)
y <- c(2, 4, 5, 4, 5)
model <- lm(y ~ x)
R

Im obigen Codebeispiel wurden zunächst zwei R-Vektoren namens x und y erstellt, die die Datensätze enthalten, auf denen die lineare Regression durchgeführt werden soll. Die abhängige Variable ist in diesem Falle die Variable y. Das Regressionsmodell wird im Anschluss mit der R-Funktion lm() berechnet und in der Variable model gespeichert.

Calculate R-squared in R: R2 in R berechnen

Der R2-Wert in R kann mithilfe einer Funktion errechnet werden. Hierfür benötigen Sie keine tiefergehenden Mathematikkenntnisse, sondern lediglich das Wissen darum, wie Sie die richtige Funktion anwenden. Dies ist selbst dann ein Kinderspiel, wenn sie gerade erst das Programmieren erlernen.

Die Funktion, die genutzt werden kann, um das statistische Maß zu errechnen, heißt summary(). Wie der Name schon andeutet, liefert sie eine Zusammenfassung der Regressionsanalyse, darunter auch den R-squared-Wert. Folgendes Codebeispiel, das auf der bereits errechneten linearen Regression aufbaut, zeigt die summary()-Funktion im Einsatz:

# R-squared-Wert abrufen
summary(model)$r.squared
R

Mit diesem Code können Sie den R-squared-Wert aus dem linearen Regressionsmodell lm_model extrahieren. Der R-squared-Wert gibt an, wie gut das Modell die Variation in der abhängigen Variable y erklärt, basierend auf der unabhängigen Variable x.

Im obigen Codebeispiel wird die summary()-Funktion auf das bereits errechnete Regressionsmodell angewendet. Gleichzeitig wird der R-Operator $ genutzt, um sich aus den Werten, die der Funktionsaufruf zurückliefert, nur den R-squared-Wert anzeigen zu lassen. In unserem Beispiel beträgt der Wert 0,6.

Tipp

Sie möchten tiefer in die Welt der R-Programmierung eintauchen? Unsere Ratgeberartikel helfen Ihnen dabei:

R-squared-Wert: Interpretation

Nachdem der R-squared-Wert bestimmt wurde, stellt sich die Frage, wie das Ergebnis zu interpretieren ist. Hierbei bietet es sich an, bestimmte Intervalle, die der Wert annehmen kann, zu betrachten. Wie bereits gesagt, liegt der Wertebereich des R2-Wertes zwischen 0 und 1.

  • 0 (keine Anpassung): Ein R-squared-Wert von 0 bedeutet, dass das Modell überhaupt nicht zu den Daten passt. Zwischen den untersuchten Variablen liegt in diesem Falle kein linearer Zusammenhang vor.
  • 1 (perfekte Anpassung): Ein R-squared-Wert von 1 zeigt an, dass alle Beobachtungen perfekt auf der Regressionsgeraden liegen. Dies ist äußerst selten und kann unter Umständen auf Overfitting hinweisen.
  • 0,7 bis 0,9 (gute Anpassung): Ein R-squared-Wert in diesem Intervall deutet darauf hin, dass das Modell mit hoher Wahrscheinlichkeit ein Modell ist, das die Daten ausreichend gut beschreibt.
  • 0,5 bis 0,7 (akzeptable Anpassung): Ein R-squared-Wert im Bereich von 0,5 bis 0,7 ist akzeptabel, weist aber darauf hin, dass es noch Luft nach oben gibt. Das zugehörige Modell kann also noch verbessert werden.
  • Unter 0,5 (schlechte Anpassung): Ein R-squared-Wert unter 0,5 zeigt, dass das errechnete Modell die zugrundeliegenden Daten nicht ausreichend genau beschreibt. In diesem Falle sollte das Modell auf jeden Fall angepasst werden, um aussagekräftige Ergebnisse zu erhalten.
Hinweis

Ein hoher R-squared-Wert allein reicht nicht aus, um die Qualität Ihres Modells zu beurteilen. Daher sollten auch andere Faktoren wie die Modellvalidierung, die Analyse der Residuen und die Anpassung an die spezifischen Anforderungen der Daten beachtet werden, wenn es darum geht, die Güte eines Regressionsmodelles zu bestimmen. Die bereits gezeigte summary()-Funktion gibt Ihnen weitere Kennzahlen aus, die Sie bei der Beurteilung heranziehen können.