R-squared in R: Interpretation und Berechnung

IONOS Redaktion10.11.20234 mins

Inhaltsverzeichnis

R-squared (R2) ist eine Fehlermetrik der Statistik, die insbesondere für die Messung der Güte von linearen Regressionen genutzt wird. In der R-Programmierung kann sie durch einen einfachen Funktionsaufruf errechnet werden.

Wofür ist R-squared in R wichtig?

R-squared ist ein statistisches Maß, das die Qualität der Anpassung eines linearen Regressionsmodells an die Daten misst. Er nimmt Werte zwischen 0 und 1 an und ist ein zentrales Maß für die Güte von Regressionsmodellen.

Eine R-squared-Interpretation gibt Aufschluss darüber, wie dicht die beobachteten Daten an einer errechneten Regressionsgerade liegen. Hierbei gilt: Je höher der R-squared-Wert, desto besser erklärt das Modell die Daten. Ein niedriger R-squared-Wert weist auf eine schlechte Modellanpassung hin.

Tipp

Mit R können Sie eine ganze Reihe verschiedener Anwendungen programmieren. Wenn Sie eine davon hosten wollen, bietet sich ein eigener Webspace an. Bei IONOS können Sie einen Webspace mieten, der dank verschiedener Tarife Ihren individuellen Bedürfnissen gerecht wird.

R-squared in R mit linearer Regression

R-squared in R wird häufig im Kontext der linearen Regression verwendet. Da es sich bei R um eine Programmiersprache handelt, die oft in der Statistik Anwendung findet, ist es nicht verwunderlich, dass es verschiedene R-Funktionen gibt, die bei der Berechnung helfen:

x <- c(1, 2, 3, 4, 5)
y <- c(2, 4, 5, 4, 5)
# Lineare Regression
model <- lm(y ~ x)

Im obigen Codebeispiel wurden zunächst zwei R-Vektoren namens x und y erstellt, die die Datensätze enthalten, auf denen die lineare Regression durchgeführt werden soll. Die abhängige Variable ist in diesem Falle die Variable y. Das Regressionsmodell wird im Anschluss mit der R-Funktion lm() berechnet und in der Variable model gespeichert.

Calculate R-squared in R: R2 in R berechnen

Der R2-Wert in R kann mithilfe einer Funktion errechnet werden. Hierfür benötigen Sie keine tiefergehenden Mathematikkenntnisse, sondern lediglich das Wissen darum, wie Sie die richtige Funktion anwenden. Dies ist selbst dann ein Kinderspiel, wenn sie gerade erst das Programmieren erlernen.

Die Funktion, die genutzt werden kann, um das statistische Maß zu errechnen, heißt summary(). Wie der Name schon andeutet, liefert sie eine Zusammenfassung der Regressionsanalyse, darunter auch den R-squared-Wert. Folgendes Codebeispiel, das auf der bereits errechneten linearen Regression aufbaut, zeigt die summary()-Funktion im Einsatz:

# R-squared-Wert abrufen
summary(model)$r.squared

Mit diesem Code können Sie den R-squared-Wert aus dem linearen Regressionsmodell lm_model extrahieren. Der R-squared-Wert gibt an, wie gut das Modell die Variation in der abhängigen Variable y erklärt, basierend auf der unabhängigen Variable x.

Im obigen Codebeispiel wird die summary()-Funktion auf das bereits errechnete Regressionsmodell angewendet. Gleichzeitig wird der R-Operator $ genutzt, um sich aus den Werten, die der Funktionsaufruf zurückliefert, nur den R-squared-Wert anzeigen zu lassen. In unserem Beispiel beträgt der Wert 0,6.

Tipp

Sie möchten tiefer in die Welt der R-Programmierung eintauchen? Unsere Ratgeberartikel helfen Ihnen dabei:

R-squared-Wert: Interpretation

Nachdem der R-squared-Wert bestimmt wurde, stellt sich die Frage, wie das Ergebnis zu interpretieren ist. Hierbei bietet es sich an, bestimmte Intervalle, die der Wert annehmen kann, zu betrachten. Wie bereits gesagt, liegt der Wertebereich des R2-Wertes zwischen 0 und 1.

0 (keine Anpassung): Ein R-squared-Wert von 0 bedeutet, dass das Modell überhaupt nicht zu den Daten passt. Zwischen den untersuchten Variablen liegt in diesem Falle kein linearer Zusammenhang vor.
1 (perfekte Anpassung): Ein R-squared-Wert von 1 zeigt an, dass alle Beobachtungen perfekt auf der Regressionsgeraden liegen. Dies ist äußerst selten und kann unter Umständen auf Overfitting hinweisen.
0,7 bis 0,9 (gute Anpassung): Ein R-squared-Wert in diesem Intervall deutet darauf hin, dass das Modell mit hoher Wahrscheinlichkeit ein Modell ist, das die Daten ausreichend gut beschreibt.
0,5 bis 0,7 (akzeptable Anpassung): Ein R-squared-Wert im Bereich von 0,5 bis 0,7 ist akzeptabel, weist aber darauf hin, dass es noch Luft nach oben gibt. Das zugehörige Modell kann also noch verbessert werden.
Unter 0,5 (schlechte Anpassung): Ein R-squared-Wert unter 0,5 zeigt, dass das errechnete Modell die zugrundeliegenden Daten nicht ausreichend genau beschreibt. In diesem Falle sollte das Modell auf jeden Fall angepasst werden, um aussagekräftige Ergebnisse zu erhalten.

Hinweis

Ein hoher R-squared-Wert allein reicht nicht aus, um die Qualität Ihres Modells zu beurteilen. Daher sollten auch andere Faktoren wie die Modellvalidierung, die Analyse der Residuen und die Anpassung an die spezifischen Anforderungen der Daten beachtet werden, wenn es darum geht, die Güte eines Regressionsmodelles zu bestimmen. Die bereits gezeigte summary()-Funktion gibt Ihnen weitere Kennzahlen aus, die Sie bei der Beurteilung heranziehen können.

War dieser Artikel hilfreich?

R-Operators: Überblick zu R-Operatoren

Operatoren werden in Programmiersprachen wie R genutzt, um Werte zuzuweisen, arithmetische Berechnungen durchzuführen oder logische Bedingungen zu überprüfen. Wir erklären Ihnen, was logische Operatoren in R genau sind, und zeigen Ihnen anhand von Codebeispielen, welche Arten von…

Tutorials

REDPIXEL.PLShutterstock

R-Strings im Überblick

Zeichenketten gibt es in so gut wie jeder Programmiersprache. Auch R kennt Strings und bildet somit keine Ausnahme. Hier erfahren Sie, was es mit Strings in R genau auf sich hat, und lernen Sie die nützlichsten R-String-Functions kennen. Wir zeigen Ihnen anhand von einfachen…

Tutorials

Arrays in R: So funktionieren Arrays in der beliebten Programmiersprache

Wie in den meisten Programmiersprachen können Programmierende auch in R auf Arrays zurückgreifen, um gleichartige Daten innerhalb einer Struktur abzulegen. Wir zeigen Ihnen mit Code-Beispielen, wie Sie Arrays in R erstellen und inwiefern sie sich von Arrays, die Sie vielleicht…

Tutorials

kentohShutterstock

R: predict()-Funktion für prädiktive Modellierung

Die R predict()-Funktion ist vielseitig einsetzbar und kann auf verschiedene Modelle angewendet werden, darunter lineare Modelle oder Entscheidungsbäume. Sie dürfen Vorhersagen durch mehrere Parameter anpassen. Zum Beispiel können Sie Konfidenzintervalle festlegen oder…

Tutorials

whiteMoccashutterstock

R gsub() und sub(): Strings und Zeichen ersetzen

Die Funktionen R gsub() und sub() werden eingesetzt, um nach bestimmten Mustern (Regular Expressions) in Strings zu suchen und diese durch andere Zeichenketten zu ersetzen. Mit den beiden Methoden können Sie so unerwünschte Zeichen in großen Datensätzen effizient entfernen oder…

Tutorials

ra2 studioShutterstock

R substring(): So extrahieren Sie Informationen aus Strings

Mit R substring() können Sie problemlos Teilzeichenketten aus einem größeren String extrahieren, indem Sie den Start- und Endindex angeben. Die Funktion hilft Ihnen daher beim Arbeiten mit unstrukturierten Daten und beim Ermitteln spezifischer Informationen. Wir erläutern Ihnen…

Tutorials