Definition „Korrelation“ Was ist Datenkorrelation?

Von Pyrocco

Datenkorrelation beschreibt die statistische Beziehung zwischen zwei Datenvariablen (z.B. Zustände oder Eigenschaften). In der Statistik ist Datenkorrelation jede statistische Beziehung – ob kausal (abhängig) oder nicht – zwischen zwei Variablen.

Durch die Korrelation von Daten lassen sich weitergehende Erkenntnisse über wichtige Ereignisse und Metriken erschließen.
Durch die Korrelation von Daten lassen sich weitergehende Erkenntnisse über wichtige Ereignisse und Metriken erschließen.
(Bild: jmexcklusives (bearbeitet) / Pixabay)

Mit der Korrelation als Maß des Zusammenhangs zwischen Daten soll zweierlei geklärt werden:

  • Wie stark ist der Zusammenhang?
  • Welche Richtung hat der Zusammenhang?

Eine Korrelation von Null heißt, es besteht kein Zusammenhang. Der Wert Eins bedeutet vollständiger Zusammenhang, d.h. vollständige Abhängigkeit.

Positive und negative Korrelation

Eine positive Korrelation bedeutet, dass mit dem Anstieg der einen Variable auch die andere Variable steigt oder sinkt. Ein Beispiel ist die positive Korrelation von Studienzeit pro Woche und Höhe des Studienabschlusses. Wer regelmäßig viel lernt, erreicht einen tendenziell höheren Studienabschluss.

Bei negativer Korrelation (auch Antikorrelation genannt) verhält sich die eine Variable umgekehrt zur anderen: wenn die eine steigt oder sinkt, bewegt sich die andere in der umgekehrten Richtung. Beispielsweise sinkt die Tankfüllung eines KFZ mit zunehmender Wegstrecke.

Sättigungsgrenze

Oft gibt es eine sogenannte Sättigungsgrenze. Beispielsweise fährt ein KFZ nicht beliebig schneller, je mehr Gas man gibt. In Korrelationen der Wirtschaft gilt häufig: je näher man der Sättigungsgrenze kommt, umso mehr steigen die Kosten und sinkt der Nutzen.

Korrelation muss nicht Kausalität bedeuten

Im Allgemeinen reicht eine Korrelation nicht aus, um auf einen kausalen Zusammenhang zu schließen. Nur weil sich eine Variable tendenziell immer dann verändert, wenn sich eine andere verändert, bedeutet das nicht automatisch, dass die eine Variable die Veränderung der anderen verursacht.

Eine hohe Korrelation kann zwar auf eine Kausalität hindeuten, ebenso kann es aber auch andere Erklärungen dafür geben:

  • Es kann sich um reinen Zufall handeln, so dass keine Beziehung zwischen den Variablen besteht.
  • Es kann eine dritte, nicht bekannte Variable geben, die die Beziehung zwischen der ersten und der zweiten stärker (oder schwächer) als sie ist erscheinen lässt. Die beiden beobachteten Variablen sind dann beide mit dieser dritten verbunden.

Beispiele

Der Verkauf von Eiscreme korreliert mit dem Auftreten von Sonnenbränden. Beides rührt aber von einer dritten Variable her, dem Aufenthalt im Freien bei erhöhter Sonneneinstrahlung.

Beispiele für voneinander abhängige Phänomene sind die Korrelation zwischen der Körpergröße von Eltern und ihren Nachkommen und die Korrelation zwischen dem Preis eines Produkts und der Menge, die Verbraucher bereit sind zu kaufen, dargestellt in der sogenannten Nachfragekurve.

Korrelationen sind nützlich für Vorhersagen. Beispielsweise kann ein Stromversorger aufgrund der Korrelation zwischen Strombedarf und Wetter an einem milden Tag weniger Strom produzieren. In diesem Beispiel gibt es eine kausale Beziehung, da sehr kaltes oder sehr warmes Wetter die Menschen dazu veranlasst, mehr Strom zum Heizen oder Kühlen zu verwenden.

(ID:47499332)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Softwareentwicklung und DevOps

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung