Skip to main content

Regressionsmodelle für kategoriale Daten und Zähldaten

  • Chapter
  • First Online:
Grundlagen der Datenanalyse mit R

Part of the book series: Statistik und ihre Anwendungen ((STATIST))

  • 7342 Accesses

Zusammenfassung

Das Modell der linearen Regression und Varianzanalyse (Abschn. 6.3 und 7.3, 12.9.1) lässt sich zum verallgemeinerten linearen Modell (GLM, generalized linear model) erweitern, das auch für Daten einer kategorialen vorherzusagenden Variable Y geeignet ist.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Chapter
USD 29.95
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
eBook
USD 44.99
Price excludes VAT (USA)
  • Available as EPUB and PDF
  • Read on any device
  • Instant download
  • Own it forever
Softcover Book
USD 59.99
Price excludes VAT (USA)
  • Compact, lightweight edition
  • Dispatched in 3 to 5 business days
  • Free shipping worldwide - see info

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

  1. 1.

    Abschn. 6.6.4 gibt Hinweise auf gemischte Regressionsmodelle und verallgemeinerte Schätzgleichungen (GEE) für abhängige Daten – etwa durch Messwiederholung oder Clusterung, die analog auf kategoriale Zielgrößen übertragen werden können.

  2. 2.

    Für die bedingte logistische Regression bei Stratifizierung der Beobachtungen vgl. clogit() aus dem Paket survival (Therneau 2020).

  3. 3.

    Für einen Prädiktor X: \(\left( \frac{\hat{P}}{1-\hat{P}}\right) _{X+1} = {\mathrm {e}}^{b_{0} + b_{1} (X + 1)} = {\mathrm {e}}^{b_{0}} \, {\mathrm {e}}^{b_{1} (X + 1)} = {\mathrm {e}}^{b_{0}} \, {\mathrm {e}}^{b_{1} X} \, {\mathrm {e}}^{b_{1}} = {\mathrm {e}}^{b_{1}} \, {\mathrm {e}}^{b_{0} + b_{1} X} = {\mathrm {e}}^{b_{1}} \, \left( \frac{\hat{P}}{1-\hat{P}}\right) _{X}\).

  4. 4.

    Die so ermittelten Konfidenzintervalle basieren auf der Profile-Likelihood-Methode und sind asymmetrisch. Demgegenüber berechnet symmetrische Wald-Konfidenzintervalle, die asymptotische Normalverteilung der Parameterschätzungen voraussetzen.

  5. 5.

    In der Voreinstellung gibt Devianz-Residuen aus. Für andere Residuen-Varianten kann das Argument type verwendet werden (vgl. ?residuals.glm).

  6. 6.

    Für die gewöhnliche lineare Regression stimmen Devianz und Fehlerquadratsumme überein.

  7. 7.

    Bei der gewöhnlichen linearen Regression wie auch bei der logistischen Regression mit der quasi-binomial Familie (s. u.) ist zusätzlich ein Varianzparameter zu schätzen. Hier beträgt die Anzahl also \(p+1+1\).

  8. 8.

    Anders als in der linearen Regression lassen sich die pseudo-\(R^{2}\)-Maße jedoch nicht als Verhältnis von Variabilitäten verstehen. Ihre Vergleichbarkeit über verschiedene Datensätze hinweg ist zudem eingeschränkt – so beziehen etwa \( R^{2}_{\text {Cox} \& \text {Snell}}\) sowie \(R^{2}_{\text {Nagelkerke}}\) neben der absoluten Anpassung auch die Stichprobengröße ein.

  9. 9.

    Für weitere Gütemaße der Modellanpassung vgl. die Funktion lrm() aus dem Paket rms, die auch die Fläche unter der ROC-Kurve AUC (Abschn. 10.2.7, äquivalent zu Harrels C) ebenso bestimmt wie Somers’ d, Goodman und Kruskals \(\gamma \) sowie Kendalls \(\tau \) für die vorhergesagten Wahrscheinlichkeiten und beobachteten Werte (Abschn. 10.3.1).

  10. 10.

    Dies ist der Fall, wenn die kanonische Link-Funktion und Maximum-Likelihood-Schätzungen der Parameter gewählt werden und das Modell einen absoluten Term \(\beta _{0}\) beinhaltet.

  11. 11.

    Vergleiche Abschn. 13.2 für die Kreuzvalidierung zur Abschätzung der Vorhersagegüte in neuen Stichproben sowie Abschn. 10.2.6, 10.2.7 und 10.3.3 für weitere Möglichkeiten, Klassifikationen zu analysieren. Siehe Abschn. 12.8 für die Diskriminanzanalyse sowie die dortige Fußnote 42 für Hinweise zu weiteren Klassifikationsverfahren.

  12. 12.

    Bei Wald-Tests kann etwa das Hauck-Donner-Phänomen auftreten: Bei starken Effekten (sehr große \(\beta _{j}\)) sind die berechneten Streuungen \(\hat{\sigma }_{b}\) dann deutlich zu groß, wodurch Wald-Tests der Parameter fälschlicherweise nicht signifikant werden.

  13. 13.

    Andere Formulierungen des Modells sind möglich. So legt etwa SPSS das Modell \(\text {logit}(P(Y \le g)) = \beta _{0_{g}} - (\beta _{1} X_{1} + \dots + \beta _{p} X_{p})\) mit der Nebenbedingung \(\beta _{0_{1}}< \dots < \beta _{0_{k-1}}\) zugrunde, das jedoch nur zu umgedrehten Vorzeichen der Schätzungen für die \(\beta _{0_{g}}\) führt. Mit derselben Nebenbedingung ließe sich das Modell auch als \(\text {logit}(P(Y \le g)) = \beta _{0_{g}} + \beta _{1} X_{1} + \dots + \beta _{p} X_{p}\) formulieren. In diesem Modell führt ein höherer Prädiktorwert \(X_{j}\) bei positivem \(\beta _{j}\) zu einer höheren Chance, dass eine niedrigere Kategorie von Y erreicht wird. Entsprechend haben hier die Schätzungen für alle Parameter umgekehrte Vorzeichen.

  14. 14.

    Alternative proportional odds Modelle sind zum einen mit adjacent category Logits \(\ln \frac{P(Y=g)}{P(Y=g-1)}\) möglich, zum anderen mit continuation ratio (sequentiellen) Logits \(\ln \frac{P(Y=g)}{P(Y<g)}\).

  15. 15.

    Mit vglm() ist es möglich, auch die proportional odds Modelle mit adjacent category Logits bzw. continuation ratio Logits anzupassen (Abschn. 8.2, Fußnote 14). Dazu ist family auf acat(parallel=TRUE) bzw. auf sratio(parallel=TRUE) zu setzen. Eine weitere Option für acat() bzw. sratio() ist dabei das Argument reverse, das die Vergleichsrichtung dieser Logits bzgl. der Stufen von Y kontrolliert und auf TRUE oder FALSE gesetzt werden kann.

  16. 16.

    Weitere Gütemaße der Modellanpassung erzeugt orm() aus dem Paket rms (Abschn. 8.1.3, Fußnote 9).

  17. 17.

    Kurz \(\ln \frac{P(Y = g)}{P(Y = 1)} = {{\textit{\textbf{X}}}} {\beta }_{g}\). In der Referenzkategorie 1 sind die Parameter wegen \(\ln \frac{P(Y = 1)}{P(Y = 1)} = \ln 1 = 0\) festgelegt, und es gilt \(\beta _{0_{1}} = \beta _{j_{1}} = 0\) (mit \(j = 1, \ldots , p\)) sowie \({\mathrm {e}}^{{{\textit{\textbf{X}}}} {\beta }_{g}} = {\mathrm {e}}^{0} = 1\).

  18. 18.

    Dabei wird Unabhängigkeit von irrelevanten Alternativen angenommen: Für die Chance beim paarweisen Vergleich von g mit der Referenzkategorie soll die Existenz weiterer Kategorien irrelevant sein. Ohne diese Annahme kommen etwa Bradley-Terry-Modelle aus, von denen eine eingeschränkte Variante mit  brat() aus dem Paket VGAM angepasst werden kann.

  19. 19.

    Dies ist der Fall, wenn die kanonische Link-Funktion und Maximum-Likelihood-Schätzungen der Parameter gewählt werden und das Modell die absoluten Terme \(\beta _{0_{g}}\) besitzt.

  20. 20.

    Für einen Prädiktor X: \(\mu _{X+1} = {\mathrm {e}}^{\beta _{0} + \beta _{1} (X + 1)} = {\mathrm {e}}^{\beta _{0}} \, {\mathrm {e}}^{\beta _{1} (X + 1)} = {\mathrm {e}}^{\beta _{0}} \, {\mathrm {e}}^{\beta _{1} X} \, {\mathrm {e}}^{\beta _{1}} = {\mathrm {e}}^{\beta _{1}} \, {\mathrm {e}}^{\beta _{0} + \beta _{1} X} = {\mathrm {e}}^{\beta _{1}} \, \mu _{X}\).

  21. 21.

    Bei der Verwendung von vglm() aus dem Paket VGAM ist das Argument family auf poissonff zu setzen.

  22. 22.

    Bei der Verwendung von vglm() aus dem Paket VGAM ist das Argument family auf negbinomial zu setzen.

  23. 23.

    Bei der Verwendung von vglm() aus dem Paket VGAM ist das Argument family auf zipoissonff zu setzen.

  24. 24.

    Bei der Verwendung von vglm() aus dem Paket VGAM ist das Argument family auf zinegbinomial zu setzen.

  25. 25.

    Anders als in der Varianzanalyse gibt es jedoch im log-linearen Modell nur eine Beobachtung pro Zelle, die Rolle der abhängigen Variable der Varianzanalyse hat im log-linearen Modell die logarithmierte Auftretenshäufigkeit der zur Zelle gehörenden Kombination von Faktorstufen.

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Daniel Wollschläger .

Rights and permissions

Reprints and permissions

Copyright information

© 2020 Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature

About this chapter

Check for updates. Verify currency and authenticity via CrossMark

Cite this chapter

Wollschläger, D. (2020). Regressionsmodelle für kategoriale Daten und Zähldaten. In: Grundlagen der Datenanalyse mit R. Statistik und ihre Anwendungen. Springer Spektrum, Berlin, Heidelberg. https://doi.org/10.1007/978-3-662-61736-6_8

Download citation

Publish with us

Policies and ethics