R/S-Plus für Einsteiger und für Fortgeschrittene - STAMATS

Lehrstuhl 

Mathematik VII 

R/S-Plus für Einsteiger 

und für Fortgeschrittene 

ein Kurs über zwei Semester 

entstanden in den Semestern SS 2002, WS 2002/03, SS 2003 

revidiert im WS 2004/05 und im SS 2006 

Peter Ruckdeschel 

Matthias Kohl 

E-mail: peter.ruckdeschel@uni-bayreuth.de 

matthias.kohl@stamats.de 

 


R/S-plus für 

Einsteiger und 

Fortgeschrittene 

1

Inhaltsverzeichnis 

 

 



Matthias Kohl 




. . 

2

Inhaltsverzeichnis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 

0 Vorwort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 

0.1 zur Veranstaltung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 

0.1.1 Rahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 

0.1.2 Adressaten / Ziele. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 

0.1.3 Anordnung des Stoffs . . . . . . . . . . . . . . . . . . . . . . . . . . 42 

0.1.4 Quellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 

0.1.5 zum Gebrauch des .pdf–Files . . . . . . . . . . . . . . . . . . 49 

0.1.6 Danksagung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 

0.2 Kurzvorstellung R/S-Plus 

c.f. Venables and Ripley (1999). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 

0.2.1 Einsatzgebiete von R/S-Plus . . . . . . . . . . . . . . . . . . 55 

0.2.2 S-Plus und R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 

0.2.3 Vergleich mit anderen Paketen / Sprachen . . . . . . 59 

 



Matthias Kohl 




. . 

3

0.3 Vorschläge für Referatthemen. . . . . . . . . . . . . . . . . . . . . . . 62 

0.3.1 Eingabe / Import von Daten in R / S-Plus . . . . 62 

0.3.2 Graphik: die vielen Parameter von plot und 

der par-Befehl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 

0.3.3 Export von Daten und Graphik . . . . . . . . . . . . . . . . . 64 

0.3.4 Klassen und objektorientierte Programmierung . . 65 

0.3.5 Speicherverwaltung in R / S-Plus . . . . . . . . . . . . . 66 

0.3.6 Schnittstellenprogrammierung . . . . . . . . . . . . . . . . . . 67 

0.3.7 Bibliotheken (libraries) und Zusatzpakete 

(Packages). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 

0.3.8 Organisation von CRAN und Veröffentlichung 

eigener Routinen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 

0.4 Aufbau der Sprache . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 

 

0.5 Wo bekomme ich (online-)Hilfe? . . . . . . . . . . . . . . . . . . . . 72 

 



Matthias Kohl 




. . 

4

0.6 eine kommentierte Literaturliste . . . . . . . . . . . . . . . . . . . . 75 

0.7 eine elementare Sitzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 

1 Die Sprache S / R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 

1.1 Grundstrukturen in R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 

1.1.0 Wiederholung: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 

1.1.1 Konventionen bei der Namensvergabe . . . . . . . . . . 88 

1.1.2 Sprachaufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 

1.2 wichtige Objekte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 

1.2.1 Vektoren. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 

1.2.2 Matrizen und Arrays. . . . . . . . . . . . . . . . . . . . . . . . . . . 91 

1.2.3 Listen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 

1.2.4 Funktionen I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 

1.2.5 Faktoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 

1.2.6 Data-Frames . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 

 



Matthias Kohl 




. . 

5

1.2.7 Typ-Umwandlung / Casting. . . . . . . . . . . . . . . . . . .100 

1.3 Dateneingabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .101 

1.3.1 Eingabe von Hand. . . . . . . . . . . . . . . . . . . . . . . . . . . .101 

1.3.2 Automatisches Füllen von Objekten . . . . . . . . . . .102 

1.3.3 Einlesen von Daten I . . . . . . . . . . . . . . . . . . . . . . . . .104 

1.3.4 Einlesen von Daten II — 

Dateneingabe und Import unter R / 

S-Plus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .107 

1.4 Arithmetik. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .136 

1.4.1 implizites Casting . . . . . . . . . . . . . . . . . . . . . . . . . . . .136 

1.4.2 zyklisches Auffüllen. . . . . . . . . . . . . . . . . . . . . . . . . . .137 

1.4.3 einige Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . .137 

1.4.4 Auswertungsreihenfolge . . . . . . . . . . . . . . . . . . . . . . .139 

1.4.5 Logische Ausdrücke . . . . . . . . . . . . . . . . . . . . . . . . . .140 

 



Matthias Kohl 




. . 

6

1.4.6 Missings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .140 

1.5 String-Operationen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .141 

1.6 Indizes und Arrays . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .143 

1.6.1 Indizierungsmöglichkeiten . . . . . . . . . . . . . . . . . . . . .143 

1.6.2 Arrays und Indizierung. . . . . . . . . . . . . . . . . . . . . . . .146 

1.6.3 Arithmetik mit Arrays . . . . . . . . . . . . . . . . . . . . . . . .148 

1.6.4 Sortieren. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .149 

1.7 Matrix–Operationen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .150 

1.7.1 Anhängen von Spalten und Zeilen . . . . . . . . . . . . .150 

1.7.2 Matrixprodukte und Transposition. . . . . . . . . . . . .151 

1.7.3 apply und sweep . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .153 

1.7.4 Funktionen in Matrizen . . . . . . . . . . . . . . . . . . . . . . .155 

1.8 Funktionen von Faktoren und Listen . . . . . . . . . . . . . . .156 

1.7.5 Casting für Matrizen und Data-Frames . . . . . . . .156 

 



Matthias Kohl 




. . 

7

1.8.1 ein hypothetisches Datenbeispiel . . . . . . . . . . . . . .156 

1.8.2 table und tabulate . . . . . . . . . . . . . . . . . . . . . . . . . . . .157 

1.8.3 tapply . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .158 

1.8.4 split . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .159 

1.8.5 lapply und sapply . . . . . . . . . . . . . . . . . . . . . . . . . . . . .159 

1.9 Datenausgabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .160 

1.9.1 Ausgabe auf File . . . . . . . . . . . . . . . . . . . . . . . . . . . . .160 

1.9.2 Umleiten der Ausgabe / Drucken. . . . . . . . . . . . . .164 

1.10 Arbeiten mit dem System . . . . . . . . . . . . . . . . . . . . . . . .165 

1.10.1 File- und URL-zugriffe unter R. . . . . . . . . . . . . . . .165 

1.10.2 R-Skripte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .166 

1.10.3 Auffinden von S-Objekten . . . . . . . . . . . . . . . . . . .167 

1.10.4 Systemkonfiguration. . . . . . . . . . . . . . . . . . . . . . . . .171 

1.10.5 History–File . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .175 

 



Matthias Kohl 




. . 

8

2 Einfache explorative Analyse. . . . . . . . . . . . . . . . . . . . . . . . . .176 

2.1 etwas Stochastik/Statistik . . . . . . . . . . . . . . . . . . . . . . . . .176 

2.1.1 Wahrscheinlichkeitsmaße. . . . . . . . . . . . . . . . . . . . . .176 

2.1.2 Zufallsvariablen und Verteilungen. . . . . . . . . . . . . .177 

2.1.3 wichtige Verteilungen. . . . . . . . . . . . . . . . . . . . . . . . .181 

2.1.4 Umsetzung in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .186 

2.2 Verteilungen mit den Zusatzpaketen distr und 

distrEx . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .189 

2.3 Simulation von Zufallsvariablen . . . . . . . . . . . . . . . . . . . .194 

2.3.1 Was sind “gute” Zufallszahlen? . . . . . . . . . . . . . . . .194 

2.3.2 Schritt 1: Erzeugung von 

; typische 

Zufallszahlengeneratoren . . . . . . . . . . . . . . . . . . . . . .195 

2.3.3 Qualitätskontrolle für Pseudozufallszahlen . . . . .210 

 



Matthias Kohl 




. . 

9

2.3.4 Schritt 2: Anamorphose. . . . . . . . . . . . . . . . . . . . . . .213 

2.4 Univariate, num. Kenngrößen . . . . . . . . . . . . . . . . . . . . . .228 

2.4.1 die empirische Verteilung . . . . . . . . . . . . . . . . . . . . .228 

2.4.2 Zusammefassungen . . . . . . . . . . . . . . . . . . . . . . . . . . .229 

2.4.3 Lokationsmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .230 

2.4.4 Streuungs–/Dispersionsmaße . . . . . . . . . . . . . . . . . .230 

2.4.5 Symmetrie / Krümmung . . . . . . . . . . . . . . . . . . . . . .231 

2.4.6 Zusammenhangsmaße . . . . . . . . . . . . . . . . . . . . . . . .231 

2.4.7 getrimmte und winsorisierte Varianten . . . . . . . . .232 

2.5 graphische univariate Analyse . . . . . . . . . . . . . . . . . . . . . .234 

2.5.1 Histogramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .234 

2.5.2 empirische Verteilungsfunktion . . . . . . . . . . . . . . . .235 

2.5.3 Boxplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .236 

 



Matthias Kohl 




. . 

10

2.5.4 Visualisierung diskreter Zufallsvariablen . . . . . . . .238 

2.6 ein ausgearbeitetes Beispiel . . . . . . . . . . . . . . . . . . . . . . . .241 

2.7 Dichteschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .247 

2.7.1 Häufigkeitspolygon . . . . . . . . . . . . . . . . . . . . . . . . . . .248 

2.7.2 ASH und WARP . . . . . . . . . . . . . . . . . . . . . . . . . . . . .249 

2.7.3 Kerndichteschätzung . . . . . . . . . . . . . . . . . . . . . . . . .251 

2.8 Anwendungen von Zufallszahlen . . . . . . . . . . . . . . . . . . .255 

2.8.1 Simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .255 

2.8.2 Daten–Augmentation . . . . . . . . . . . . . . . . . . . . . . . . .258 

2.8.3 Integration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .258 

2.8.4 globale Optimierung . . . . . . . . . . . . . . . . . . . . . . . . . .265 

2.9 Resampling–Techniken . . . . . . . . . . . . . . . . . . . . . . . . . . . .266 

2.9.1 Idee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .266 

2.9.2 Jack-Knife . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .267 

 



Matthias Kohl 




. . 

11

2.9.3 Bootstrap. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .268 

2.9.4 Bagging und Boosting . . . . . . . . . . . . . . . . . . . . . . . .274 

3 Programmierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .275 

3.1 Kontrollstrukturen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .275 

3.1.1 Gruppierung von Befehlen: Blöcke . . . . . . . . . . . . .275 

3.1.2 Bedingte Ausführung von Blöcken. . . . . . . . . . . . .276 

3.1.3 Schleifen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .281 

3.2 Vermeidung von for-Schleifen . . . . . . . . . . . . . . . . . . . . .284 

3.2.1 Schleifen sind langsam! . . . . . . . . . . . . . . . . . . . . . . .284 

3.2.2 ein Beispiel: Blatt 5 Aufgabe 1 . . . . . . . . . . . . . . . .285 

3.2.3 Tricks zur Vermeidung von Schleifen . . . . . . . . . .293 

3.3 Schreiben von Funktionen . . . . . . . . . . . . . . . . . . . . . . . . .296 

3.3.1 Syntax. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .296 

3.3.2 Editieren von Funktionen . . . . . . . . . . . . . . . . . . . . .304 

 



Matthias Kohl 




. . 

12

3.3.3 Fehlerbehandlung . . . . . . . . . . . . . . . . . . . . . . . . . . . .305 

3.3.4 Hilfe-Files / Dokumentation . . . . . . . . . . . . . . . . . .309 

3.4 Debugging. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .310 

3.4.1 Exkurs: Exception-Handling in R . . . . . . . . . . . . . .311 

3.4.2 Post-mortem Analyse . . . . . . . . . . . . . . . . . . . . . . . . .312 

3.4.3 Selbst ausgelöste Exceptions . . . . . . . . . . . . . . . . . .317 

3.4.4 Übersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .321 

3.4.5 in S-Plus: inspect . . . . . . . . . . . . . . . . . . . . . . . . . . .323 

3.5 Systemaufrufe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .323 

3.5.1 system . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .323 

3.5.2 shell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .329 

3.5.3 Platformunabhängige Systemzugriffe . . . . . . . . . .330 

3.6 Rekursionen und Frames . . . . . . . . . . . . . . . . . . . . . . . . . .333 

3.5.4 Unix–Spezifika . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .332 

 



Matthias Kohl 




. . 

13

3.6.1 Beispiel: ein adaptives Verfahren zur 

numerischen Integration . . . . . . . . . . . . . . . . . . . . . .334 

3.6.2 Frames . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .338 

3.6.3 Programmieroperationen auf der Sprache . . . . . .345 

4 Graphiken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .352 

4.1 Ausgabegeräte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .352 

4.1.1 Betriebssystem–Treiber . . . . . . . . . . . . . . . . . . . . . . .352 

4.1.2 Ausdruck mit postscript . . . . . . . . . . . . . . . . . . . . . .356 

4.1.3 andere Ausgabeformate . . . . . . . . . . . . . . . . . . . . . . .359 

4.2 der plot und der par Befehl . . . . . . . . . . . . . . . . . . . . . .360 

4.2.1 Die par – Funktion . . . . . . . . . . . . . . . . . . . . . . . . . . .360 

4.2.2 Befehle zur Aufteilung des Graphsheets . . . . . . . .362 

4.2.3 Die plot–Funktion . . . . . . . . . . . . . . . . . . . . . . . . . . . .363 

4.2.4 alternatives Paket zu plot: grid . . . . . . . . . . . . . . . .369 

 



Matthias Kohl 




. . 

14

4.2.5 ein Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .370 

4.3 einige Tabellen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .371 

4.3.1 Symbole für pch . . . . . . . . . . . . . . . . . . . . . . . . . . . . .371 

4.3.2 Farben. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .371 

4.3.3 Linientypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .373 

4.3.4 Linienbreiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .373 

4.4 weitere grundlegende Plot–Befehle . . . . . . . . . . . . . . . . .375 

4.4.1 eine Übersicht. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .375 

4.4.2 Univariate Graphiken . . . . . . . . . . . . . . . . . . . . . . . . .378 

4.4.3 multivariate Diagramme . . . . . . . . . . . . . . . . . . . . . .389 

4.4.4 Interaktive Graphik . . . . . . . . . . . . . . . . . . . . . . . . . . .393 

4.4.5 Filme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .397 

4.4.6 Flächendiagramme . . . . . . . . . . . . . . . . . . . . . . . . . . .399 

 



Matthias Kohl 




. . 

15

4.5 Grafikaufbereitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .400 

4.5.1 mehrere Plots in einem Diagramm . . . . . . . . . . . .400 

4.5.2 Hinzufügen von Information. . . . . . . . . . . . . . . . . . .405 

4.5.3 interaktives Bearbeiten . . . . . . . . . . . . . . . . . . . . . . .411 

4.5.4 Mathematik in Labels . . . . . . . . . . . . . . . . . . . . . . . .415 

4.6 Bedingte Plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .418 

4.7 Export von Daten und Graphik . . . . . . . . . . . . . . . . . . . .425 

4.7.1 Export von Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . .425 

4.7.2 Export von Graphik . . . . . . . . . . . . . . . . . . . . . . . . . .429 

5 Schätzen und Testen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .432 

5.1 klassische univariate Tests . . . . . . . . . . . . . . . . . . . . . . . . .432 

5.1.1 Abriss Testtheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . .432 

5.1.2 Gaußtest–Einstichprobenfall . . . . . . . . . . . . . . . . . . .436 

5.1.3 -Test für Mittelwert . . . . . . . . . . . . . . . . . . . . . . . . .437 

 



Matthias Kohl 




. . 

16

5.1.4 -Test für Varianzen . . . . . . . . . . . . . . . . . . . . . . . .439 

5.1.5 -Test für Varianzen . . . . . . . . . . . . . . . . . . . . . . . . .440 

5.1.6 Binomialtest — Einstichprobenfall. . . . . . . . . . . . .441 

5.1.7 exakter Test von Fisher — Zweistichprobenfall .442 

5.1.8 graphische Anpassungstests . . . . . . . . . . . . . . . . . . .443 

5.1.9 Shapiro–Wilk Normalverteilungstest . . . . . . . . . . .446 

5.1.10 Kolmogoroff(–Smirnoff)–Test . . . . . . . . . . . . . . . .447 

5.1.11 –Anpassungstest . . . . . . . . . . . . . . . . . . . . . . . . . .448 

5.1.12 Wilcoxon–Rangtest . . . . . . . . . . . . . . . . . . . . . . . . . .449 

5.1.13 Korrelationstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . .450 

5.2 Schätzen eines Parameters . . . . . . . . . . . . . . . . . . . . . . . .452 

5.2.1 Abriss der klassischen Schätztheorie . . . . . . . . . . .452 

5.2.2 Schätzen eines Parameters in R . . . . . . . . . . . . . . .456 

 



Matthias Kohl 




. . 

17

5.2.3 Robuste Parameterschätzung in R . . . . . . . . . . . . .463 

6 numerische Algorithmen in S-Plus/R . . . . . . . . . . . . . . . . .477 

6.1 Interpolation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .477 

6.1.1 Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .477 

6.1.2 Methoden. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .477 

6.1.3 Gütekriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .480 

6.1.4 Vor– und Nachteile . . . . . . . . . . . . . . . . . . . . . . . . . . .480 

6.1.5 Umsetzung in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .481 

6.2 numerische Invertierung . . . . . . . . . . . . . . . . . . . . . . . . . . .488 


6.2.2 Methode. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .488 

6.3 Integration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .489 


6.3.2 Methoden. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .489 

 



Matthias Kohl 




. . 

18

6.3.3 Umsetzung in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .490 

6.4 Lösen von Gleichungssystemen II. . . . . . . . . . . . . . . . . . .496 


6.4.2 Methoden. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .496 

6.4.3 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .501 

6.4.4 Umsetzung in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .502 

6.5 Minimierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .502 


6.5.2 Klassen von Problemen . . . . . . . . . . . . . . . . . . . . . . .503 

6.5.3 Methoden. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .505 

6.5.4 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .508 

6.5.5 Umsetzung in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .508 

6.6 sich selbst verändernde Programme . . . . . . . . . . . . . . . .509 

7 strukturierte Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .526 

 



Matthias Kohl 




. . 

19

7.1 Regressionsmodelle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .526 

7.1.1 Lineare Statistische Modelle . . . . . . . . . . . . . . . . . .527 

7.1.2 Generalisiert Lineare Modelle. . . . . . . . . . . . . . . . . .559 

7.1.3 ein Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .566 

7.2 Elemente Multivariater Statistik . . . . . . . . . . . . . . . . . . .568 

7.2.1 die multivariate Normalverteilung . . . . . . . . . . . . .568 

7.2.2 graphische Methoden . . . . . . . . . . . . . . . . . . . . . . . . .568 

7.2.3 Allgemeines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .568 

7.2.4 Hauptkomponenten– und Faktoranalyse . . . . . . .570 

7.2.5 Multidimensional Scaling . . . . . . . . . . . . . . . . . . . . .572 

7.2.6 Cluster–Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .572 

7.2.7 Diskriminanzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . .575 

7.3 Zeitreihenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .576 

7.3.1 Einführung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .576 

 



Matthias Kohl 




. . 

20

7.3.2 Autokovarianz und Spektrum . . . . . . . . . . . . . . . . .585 

7.3.3 ARIMA–Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . .588 

7.3.4 Trend– und Saison–Bereinigung . . . . . . . . . . . . . . .589 

7.3.5 Multiple Zeitreihen . . . . . . . . . . . . . . . . . . . . . . . . . . .590 

7.3.6 Zustandsraummodelle . . . . . . . . . . . . . . . . . . . . . . . .592 

7.3.7 (G)ARCH–Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . .596 

7.3.8 weitere finanzmathematische Modelle. . . . . . . . . .597 

7.3.9 Tests aus Paket tseries . . . . . . . . . . . . . . . . . . . . .598 

7.4 Geostatistik. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .599 

7.4.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .599 

7.4.2 Interpolation und Kriging . . . . . . . . . . . . . . . . . . . . .604 

7.4.3 Punktprozesse. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .605 

8 fortgeschrittene Programmierung . . . . . . . . . . . . . . . . . . . . .608 

8.1 R als objektorientierte Sprache. . . . . . . . . . . . . . . . . . . . .608 

 



Matthias Kohl 




. . 

21

8.1.1 Paradigmen objektorientierter Programmierung 

(OOP) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .608 

8.1.2 OOP – Allgemein . . . . . . . . . . . . . . . . . . . . . . . . . . . .611 

8.1.3 OOP – Realisierung in R. . . . . . . . . . . . . . . . . . . . . .615 

8.1.4 Befehle: Klassen im S4–Klassenkonzept . . . . . . . .626 

8.1.5 Befehle: Methoden im S3– und 

S4–Klassenkonzept . . . . . . . . . . . . . . . . . . . . . . . . . . .640 

8.1.6 Befehle: Anfragen, welche Methoden wie 

existieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .657 

8.1.7 Befehle: Versionsmanagement . . . . . . . . . . . . . . . . .660 

8.1.8 Befehle: Typüberprüfung zur Laufzeit und 

Casting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .663 

8.1.9 Erfahrungen mit S4-Klassen. . . . . . . . . . . . . . . . . . .670 

8.2 Schreiben eigener Pakete . . . . . . . . . . . . . . . . . . . . . . . . . .678 

 



Matthias Kohl 




. . 

22

8.2.1 Wie benützt man R effizient? . . . . . . . . . . . . . . . . .678 

8.2.2 das R–packaging System. . . . . . . . . . . . . . . . . . . . . .681 

8.2.3 Struktur von R–Paketen . . . . . . . . . . . . . . . . . . . . . .684 

8.2.4 Aufbau des DESCRIPTION-file . . . . . . . . . . . . . . . . .687 

8.2.5 Format für Datensätze. . . . . . . . . . . . . . . . . . . . . . . .691 

8.2.6 Dokumentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .692 

8.2.7 Namespaces. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .708 

8.2.8 Vorbereiten der Anlage eines Pakets . . . . . . . . . . .712 

8.2.9 Anlage eines Pakets . . . . . . . . . . . . . . . . . . . . . . . . . .713 

8.2.10 Binär– und Quell–Pakete . . . . . . . . . . . . . . . . . . . .714 

8.2.11 Checken eines Pakets. . . . . . . . . . . . . . . . . . . . . . . .715 

8.2.12 Vorbereitungen zur Erzeugung von R-Paketen 

unter Windows . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .716 

8.2.13 Erstellen von Bundles . . . . . . . . . . . . . . . . . . . . . . .721 

 



Matthias Kohl 




. . 

23

8.2.14 Weitergabe eines Pakets/Bundles . . . . . . . . . . . .722 

8.2.15 Erfahrungen mit dem Schnüren von Paketen . .722 

8.3 Schnittstellen zu anderen Programmiersprachen. . . . .728 

8.3.1 Wozu ist das gut? . . . . . . . . . . . . . . . . . . . . . . . . . . . .728 

8.3.2 vor Nutzung von compiliertem Code: Profiling 

von R–Code. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .729 

8.3.3 Schnittstellen von und zu anderen 

Programmiersprachen. . . . . . . . . . . . . . . . . . . . . . . . .733 

8.3.4 Schnittstellen zu Datenbanken — R und 

MySQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .734 

8.3.5 C/FORTRAN–Code in R . . . . . . . . . . . . . . . . . . . . . . . .741 

8.3.6 dynamisches Einladen von Bibliotheken/DLL’s .764 

8.3.7 Erfahrungen mit C-Code in R . . . . . . . . . . . . . . . . .769 

8.3.8 Erzeugen von Shared Libraries/DLL’s . . . . . . . . . .773 

 



Matthias Kohl 




. . 

24

8.3.9 Koordination der Speichermanager . . . . . . . . . . . .774 

8.3.10 Exkurs: Speichermanagement in R . . . . . . . . . . .778 

8.3.11 Verschiedene Aufrufe von R und 

Kommandozeilenoptionen . . . . . . . . . . . . . . . . . . . . .792 

8.3.12 R auf Parallelrechnern . . . . . . . . . . . . . . . . . . . . . . .801 

8.3.13 Beispiel: R im InterNet — R im 

BATCH–Modus. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .819 

8.4 Struktur von CRAN / das R Core Team . . . . . . . . . . . .843 

8.4.1 das CRAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .843 

8.4.2 die R Foundation. . . . . . . . . . . . . . . . . . . . . . . . . . . . .843 

8.4.3 R Core Team . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .847 

8.4.4 Einreichung eigener Pakete bei CRAN . . . . . . . . .861 

A Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .864 

 

A.1 Blatt 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .864 

 



Matthias Kohl 




. . 

25

A.1.1 Arbeit mit R-Skripten am Beispiel eines 

beliebigen Editors: (ohne direkte Anbindung an 

R) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .865 

A.1.2 Auffinden von Datensätzen . . . . . . . . . . . . . . . . . . .866 

A.1.3 Datenimport. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .867 

A.1.4 Mustererzeugung . . . . . . . . . . . . . . . . . . . . . . . . . . . .868 

A.2 Blatt 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .869 

A.2.1 Indexoperationen, Matrizen . . . . . . . . . . . . . . . . . . .870 

A.2.2 Faktoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .872 

A.2.3 String-, Matrixoperationen . . . . . . . . . . . . . . . . . . .873 

A.2.4 Matrixoperationen . . . . . . . . . . . . . . . . . . . . . . . . . . .874 

A.2.5 Schreiben von Daten auf File . . . . . . . . . . . . . . . . .876 

A.3 Blatt 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .877 

 

A.3.1 Skalenniveaus. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .878 

 



Matthias Kohl 




. . 

26

A.3.2 Univariate Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . .879 

A.3.3 Elementare Datenanalyse . . . . . . . . . . . . . . . . . . . . .880 

A.3.4 Univariate Konvexkombinationen. . . . . . . . . . . . . .882 

A.3.5 Übungsaufgaben zur Stochastik. . . . . . . . . . . . . . .884 

A.4 Blatt 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .886 

A.4.1 Visualisierung des (schwachen) Gesetzes der 

großen Zahlen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .887 

A.4.2 Numerische Integration: Berechnung von . . . .889 

A.4.3 Berechnung von . . . . . . . . . . . . . . . . . . . . . . .891 

A.4.4 Konfidenzintervalle, Bootstrap . . . . . . . . . . . . . . . .893 

A.5 Blatt 5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .896 

A.5.1 Maximale Lücke . . . . . . . . . . . . . . . . . . . . . . . . . . . . .897 

A.5.2 Buffons Nadelproblem — Berechnung von II.899 

A.5.3 Dichteplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .902 

 



Matthias Kohl 




. . 

27

A.5.4 Schleifen – Schleifenvermeidung – 

Laufzeitvergleich . . . . . . . . . . . . . . . . . . . . . . . . . . . . .904 

A.5.5 Adaptives Verfahren zur zweidimensionalen 

numerischen Integration . . . . . . . . . . . . . . . . . . . . . .906 

A.6 Blatt 6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .910 

A.6.1 Visualisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .911 

A.6.2 Bundestagswahl 2002 . . . . . . . . . . . . . . . . . . . . . . . .913 

A.6.3 Multivariate Konvexkombination . . . . . . . . . . . . . .915 

A.6.4 Regressionsplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . .918 

A.6.5 Powerpoint-Präsentation . . . . . . . . . . . . . . . . . . . . .920 

A.7 Blatt 7. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .921 

A.7.1 Shapiro-Wilk, Kolmogorov-Smirnov, 

-Anpassungstest . . . . . . . . . . . . . . . . . . . . . . . . . . .922 

A.7.2 Wilcoxon und t-Test, - und F-Test. . . . . . . . . .923 

 



Matthias Kohl 




. . 

28

A.7.3 Fisher- und t-Test. . . . . . . . . . . . . . . . . . . . . . . . . . . .925 

A.7.4 Testvergleich durch Simulation . . . . . . . . . . . . . . .926 

A.8 Blatt 8. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .929 

A.8.1 Indiskrete Umfrage . . . . . . . . . . . . . . . . . . . . . . . . . . .930 

A.8.2 ML–Schätzer für aus . . . .932 

A.8.3 Simulationsstudie . . . . . . . . . . . . . . . . . . . . . . . . . . . .934 

A.9 Blatt 9. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .936 

A.9.1 Berechnung eines Quantils. . . . . . . . . . . . . . . . . . . .937 

A.9.2 Schätzung eines eindimensionalen Parameters .939 

A.9.3 Numerische Probleme mit dem 

Coupon-Collector. . . . . . . . . . . . . . . . . . . . . . . . . . . . .942 

A.9.4 Optimale Prognose. . . . . . . . . . . . . . . . . . . . . . . . . . .946 

A.10 Blatt 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .950 

 

A.10.1 Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . .951 

 



Matthias Kohl 




. . 

29

A.10.2 Freier Fall eines Körpers. . . . . . . . . . . . . . . . . . . . .952 

A.10.3 Länge der alten Meile . . . . . . . . . . . . . . . . . . . . . . .954 

A.10.4 Modellanpassung, Modellwahl . . . . . . . . . . . . . . .956 

A.11 Blatt 11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .958 

A.11.1 ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .959 

A.11.2 Box–Cox–Transformation I . . . . . . . . . . . . . . . . . .961 

A.11.3 Box–Cox–Transformation II. . . . . . . . . . . . . . . . . .962 

A.11.4 Generalisiert lineares Modell . . . . . . . . . . . . . . . . .963 

A.12 Blatt 12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .965 

A.12.1 Multivariate Normalverteilung . . . . . . . . . . . . . . .966 

A.12.2 Clustering, Diskriminanzanalyse. . . . . . . . . . . . . .968 

A.12.3 Hauptkomponentenanalyse, Faktoranalyse . . . .970 

A.13 Blatt 13 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .974 

A.12.4 Normalisierte Hauptkomponentenanalyse . . . . .971 

 



Matthias Kohl 




. . 

30

A.13.1 Zeitreihenanalyse I . . . . . . . . . . . . . . . . . . . . . . . . . .975 

A.13.2 Zeitreihenanalyse II . . . . . . . . . . . . . . . . . . . . . . . . .977 

A.13.3 Räumliche Statistik . . . . . . . . . . . . . . . . . . . . . . . . .979 

A.14 Blatt 14 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .980 

A.14.1 Entwurf einer Simulationsklasse. . . . . . . . . . . . . .981 

A.14.2 Indexoperator. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .982 

A.14.3 Simulationsklasse II . . . . . . . . . . . . . . . . . . . . . . . . .983 

A.14.4 Schätzerauswertungsklasse . . . . . . . . . . . . . . . . . .984 

A.15 Blatt 15 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .986 

A.15.1 Checken/Erstellen eines Pakets . . . . . . . . . . . . . .987 

A.15.2 Anlegen eines Daten-Pakets . . . . . . . . . . . . . . . . .988 

A.15.3 Anlegen eines eigenen R-Pakets. . . . . . . . . . . . . .989 

A.16 Blatt 16 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .991 

A.15.4 Arbeit mit Sweave . . . . . . . . . . . . . . . . . . . . . . . . . .990 

 



Matthias Kohl 




. . 

31

A.16.1 R und MySQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .992 

A.16.2 Aufruf von C Code unter R . . . . . . . . . . . . . . . . . .992 

A.16.3 Aufruf von Fortran Code unter R . . . . . . . . . . .993 

A.16.4 Paralleles Rechnen mit R . . . . . . . . . . . . . . . . . . . .994 

L Lösungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .996 

L.1 Lösungsvorschläge Blatt 1 . . . . . . . . . . . . . . . . . . . . . . . . .996 

L.1.1 Arbeit mit R-Skripten am Beispiel eines 

beliebigen editors: (ohne direkte Anbindung an 

R) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .996 

L.1.2 Auffinden von Datensätzen . . . . . . . . . . . . . . . . . . .998 

L.1.3 Datenimport . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1011 

L.1.4 Mustererzeugung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1013 

L.2 Lösungsvorschläge Blatt 2 . . . . . . . . . . . . . . . . . . . . . . . . 1015 

 

L.2.1 Indexoperationen, Matrizen . . . . . . . . . . . . . . . . . . 1015 

 



Matthias Kohl 




. . 

32

L.2.2 Faktoren. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1018 

L.2.3 String-, Matrixoperationen . . . . . . . . . . . . . . . . . . . 1020 

L.2.4 Matrixoperationen. . . . . . . . . . . . . . . . . . . . . . . . . . .1023 

L.2.5 Schreiben von Daten auf File . . . . . . . . . . . . . . . . 1025 


L.3.1 Skalenniveaus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1027 

L.3.2 Univariate Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . 1028 

L.3.3 Elementare Datenanalyse . . . . . . . . . . . . . . . . . . . . 1031 

L.3.4 Univariate Konvexkombinationen . . . . . . . . . . . . . 1035 

L.3.5 Übungsaufgaben zur Stochastik . . . . . . . . . . . . . . 1037 


L.4.1 Visualisierung des (schwachen) Gesetzes der 

großen Zahlen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1042 

L.4.2 Numerische Integration: Berechnung von . . . 1047 

 



Matthias Kohl 




. . 

33

L.4.3 Berechnung von . . . . . . . . . . . . . . . . . . . . . . .1052 

L.4.4 Konfidenzintervalle, Bootstrap . . . . . . . . . . . . . . . 1057 


L.5.1 Maximale Lücke. . . . . . . . . . . . . . . . . . . . . . . . . . . . .1063 

L.5.2 Buffons Nadelproblem — Berechnung von II1072 

L.5.3 Dichteplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1081 

L.5.4 Schleifen – Schleifenvermeidung – 

Laufzeitvergleich . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1085 

L.5.5 Adaptives Verfahren zur 2-dimensionalen 

numerischen Integration . . . . . . . . . . . . . . . . . . . . . 1091 


L.6.1 Visualisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1096 

L.6.2 Bundestagswahl 2002. . . . . . . . . . . . . . . . . . . . . . . .1111 

L.6.3 Multivariate Konvexkombination . . . . . . . . . . . . . 1118 

 



Matthias Kohl 




. . 

34

L.6.4 Regressionsplots. . . . . . . . . . . . . . . . . . . . . . . . . . . . .1125 

L.6.5 Powerpoint-Präsentation. . . . . . . . . . . . . . . . . . . . .1129 


L.7.1 Shapiro-Wilk, Kolmogorov-Smirnov, 

-Anpassungstest . . . . . . . . . . . . . . . . . . . . . . . . . . 1130 

L.7.2 Wilcoxon und t-Test, - und F-Test . . . . . . . . . 1136 

L.7.3 Fisher- und t-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . 1140 

L.7.4 Testvergleich durch Simulation . . . . . . . . . . . . . . . 1145 


L.8.1 Indiskrete Umfrage . . . . . . . . . . . . . . . . . . . . . . . . . . 1160 

L.8.2 ML–Schätzer für aus . . . 1168 

L.8.3 Simulationsstudie . . . . . . . . . . . . . . . . . . . . . . . . . . . 1172 


L.9.1 Berechnung eines Quantils . . . . . . . . . . . . . . . . . . . 1180 

 



Matthias Kohl 




. . 

35

L.9.2 Schätzung eines eindimensionalen Parameters.1187 

L.9.3 Numerische Probleme mit dem 

Coupon-Collector. . . . . . . . . . . . . . . . . . . . . . . . . . . .1197 

L.9.4 Optimale Prognose . . . . . . . . . . . . . . . . . . . . . . . . . . 1205 

L.10 Lösungsvorschläge Blatt 10. . . . . . . . . . . . . . . . . . . . . .1216 

L.10.1 Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . 1216 

L.10.2 Freier Fall eines Körpers . . . . . . . . . . . . . . . . . . . . 1218 

L.10.3 Länge der alten Meile . . . . . . . . . . . . . . . . . . . . . . 1221 

L.10.4 Modellanpassung, Modellwahl . . . . . . . . . . . . . . 1224 


L.11.1 ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1229 

L.11.2 Box–Cox–Transformation I. . . . . . . . . . . . . . . . . .1232 

L.11.3 Box–Cox–Transformation II . . . . . . . . . . . . . . . . . 1237 

L.11.4 Generalisiert lineares Modell . . . . . . . . . . . . . . . . 1242 

 



Matthias Kohl 




. . 

36


L.12.1 Multivariate Normalverteilung. . . . . . . . . . . . . . .1246 

L.12.2 Clustering, Diskriminanzanalyse . . . . . . . . . . . . . 1254 

L.12.3 Hauptkomponentenanalyse, Faktoranalyse . . . 1259 

L.12.4 normalisierte Hauptkomponentenanalyse. . . . .1263 


L.13.1 Zeitreihenanalyse I . . . . . . . . . . . . . . . . . . . . . . . . . 1273 

L.13.2 Zeitreihenanalyse II . . . . . . . . . . . . . . . . . . . . . . . . 1283 

L.13.3 Räumliche Statistik . . . . . . . . . . . . . . . . . . . . . . . . 1286 


L.14.1 Entwurf einer Simulationsklasse . . . . . . . . . . . . . 1304 

L.14.2 Indexoperator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1305 

L.14.3 Simulationsklasse II . . . . . . . . . . . . . . . . . . . . . . . . 1306 

L.14.4 Schätzerauswertungsklasse. . . . . . . . . . . . . . . . . .1307 

 



Matthias Kohl 




. . 

37


L.15.1 Checken/Erstellen eines Pakets . . . . . . . . . . . . . 1308 

L.15.2 Anlegen eines Daten-Pakets . . . . . . . . . . . . . . . . 1308 

L.15.3 Anlegen eines eigenen R-Pakets . . . . . . . . . . . . . 1308 

L.15.4 Arbeit mit Sweave . . . . . . . . . . . . . . . . . . . . . . . . . 1308 


L.16.2 R und MySQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1308 

L.16.3 Aufruf von C Code unter R . . . . . . . . . . . . . . . . . 1308 

L.16.4 Aufruf von Fortran Code unter R . . . . . . . . . . 1308 

L.16.5 Paralleles Rechnen mit R . . . . . . . . . . . . . . . . . . . 1309 

Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1310 

 



Matthias Kohl 




. . 

38

0 Vorwort 

0.1 zur Veranstaltung 

0.1.1 Rahmen 

vorliegende Folien sind Grundlage eines zweisemestrigen Kurses 

an der Universität Bayreuth (UBT) 

Umfang des Kurses: 

– 2 SWS für den ersten Teil (bis Kapitel 5), davon 14-tägig ca. 

1 Stunde Übung 

– 2 SWS für den zweiten Teil (ab Kapitel 6), dazu 14-tägig ca. 

2 Stunden Übung 

 

 



Matthias Kohl 




39

der Kurs wurde konzipiert von Dr. Peter Ruckdeschel, 

[peter.ruckdeschel@uni-bayreuth.de] 

die Übungen wurden konzipiert von Dr. Matthias Kohl, 

[matthias.kohl@www.stamats.de] 

Übungsschein: kann bei erfolgreicher Teilnahme an den Übungen 

oder bei Übernahme eines Referats vergeben werden 

zu Übungsaufgaben: 

– 14–tägig 4 Aufgaben 

– Abgabe per E-Mail an Dozenten 

– Vorrechnen / Präsentation der Lösung am Rechner / Beamer 

– Datensätze im WWW verfügbar 

 

 



Matthias Kohl 




40

0.1.2 Adressaten / Ziele 

der Kurs wendet sich vorrangig an Studenten der Mathematik, 

Wirtschaftsmathematik und Technomathematik 

kann aber auch für Nicht–Mathematiker mit Interesse an 

Programmierung und Statistik verwendet werden 

Vorkenntnisse: 

– für Mathematiker: Stochastik I 

der Kurs wird in Bayreuth (BT) oft auch parallel zur Stochastik I 

angeboten und ergänzt simultan die dort präsentierten Konzepte 

durch ihre computertechnische Umsetzung 

– alternativ: Statistischer Methodenkurs für 

Nicht–Mathematiker 

der Kurs konzentriert sich auf die Umsetzung der Begriffe und 

Verfahren aus der Statistik in S, die Begriffe und Verfahren 

werden als bekannt vorausgesetzt 

 



Matthias Kohl 




41

0.1.3 Anordnung des Stoffs 

der Anfang verläuft parallel zu Venables and Ripley (1999): 

 

– eine Kurzvorstellung von R/S-Plus in Kapitel 0 

– eine Einführung in die Sprache S in Kapitel 1 

nach diesen beiden Kapiteln stehen in der parallel dazu in BT 

laufenden Stochastik I zur Verfügung 

– Grundbegriffe der W–theorie 

– insbesondere der Erwartungswert 

– Gesetz der großen Zahlen (im einfachsten Fall) 

– Zentraler Grenzwertsatz (im einfachsten Fall) 

daher ziehen wir in unserem Kapitel 2 Kapitel 5 aus Venables 

and Ripley (1999) vor, und zwar mit den Zielen: 

zeitnahe Umsetzung der Begriffe auf den Computer 

frühzeitige, motivierende Simulationsbeispiele 

Entwicklung eines intuitiven Verständnisses vom Inhalt der 

Grenzwertsätze 

 



Matthias Kohl 




42

die Tests aus Kapitel 5 von Venables and Ripley (1999) sind 

ausgegliedert, da diese in BT in der Stochastik I erst später zur 

Verfügung stehen 

unser Kapitel 2 ist erweitert um 

– einen Exkurs zur Erzeugung von Zufallszahlen; dieser ist aber 

optional, da die entsprechenden Verfahren in R sowieso 

schon zur Verfügung stehen 

– einen Abschnitt zur Simulation von Zufallszahlen und 

Prinzipien der Varianzreduktion, um den Studenten eine Idee 

von den Möglichkeiten des Rechners in diesem Bereich zu 

geben 

um unseren etwas mathematisch/informatisch orientierteren 

Hörerkreis zügig an die Programmierung heranzuführen, folgen 

unmittelbar die Grundzüge der Programmierung in S — 

basierend auf Kapitel 4 aus Venables and Ripley (1999) 

 

es folgt ein Kapitel zur Graphikprogrammierung basierend auf 

 



Matthias Kohl 




43

Kapitel 3 aus Venables and Ripley (1999), erweitert um einige 

nützliche Tabellen 

zum Abschluss des WS / Beginn des SS stehen in der 

Stochastik I/II in BT die klassische Schätz– und Testtheorie zur 

Verfügung 

Schätz– und Testtheorie wird parallel dazu in Kapitel 5 

aufgegriffen und in ihrer Umsetzung in R betrachtet; dazu 

werden 

Tests aus Kapitel 5 von Venables and Ripley (1999) 

vorgestellt 

Prinzipien der ML–Schätzung und die entstehenden 

Optimierungs– /Nullstellenprobleme besprochen 

– BT ist bekannter Standort der Robusten Statistik mit Namen 

wie Huber, Rieder 

 

 

intuitiver Zugang zu den Fragestellungen der Robusten 

Statistik wird in Abschnitt 5.2.3 geboten 

 



Matthias Kohl 




44

Teil der BT’er Hörerschaft der Stochastik I/II hat bereits 

Numerik I/II gehört; um einen für unsere Zwecke hinreichend 

einheitlichen Kenntnisstand zu erreichen: 

– führen wir in Kapitel 6 einige Grundfragestellungen der 

Numerik / Optimierung ein: Integration, Interpolation, Lösen 

von Gleichungssystemen und Optimierung 

– nennen grundlegende Lösunsgsstrategien 

– zeigen ihre Umsetzung / ihre Umsetzbarkeit in R/S-Plus 

viele der für den Anwender sehr interessanten, strukturierteren 

Modelle und darauf aufbauenden Verfahren sind in BT Inhalt 

weiterführender Stochastik–Veranstaltungen: 

– lineare/generalisiert lineare Modelle 

– multivariate Analyse 

– Zeitreihenanalyse 

– räumliche Statistik 

um der Hörerschaft “Appetit” auf diese Veranstaltungen zu 

 



Matthias Kohl 




45

machen, stellen wir in Kapitel 7 jeweils kurz typische 

Fragestellungen vor, die zu diesen Modellen führen und 

präsentieren grob ihre Umsetzung in R 

den Abschluss des Kurses bildet ein Kapitel zu Fragen der 

fortgeschrittenen Programmierung: 

– S als objektorientierte Sprache; Vererbungsmechanismen, 

S4–Klassenkonzept,... 

– Prinzipien beim Schreiben eigener Bibliotheken / Pakete 

– Schnittstellen zu anderen Programmiersprachen 

– schließlich: die Organisationsstrukur des CRAN und des R 

Core–Teams 

 



Matthias Kohl 




46

0.1.4 Quellen 

der Kurs folgt in großen Teilen, sowohl was Inhalt als auch 

Darstellung anlangt, Venables and Ripley (1999); dieses Buch 

haben wir ins Deutsche übertragen und auf eine 

“Beamerfassung” umgearbeitet 

die Anordnung unterscheidet sich jedoch beträchtlich, siehe 

letzter Abschnitt 

die Übungsaufgaben aus Venables and Ripley (1999) erschienen 

uns für unseren mathematisch orientierten Hörerkreis nicht 

unbedingt geeignet; daher haben wir einen eigenen Satz an 

Übungsaufgaben mit Lösungsvorschlägen zur Verfügung gestellt 

die Erweiterungen von Kapitel 2 verwenden Ripley (1987) 

Kapitel 5 verwendet bei der Darstellung der klassischen Schätz– 

und Testtheorie ohne Nachweis den Kanon der BT’er 

Veranstaltung Stochastik I/II, bei der Einführung in die 

 



Matthias Kohl 




47

Fragestellungen der robusten Statistik die Vorlesungsskripten zur 

Veranstaltung “Robuste Statistik” in BT 

Kapitel 6 hält sich an den Kanon der BT’er Veranstaltung 

Numerik I/II 

Kapitel 7 verwendet dann wieder weitgehend Venables and 

Ripley (1999) 

Kapitel 8 bezieht sich in großen Teilen auf Chambers (1998), 

sowie auf Gentleman (2002) und ein DSC–Tutorial 2003 von 

D. Bates und T. Lumley 

daneben sind natürlich stets, wenn auch nicht immer explizit 

aufgeführt, zu nennen 

– die R–Hilfe 

– die R–Manuals 

 

– die WWW-Seiten des R–Projekts 

 



Matthias Kohl 




48

0.1.5 zum Gebrauch des .pdf–Files 

es handelt sich um die Folien, die während der Vorlesung per 

Beamer präsentiert werden 

erfahrungsgemäß sind das ca. 30 Folien pro 90 Minuten 

die Folien liegen in einer Schwarzweiß–Fassung zum Ausdruck 

und in einer bunten Fassung zur Verwendung am Bildschirm / 

Beamer vor 

die Studenten haben in BT die Möglichkeit, sich am Lehrstuhl 

einen Ausdruck zum Selbstkostenpreis erstellen zu lassen; mit 

diesem können sie dann die Vorlesung verfolgen und Notizen ins 

Skript machen 

zum Ausdruck verwende man die bei fast allen 

Postscript–Druckern vorhandene Möglichkeit 4 Seiten auf eine 

DINA4 Seite im Querformat ausgeben zu lassen 

 

während der Übungen und nach dem Kurs dient dieser R-Kurs 

 



Matthias Kohl 




49

als (deutsche) Hilfe und kann im Acrobat Reader neben der 

aktuellen R–Sitzung geöffnet bleiben, um Fragen schnell zu 

klären 

die Folien sind mit pdfL ATEX aus der MiKTeX–Distribution 

erstellt; insbesondere verwenden sie das hyperref–Paket von 

Sebastian Rahtz, so dass Querverweise im Text durch Klicken 

verfolgt werden können, und sofern ein InterNet Anschluss im 

Rechner offen steht auch externen Links gefolgt werden kann 

auf die Erstellung eines Index wurde verzichtet, weil mit der 

Suchfunktion im Acrobat Reader ab Version 6.0 dies viel 

allgemeiner möglich ist 

die Übungsaufgaben sind gruppiert zu jeweils ca. 3–5 Aufgaben 

am Anfang einer jeden solchen Gruppe findet sich der Verweis 

auf die entsprechenden Kapitel im Kurs 

im Anschluss an jede Übungsaufgabe finden sich Verweise auf 

Lösungsvorschläge; einige Aufgaben verwenden spezielle 

 



Matthias Kohl 




50

Datensätze, die ebenfalls verlinkt sind 

 

– die Lösungsvorschläge finden sich im .pdf–File am Ende 

– Lösungsvorschläge und Datensätze können sowohl lokal vom 

File als auch aus dem Netz als ASCII–Files bezogen werden 

bei der Beamer–/Folienversion des Kurses verwenden wir eine 

“Farbkodierung”; so erscheinen: 

– Überschriften 

£ Überschriften der Hauptabschnitte des Files 

£ Kapitelüberschriften 

£ Abschnittsüberschriften 

£ Unterabschnittsüberschriften 

£ “Unterunterabschnitts”–Überschriften 

£ laufender Text 

– Sätze etc. 

£ Sätze, Theoreme, Lemmata, etc. 

£ Algorithmen 

£ Beispiele 

 



Matthias Kohl 




51

£ Beweise 

£ Beweisskizzen 

– Links 

£ Autoren 

£ Links innerhalb des Texts 

£ bibliographische Referenzen 

£ Links auf Filenamen 

£ Links auf URLS 

– und außerdem.... 

£ R–Code 

£ Motivationen/erläuternder Text 

 



Matthias Kohl 




52

0.1.6 Danksagung 

Dank geht an unseren Chef, Prof.Dr. Helmut Rieder, der uns zu der 

Erstellung und Veröffentlichung dieser Vorlesungsunterlagen 

ermunterte 

für ihre konstruktive Kritik und guten Lösungsvorschläge zu den 

Übungsaufgaben bedanken wir uns bei unseren beiden 

Software–Praktikanten 

– Thomas Stabla, statho3@web.de 

– Florian Camphausen, fcampi@gmx.de 

mit denen wir zusammen basierend auf diesem Kurs das R–Paket 

“ distr ” erstellt haben, siehe auch Ruckdeschel et al. (2006). 

ebenfalls für ihre konstruktive Kritik sowie für ihre Referate geht ein 

Dank an unsere eifrigen Hörer aus dem ersten Durchgang 

– Matthias Brandl, brandl.matthias@web.de 

– Volkmar Klatt, CanisMaior@web.de (— ein Geograph (!!)) 

 

– Sebastian Schmidt, sebastian.schmidt@uni-bayreuth.de 

 



Matthias Kohl 




53

ei einer Revision des Kurses im WS 2004/05 halfen uns 

 

dankenswerterweise bei der Durchsicht 

– Thomas Stabla, statho3@web.de 

– Michael Scheuerer, michael.scheuerer@uni-bayreuth.de 

 



Matthias Kohl 




54

0.2 Kurzvorstellung R/S-Plus 

c.f. Venables and Ripley (1999) 

0.2.1 Einsatzgebiete von R/S-Plus 

umfassende, offene Programmierumgebung 

– Werkzeuge für Statistik und Datenanalyse 

– flexibel programmierbar, echte Programmiersprache 

– matrixorientiert; objektorientiert 

– statistische Modelle in Programmier-Ausdrücke umsetzbar 

– professionelle Grafikausgabe auch im Managementbereich 

zur Entscheidungsunterstützung 

– umfangreiche Import- und Exportfunktionen 

 

 



Matthias Kohl 




55

0.2.2 S-Plus und R 

Ursprung: S (Bell-Labs, ATT jetzt Lucent!) 

kommerzielle Version: S-Plus 

aktuell Version 7.0 (basiert auf S version 4) 

– Vertreiber: Insightful Corporation, früher MathSoft Inc. 

– sehr weit verbreitet (Industrie-Standard) 

– schöne graphische Benutzeroberfläche, 

WYSIWYG – but you can get more 

– komfortable Import/Export–Facilities (Grafik; Daten) 

– Schnittstelle zu Excel, PowerPoint 

– Trellis-Plots 

 

 



Matthias Kohl 




56

Open Source-Variante: R 

– aktuell (April 2007): Version 2.5.0, Release Date 24.04.2006; 

basiert auf S version 4 

– initiiert von Ross Ihaka / Robert Gentlemen (University of 

Auckland, Neuseeland) 

– kommandozeilen-orientierter Interpreter von S 

– komfortabel in Verbindung mit Emacs/WinEdt 

– kleiner Kern / viele Erweiterungen (über Pakete (Stand 

April 2007)!) 

– analoges Vertriebs–Konzept zu TEX/ L ATEX, Linux 

– gnu-Lizenz, in diesem Rahmen frei verwendbar ohne 

Restriktionen, alle Sourcen öffentlich zugänglich 

– compilierte Codes für die Windows–, Mac– und die 

Linux–Welt 

– eine große, weltweite User– und Entwicklergemeinde, weit 

verbreitet in der Forschung 

 



Matthias Kohl 




57

– z.T. wesentlich schneller als S-Plus, c.f. 

http://www.sciviews.org/other/benchmark.htm 

R und S-plus zu identische Syntax 

beide besitzen exzellente Manuals (mit Literatur–Referenzen) 

beide basieren auf wohl–getesteten numerischen Routinen auf 

FORTRAN Basis (Netlib,N.A.G.) 

Der Kurs basiert auf R. 

 



Matthias Kohl 




58

0.2.3 Vergleich mit anderen Paketen / Sprachen 

andere Statistik-Pakete 

– abgeschlossene, datenbankorientierte Systeme 

£ SAS: verbreitet in Banken– und Versicherungswirtschaft 

£ SPSS: weit verbreitet in der empirischen Sozial– und 

– offene Systeme 

 

Wirtschaftsforschung 

£ wegen der Nähe zur Datenbank: 

¡ effizienter Zugang auch zu komplexen Datensätzen 

¡ speziell für konkurrentiellen Zugriff: 

Ablaufsicherheit vor Programmier-Mächtigkeit 

— keine while, nur for Schleifen — 

¡ Datensätze als Relationen statt als arrays 

£ ISP 

¡ “nur” auf DOS-Basis! 

 



Matthias Kohl 




59

¡ setzte Maßstäbe: interaktive, graphische Analyse 

£ XploRe 

¡ MD-Tech: Gruppe um Prof. Härdle, HU Berlin 

¡ verlinkt: Dokumentation, Beispiele Programme 

¡ spezielle Teach-Ware 

¡ auch als Java-Applet im Netz 

andere Mathematik-Pakete 

– MAPLE 

£ rudimentäre Statistik-Fähigkeiten 

£ Stärke: symbolisches Rechnen 

– MATLAB 

£ wie S: matrixorientiert 

£ gibt Statistik-Modul, dem Dozenten aber nicht bekannt 

andere Programmiersprachen 

 

– S-Plus / R - Programme: interpretiert, nicht kompiliert 

 



Matthias Kohl 




60

– wie jede höhere Programmiersprache: 

R / S-Plus potenziell erheblich langsamer als 

maschinennähere Sprachen 

– dafür viel effizientere Notation 

– sehr gute Schnittstellen zu C / FORTRAN: 

— sowohl Aufruf von S-Plus / R von C / FORTRAN aus 

als auch Nutzung von C / FORTRAN - code in S-Plus / R. 

 



Matthias Kohl 




61

0.3 Vorschläge für Referatthemen 

Vor. Voraussetzungen 

Inh. Inhalt 

Lit. Literatur 

0.3.1 Eingabe / Import von Daten in R / S-Plus 

Vor. keine 

Inh. – Datenerhebung: 

automatisiert, von Hand, Masken, Kontrollmöglichkeiten 

– Datenaufbereitung (je nach Vorwissen) 

C, PASCAL o.ä. (Beispiele), PERL, Excel, Word, lexx 

– Datenimport in R / Splus: 

per Befehl interaktiv, Befehle mit Argumenten 

Datenstrukturen, in die hinein importiert wird 

 

Lit. R-Manuals, InterNet, evtl. bei Dozenten, evtl. Vorkenntnisse 

 



Matthias Kohl 




62

0.3.2 Graphik: die vielen Parameter von plot und 

der par-Befehl 

Vor. keine 

Inh. – Vorstellung des Befehls plot mit seinen vielen, vielen 

Argumenten 

– legend, text, title, 

– automatisches Erzeugen / interaktiv 

– Aufbereitung/Nachbereitung (extern) 

– Beschriften ( TEX-Symbole!) 

– par-Befehl 

Lit. R-Manuals, InterNet, evtl. bei Dozenten, eigene Beispiele 

 

 



Matthias Kohl 




63

0.3.3 Export von Daten und Graphik 

Vor. keine 

Inh. – Vorstellung verschiedener Graphikformate 

(mit Vor- und Nachteilen) 

– Datenkomprimierungs-Formate 

– Einbinden von R-Grafiken in PowerPoint L ATEX /www 

– Aufbereiten von Reports zur “Tischvorlage” 

– Exportbefehle (Syntax, Optionen) 

Lit. R-Manuals, InterNet, evtl bei Dozenten, evtl. Erfahrung mit 

PowerPoint etc 

 

 



Matthias Kohl 




64

0.3.4 Klassen und objektorientierte 

Programmierung 

Vor. Programmierkenntnisse 

Inh. – Paradigmen: 

£ Methoden bei den Daten 

£ Vererbung 

£ Kapselung 

£ virtuelle Methoden 

– Syntax in R / Splus 

– Klassenstruktur von R / Splus 

Lit. R-Manuals, InterNet, evtl. bei Dozenten, evtl. Vorkenntnisse aus 

C++, JAVA 

 



Matthias Kohl 




65

0.3.5 Speicherverwaltung in R / S-Plus 


Inh. – dynamische Allokation von Speicher 

– Freigabe 

– Diagnosemoeglichkeiten 

– Erfahrungsbericht 

– die Befehle options, assign, envir=... 

– Speicherverbrauch bei Zuweisungen, Kopien, 

Parameterübergabe 


Informatik? 

 

 



Matthias Kohl 




66

0.3.6 Schnittstellenprogrammierung 


Inh. – C R oder FORTRAN C 

 

– BATCH-Programmierung 

(am besten unter Linux: core, &, ...) 

– Programmierung als DLL 

– Programmierung als ODE 

– Beispiele 

Lit. R-Manuals, InterNet, evtl. bei Dozenten 

 



Matthias Kohl 




67

0.3.7 Bibliotheken (libraries) und Zusatzpakete 

(Packages) 


Inh. – Wie schreibt man eine Library? 

– Wie bindet man sie ein (automatisch)? 

– Kurzvorstellung einer (großen) Library, am besten eine zur 

Robustheit 

– Erfahrungsbericht 


Informatik? 

 

 



Matthias Kohl 




68

0.3.8 Organisation von CRAN und Veröffentlichung 

eigener Routinen 

Vor. keine 

Inh. – Foren (Welche gibt es?) 

– Organisation der Nutzergemeinde 

– Diagnosemöglichkeiten 

– Zuständigkeiten 

– Anforderungen an eigene Routinen 

– Reviewing-Process 

Lit. R-Manuals, InterNet, evtl. bei Dozenten 

 

 



Matthias Kohl 




69

0.4 Aufbau der Sprache 

c.f. Venables and Ripley (1999), pp. 1–16 

Objekte: 

– alle Ergebnisse, Ausgaben, Eingaben sind Objekte; 

– in S-Plus rekonstruierbar aus DIR .Data/stock bzw. 

_DATA, 

– in R: im virtuellen Verzeichnis (im Arbeitsspeicher) 

.GlobalEnv 

– komplexere Objekte Klassen 

Kommentare: 

#Dies ist ein Kommentar 

Listen: 

Objekte A,b werden durch list (A,b) zu neuem Objekt 

Ausdrücke: 

A #gibt " Inhalt " von Objekt A aus 

 



Matthias Kohl 




70

Zuweisung: 

 

A8 #weist dem Objekt A den Inhalt 8 zu 

oder synonym A=8 

Funktionen: 

Afunction(a1,a2=2) {aa1£a2; return(a)} 

generiert die Funktion A mit Argumenten a1,a2; a2=2 per 

default; Aufruf mit A(3) ergibt £ , A(3,3) ergibt £ 

Hilfe: 

help(rnorm) #gibt die Hilfe zur Funktion rnorm() aus 

 



Matthias Kohl 




71

0.5 Wo bekomme ich (online-)Hilfe? 

bei Fragen zu R gehe man wie folgt vor 

Lesen der R-Manuals 

– R: An Introduction to R 

– R: Writing R Extensions 

– die Manuals der eingereichten Packages auf dem CRAN 

– weitere Manuals auf den R-Seiten im Web 

Verwenden einer Kurzübersicht (siehe auch nächster Abschnitt) 

Konsultieren der R-Hilfe mit ? bzw. help oder help.search 

lesen der FAQ, zu beziehen unter 

http://cran.r-project.org/faqs.html 

Durchsuchen der R-Webseiten, z.B. mit 

http://finzi.psych.upenn.edu/search.html 

Durchsuchen der R-Mailarchive, z.B. mit 

http://maths.newcastle.edu.au/~rking/R/ 

 



Matthias Kohl 




72

im Entstehen begriffen (Apr. 2006): R-Wiki 

 

– Konzept: Mail von Philippe Grosjean, 18 Jan 2006 

– Ziele: 

£ Erstellung einer Online Dokumentation für R mithilfe der aus 

der Wikipedia bekannten Infra-Struktur an Wikis; 

£ kleine Schritt-für-Schritt Anleitungen sollen der Allgemeinheit 

zur Verfügung gestellt werden 

– Mitarbeit / Nutzung: 

£ siehe auch “R Wiki - About this Wiki” 

– nicht unumstritten: siehe auch Mail von Martin Mächler, 11 Jan 

2006 (Hauptpunkt: Frage der Qualtiätssicherung) 

 



Matthias Kohl 




73

erst dann: Konsultieren des Maintainers des Pakets / oder der 

Hilfeforen: 

 

– dazu zuerst: Lesen der Richtlinien unter 

http://www.r-project.org/posting-guide.html 

– r-announce: 

http://www.stat.math.ethz.ch/mailman/listinfo/r-announce 

Ankündigungen größerer Entwicklungen / neuer Versionen; wenige 

Mails/Monat. 

– r-packages: 

http://www.stat.math.ethz.ch/mailman/listinfo/r-packages 

Ankündigungen von neu veröffentlichen Paketen oder Versionen 

davon 

– r-help: http://www.stat.math.ethz.ch/mailman/listinfo/r-help 

die Haupt R-Mailing Liste (ca 50 Mails/Tag) 

– r-devel: 

http://www.stat.math.ethz.ch/mailman/listinfo/r-devel 

tiefgreifendere Programmierfragen; stark moderiert; ca 5-10 

Mails/Tag 

 



Matthias Kohl 




74

0.6 eine kommentierte Literaturliste 

Dieser Kurs kann kein Buch zu R/S-Plus ersetzen, sondern dient vielmehr als 

Kurs-Grundlage bzw. als Online-Unterstützung. . . ; (vgl. Abschnitt 0.1.5) 

Wir empfehlen folgende Bücher/Kurse zum Lesen neben diesem Kurs: 

auf deutsch 

 

– Dolić D. (2004): Statistik mit R. Oldenbourg. 

Siehe auch http://www.dolic.de/R/index.html 

eher für Nicht-Mathematiker; Schwerpunkt auf elementarer Statistik; 

keine multivariate Statistik 

– Ligges U. (2005): Programmieren mit R. Springer. Siehe auch 

http://www.statistik.uni-dortmund.de/ ligges/PmitR/ 

Schwerpunkt eher auf Programmierung; keine Übungsaufgaben; 

– Sachs L. und Hedderich J. (2006): Angewandte Statistik. 

Methodensammlung mit R. Springer. eigentlich wie Titel schon sagt: 

Methodensammlung; aber sehr gut aufbereitet und mit entsprechender 

Umsetzung der Verfahren in R; wenige aber sehr illustrative 

Übungsaufgaben zu statistischen Fragestellungen mit Lösungen; 

 



Matthias Kohl 




75

– Sawitzki G. (2005): Einführung in S. Zu beziehen unter 

http://www.statlab.uni-heidelberg.de/projects/s/s.pdf. 

knapp und gut; Schwerpunkt eher auf Datenanalyse; mit 

Übungsaufgaben; weniger Details zur Programmierung 

auf englisch —zu R im “ganzen” 

– Chambers, J.M. (1998): Programming with data. A guide to the 

S language. Springer. Siehe auch 

http://cm.bell-labs.com/stat/Sbook/index.html. 

umfassend, beschreibt das “ganze” Konzept hinter S bzw. S4; keine 

Übungsaufgaben 

– Dalgaard P. (2002): Introductory Statistics with R. Springer. 

Siehe auch http://www.biostat.ku.dk/ pd/ISwR.html 

umfassend, kurz und präzise; besonders gut auch für absolute 

Computer-Laien geeignet; keine Übungsaufgaben 

– Venables W. und Ripley B. (2000): S Programming. Statistics 

and Computing. Springer. Siehe dazu auch 

 

http://www.stats.ox.ac.uk/pub/MASS3/Sprog/ 

umfassend; Schwerpunkt: fortgeschrittene Programmierung (vgl. 

 



Matthias Kohl 




76

Kapitel 8 d. Kurses); wenige, lehrreiche Übungsaufgaben (ohne Lösung) 

– Venables W. und Ripley B. (2002): Modern Applied Statistics 

with S-Plus. Springer, 4. Aufl.; siehe auch 

http://www.stats.ox.ac.uk/pub/MASS4/ 

umfassend; gut geeignet sowohl für (elementare) Programmierung als 

auch für statistische Anwendungen; große Teile dieses Kurses lehnen 

sich an die 3. Auflage an; Übungsaufgaben eher leicht, ohne Lösung 

auf englisch —zu R zur Anwendung in der Statistik 

– Faraway J.J. (2002): Practical Regression and Anova using R. 

Zu beziehen unter 

http://cran.r-project.org/doc/contrib/Faraway-PRA.pdf. 

verständliche Einführung in Regression mit R 

– Fox J. (2002): An R and S-Plus Companion to Applied 

Regression. Sage Publications. Siehe auch 

http://www.socsci.mcmaster.ca/jfox/Books/Companion/. 

verständliche Einführung in Regression mit R —gerade für 

auf englisch —Kurzübersichten 

Sozialwissenschaftler (Fox ist Soziologe!) 

 



Matthias Kohl 




77

– “R reference card” von Jonathan Baron; zu beziehen unter 

http://cran.r-project.org/doc/contrib/refcard.pdf 

– “R reference card” von Tom Short; zu beziehen unter 

http://cran.r-project.org/doc/contrib/Short-refcard.pdf 

 



Matthias Kohl 




78

0.7 eine elementare Sitzung 

# 

 

c.f. Venables and Ripley (1999), pp. 1–16 Link aufs File 

Achtung: die Befehle werden en detail alle noch später erläutert. Jetzt 

geht es erst einmal nur darum, die Leistungsfähigkeit von R/Splus zu 

demonstrieren. . . 

h e l p . s t a r t ( ) # s t a r t e t d i e H i l f e 

# 

#i n R e i n z u l a d e n : 

# l i b r a r y (MASS) 

# 

x rnorm ( 5 0 ) # g e n e r i e r t 50 u i v N( 0 , 1 ) 

y rnorm ( 5 0 ) 

# v e r t e i l t e V a r i a b l e n 

# und s c h r e i b t s i e i n den Vektor x 

h c h u l l ( x , y ) # b e r e c h n e t d i e konvexe H u e l l e 

 



Matthias Kohl 




79

# 

# 

 

# d e r Punkte z [ . ] = ( x [ . ] , y [ . ] ) 

p l o t ( x , y ) #p l o t e t d i e Punkte x , y 

# 

polygon ( x [ h ] , y [ h ] ) # z e i c h n e t d i e H u e l l e e i n 

# 

o b j e c t s ( ) # l i s t e t d i e R Objekte , d i e z . Z . 

# 

# im . Data DIR l i e g e n 

rm( x , y , h ) # l o e s c h t d i e Objekte x , y , h 

# 

x rnorm (1000) 

y rnorm (1000) # g e n e r i e r t 1000 Paare u i v N( 0 , 1 ) 

# v e r t e i l t e r V a r i a b l e n 

h i s t ( c ( x , y +2) ,25) # Histogramm e i n e r Mischung 

# von NV s : 25 Saeulen , 

 



Matthias Kohl 




80

# 

# 

 

# 25 ^= Argument " n c l a s s " 

# und V e r s c h i e b u n g um 2 i n d e r 2 . Komp . 

dd kde2d ( x , y ) 

# Kontour Persp . und 3D P l o t ) 

contour ( dd ) 

p e r s p ( dd , t h e t a = 30, p h i =30, d=5) 

image ( dd ) 

# 

x seq ( 1 , 2 0 , 0 . 5 ) # e r z e u g t ( 1 , 1 . 5 , 2 , . . . , 1 9 . 5 , 2 0 ) 

#b e s s e r mit Argumentbezeichnungen ! ( a b e r h i e r : 

#Z i t a t aus V : R : 9 9 ) 

# 

x # l i s t e t den I n h a l t a u f 

w 1+ x/2 # a l s G e w i c h t v e k t o r 

y x + w£ rnorm ( x ) 

 



Matthias Kohl 




81

# 

dum data . frame ( x , y ,w) # e r z e u g t Data Frame 

# aus x , y ,w 

dum # und l i s t e t den I n h a l t 

# 

rm( x , y ,w) 

# 

fm lm ( y ~ x , data=dum) # p a s s t e i n e e i n f a c h e 

# l i n e a r e R e g r e s s i o n von y a u f x an 

summary ( fm ) # und l i s t e t d i e Zusammenfassung 

# 

fm1 lm ( y ~ x , data=dum , w eight=1/w^2) 

summary ( fm1 ) # und 

 

l i s t e t d i e Zusammenfassung 

# 

# p a s s t e i n e g e w i c h t e t e l i n e a r e R e g r e s s i o n 

# von y a u f x mit Gewichten 1/w^2 an 

l i b r a r y ( modreg ) # l a e d t d i e L i b r a r y modreg 

 



Matthias Kohl 




82

# 

l r f l o e s s ( y ~ x , data=dum) 

# 

# p a s s t e i n e l o k a l e , g l a t t e 

# R e g r e s s i o n von y a u f x an ( mit " l o e s s ") 

a t t a c h (dum) # macht d i e A t t r i b u t e von dum 

# a l s V a r i a b l e n v e r f u e g b a r 

p l o t ( x , y ) # S c a t t e r p l o t von y gg x 

# 

l i n e s ( s p l i n e ( x , f i t t e d ( l r f ) ) ) 

# p l o t t e t d i e l o k a l e R e g r e s s i o n s l i n i e 

a b l i n e ( 0 , 1 , l t y =3) # f u e g t d i e t a t s a e c h l i c h e 

# R e g r e s s i o n s g e r a d e e i n ( mit einem 

# anderen L i n i e n t y p ) 

a b l i n e ( fm ) 

 

# f u e g t d i e u n g e w i c h t e t e 

# R e g r e s s i o n s g e r a d e e i n 

# a b l i n e ( ) b e z i e h t d i e n o e t i g e I n f o r m a t i o n 

 



Matthias Kohl 




83

# dazu aus dem Objekt fm 

a b l i n e ( fm1 , l t y =4) # f u e g t d i e g e w i c h t e t e 

# 

# R e g r e s s i o n s g e r a d e e i n im L i n i e n t y p 4 

# Ausgabe m o e g l i c h u e b e r Kontextmenu 

# ( r e c h t e / m i t t l e r e Maustaste ) 

# 

p l o t ( f i t t e d ( fm ) , r e s i d ( fm ) , 

q q l i n e ( r e s i d ( fm ) ) 

 

x l a b=" e i n g e p a s s t e ␣ Werte " , 

y l a b=" Residuen " ) 

# e i n Standard Diagnose P l o t 

# zum Checken d e r H o m o s k e d a s t i z i t a e t 

# h i e r : H e t e r o s k e d . s i c h t b a r ? 

qqnorm ( r e s i d ( fm ) ) 

# Normal Scores P l o t zum Check d e r 

# NV Annahme ( S c h i e f e , K u r t o s i s , 

 



Matthias Kohl 




84

# A u s r e i s s e r ) 

detach ( ) # a b l o e s e n des DataFrames von 

a t t a c h ( h i l l s ) 

 

# d e r S u c h l i s t e 

rm(fm , fm1 , l r f , dum) # aufraeumen 

# 

# Der H i l l Datensatz : 

# Rekorde i n s c h o t t i s c h e n Bergrennen 

# gegen S t r e c k e n l a e n g e 

# und Hoehenmeter 

# 

data ( h i l l s ) # l a d e n des H i l l D a t e n s a t z e s 

h i l l s # l i s t i n g 

# 

p a i r s ( h i l l s ) 

# 

p l o t ( d i s t , time ) 

 



Matthias Kohl 




85

i f ( i n t e r a c t i v e ( ) ) 

i d e n t i f y ( d i s t , time , row . names ( h i l l s ) ) 

a b l i n e ( lm ( time ~ d i s t ) ) 

# 

# i n t e r a k t i v e s L a b eln d e r Datenpunkte 

l i b r a r y ( l q s ) # l a d e n d e r l i b r a r y ( l q s ) 

a b l i n e ( l q s ( d i s t , time ) , l t y =3, c o l =4) 

detach ( ) 

# 

# r o b u s t e R e g r e s s i o n mit l t s 

# Michelson Datensatz (1879) z u r Messung 

# d e r L i c h t g e s c h w i n d i g k e i t 

# 

data ( m i c h e l s o n ) 

a t t a c h ( m i c h e l s o n ) 

 

s e a r c h ( ) # welche Daten s t e h e n R z u r Verfuegung ? 

p l o t . f a c t o r ( Expt , Speed , 

 



Matthias Kohl 




86

main=" Speed ␣ o f ␣ L i g h t ␣Data" , 

x l a b=" Experiment ␣No . " ) 

# V e r g l e i c h d e r 5 Experimente anhand 

# e i n f a c h e r B o x p l o t s 

fm aov ( Speed ~ Run + Expt ) 

summary ( fm ) 

# ANOVA A n a l y s e a l s r a n d o m i s i e r t e s 

# Block Design mit " r u n s " und " Experiment " 

# a l s Faktoren 

fm0 update ( fm , . ~ . Run ) 

# Modell F i t u n t e r Weglassung d e r 

# u n s i n n i g e n Faktoren " r u n s " und 

# V e r g l e i c h d e r b e i d e n Modelle 

# m i t h i l f e e i n e r f o r m a l e n ANOVA 

anova ( fm0 , 

 

fm ) # d i e ANOVA 

detach ( ) # aufraeumen 

rm(fm , fm0 ) # aufraeumen 

 



Matthias Kohl 




87

1 Die Sprache S / R 

1.1 Grundstrukturen in R 

1.1.0 Wiederholung: 

siehe Abschnitt 0.4 

1.1.1 Konventionen bei der Namensvergabe 

zugelassen: erstes Zeichen a - z, A - Z, 

weitere Zeichen a - z, A - Z, 0 - 9, . 

Vorsicht: reservierte Namen besser nicht überschreiben 

Unterscheidung von Groß– und Kleinschreibung 

1.1.2 Sprachaufbau 

neben den in Abschnitt 1.1.0 wiederholten Strukturen sind wichtig: 

 



Matthias Kohl 




88

alle Einheiten sind Objekte 

Kommando–Abschluß: ; oder Zeilenumbruch 

Bilden von Blöcken durch { ... } 

Prompt: >, falls Zeile unvollständigen Befehl enthält: + 

print (gibt Wert einer Variablen aus), .Last. value (gibt Wert des 

letzten Ausdrucks aus) 

Mehrfachzuweisungen ba6 

Rechtszuweisung b >a oder b_a [letztere obsolet ab R 1.8.0] 

elementare Objekte: Vektoren, Funktionen, Listen 

 

 



Matthias Kohl 




89

1.2 wichtige Objekte 

1.2.1 Vektoren 

vorzustellen als: verkettete Zellen von gleichem “Typ” (mode) 

Attribute: 

– length, evtl.: names 

– mode (Typ): numeric, character, complex, logical , list , 

function 

Zugriff auf Elemente: a[4] 

R–Beispiel 1.2-1: 

a seq ( 1 , 6 , 1 ) # f u e l l t a mit 1 , . . , 6 

#( s i e h e auch A b s c h n i t t 1.3.1) 

l e n g t h ( a ) # Laenge von a 

 



Matthias Kohl 




90

mode( a ) # Modus von a 

a [ 3 ] # g i b t Element Nr . 3 von a aus 

a [ 4 ] 3 # s e t z t Element Nr . 4 a u f 3 

names ( a ) c ( ’ a ’ , ’ b ’ , ’ c ’ , ’ d ’ , ’ e ’ , ’ f ’ ) 

a 

# benennt d i e Elemente des V e k t o r s a a l s a . . . f 

names ( a ) 

a [ "d" ] # j e t z t auch Z u g r i f f u e b e r Namen m o e g l i c h 

1.2.2 Matrizen und Arrays 

Matrizen und Arrays sind Verallgemeinerungen von Vektoren mit 

zwei/mehreren Indizes. 

Zugriff auf Elemente: a [4,2] bzw. a [4,2,3] 

Zugriff auf alle Elemente einer/mehrerer Koordinaten: a [4,] 

bzw. a [,2,] 

Erzeugung mit den Funktionen matrix(¡) bzw. array(¡); diese 

haben als Argumente 

 



Matthias Kohl 




91

– data: ein Vektor mit Elementen, mit denen die Matrix / das 

Array zu füllen ist; beachte auch Abschnitt 1.4.2 

– nrow, ncol: (bei matrix) Zahl der Zeilen und Spalten 

– dim: (bei array) ein Vektor in der Länge der Zahl der Indizes; 

enthält Dimensionen der einzelnen Indizes 

– byrow: (bei matrix) logischer Wert; falls TRUE werden zuerst 

die Zeilen, dann die Spalten gefüllt; sonst (Voreinstellung) 

umgekehrte Reihenfolge; siehe 

m a t r i x ( data =1:4 , nrow=2, n c o l =2) # byrow=FALSE 

m a t r i x ( data =1:4 , nrow=2, n c o l =2, byrow=TRUE) 

– dimnames optional: Namen der Dimensionen / Indexbereiche 

Erzeugung von Matrizen und Arrays aus anderen Datentypen 

siehe Abschnitt 1.2.7 

 



Matthias Kohl 




92

1.2.3 Listen 

vorzustellen als: verkettete Zellen von möglicherweise 

verschiedenem “Typ” (mode) 

Bilden von Listen wie in Abschnitt 0.4: 

Alist (a=ae3,del=del) oder Ac(ae3,del) — c ohne names 

Zugriff auf Listenelemente: A [[2]] bzw. A$del oder A$d 

Auflösen einer Liste durch unlist (A) 

R–Beispiel 1.2-2 [Vektoren, Matrizen etc.]: 

Aufgabe: 

(a) Erzeugen Sie einen Vektor v mit Wertebelegung . 

(b) Modifizieren Sie alle Werte kleiner als auf und alle größer als 

auf 

(c) Machen Sie aus dem Vektor eine ¢ –Matrix M und geben Sie 

die zweite Spalte aus. 

 



Matthias Kohl 




93

(d) Machen Sie aus der Matrix ein Array A mit Dimensionen 

¢ ¢ und geben sie alle Elemente mit drittem Index aus. 

(e) Erzeugen Sie aus v, M, A eine Liste mit Namen v, M, A. Geben 

Sie das Element des zweiten Listenelementes aus. 

############################################ 

# T e i l ( a ) 

############################################ 

v 1 : 3 0 

# oder : 

v seq ( from =1, to =30, by=1) 

# oder : 

v seq ( form =1, to =30, l e n g t h =30) 

# oder ( u m s t a e n d l i c h , aufwendig ) : 

 



Matthias Kohl 




94

v v e c t o r ( " numeric " , l e n g t h =30); 

f o r ( i i n 1 : 3 0 ) {v [ i ] i } 

############################################ 

# T e i l ( b ) 

############################################ 

v [ v>=20] 20 

v [ v

############################################ 

# T e i l ( d ) 

############################################ 

A a r r a y ( data=v , dim=c ( 2 , 3 , 5 ) ) 

A [ , , 3 ] 

############################################ 

# T e i l ( e ) 

############################################ 

L l i s t ( v=v ,M=M, A=A) 

rm( v ,M, A) 

L [ [ 2 ] ] [ 2 , 3 ] 

#bzw . L$M[ 2 , 3 ] 

 

 



Matthias Kohl 




96

1.2.4 Funktionen I 

1.2.4 (a) Funktionsdeklaration 

wie in Abschnitt 0.4 — beachte “lazy calling” 

formal: function(,, ...) 

1.2.4 (b) Funktionsaufruf 

unspezifizierte Argumente 

z.B.: c (...) , pmax(...), max(...) 

spezifizierte Argumente 

– Argumente in der korrekten Reihenfolge 

polygon(x1, y1, F, 10) 

– Argumente spezifiziert als =wert: 

polygon(y=y1, x=x1, density=10, border=F) 

 



Matthias Kohl 




97

– gemischt: polygon(x1, y1, border=F, density=10) 

1.2.5 Faktoren 

c.f. Abschnitte 1.8 und 7.1.1 (c) 

spezielle String-Vektoren 

signalisieren statistischen Verfahren: 

kein Label sondern kategorielle Variable! 

Syntax: bgfactor(c("D","N","B","D","E","D","F","I")) 

spezieller print -Befehl: print . default interne Codierung 

zus. Levels durch factor (c("a","b"), levels =c("a","b","c")) 

Ordnung def’bar (alphabet. per default): (hier t

1.2.6 Data-Frames 

üblicher Typ zum Ablegen von Datenmatrizen 

mit Einträgen versehene Relation in DB–Sprechweise 

“Zeilen” vom gleichen Typ 

Beobachtungen/Messungen in stat. Sprechweise, 

Eintrag in DB–Sprechweise 

analog zu Listen: 

“Spalten” möglicherweise von unterschiedlichen Typen 

Merkmale in stat. Sprechweise, 

Attribute in DB–Sprechweise 

Operationen cbind: Spalten anhängen, rbind: Zeilen anhängen 

weitere DB–Operationen möglich 

 

 



Matthias Kohl 




99


l i b r a r y (MASS) # l a e d t d i e MASS l i b r a r y 

data ( p a i n t e r s ) # l a e d t den Datensatz " p a i n t e r s " 

#( s i e h e auch A b s c h n i t t 1.3.2) 

p a i n t e r s # g i b t i h n aus 

row . names ( p a i n t e r s ) # Zeilennamen ( Malernamen ) 

p a i n t e r s [ 1 : 5 , c ( 2 , 5 ) ] # s p e z i e l l e Auswahl 

1.2.7 Typ-Umwandlung / Casting 

implizites Casting: siehe Abschnitt 1.4.1 

explizites Casting: as.xxx, 

z.B. wandelt as.matrix(data) den numerischen Data-Frame data 

in eine Matrix 

 

Typ-Check: is .xxx 

 



Matthias Kohl 




100

1.3 Dateneingabe 

1.3.1 Eingabe von Hand 

mühsam und fehleranfällig, besser mit spezialisierter Software: 

z.B. 

http://www.hrz.uni-dortmund.de/A1/ 

kurse/unterlag/statistik/kodier.html 

http://www.hrz.uni-dortmund.de/A1/ 

zur Not: 

kurse/unterlag/statistik/maske.html 

– durch Nutzung von datenscan(), abzuschließen durch 

-D 

 

– datenc ( 1,34.3,0.3,....) — c concatenate 

 



Matthias Kohl 




101

1.3.2 Automatisches Füllen von Objekten 

der Aufzählungsdoppelpunkt 34.23:100 

der seq–Befehl: generiert reguläre Folgen; 

Syntax seq(from,to,by=) oder seq(from,to,length=) 

der rep–Befehl: z.B. xrep(4,times=5) 

besonders nützlich bei Designs, siehe letzte zwei Zeilen im 

folgenden Beispiel 


x 1 : 4 # c (1 ,2 ,3 ,4) > x 

i rep ( 2 , 4 ) # c (2 ,2 ,2 ,2) > i 

y rep ( x , 2 ) # c (1 ,2 ,3 ,4 ,1 ,2 ,3 ,4) > y 

z rep ( x , i ) # c (1 ,1 ,2 ,2 ,3 ,3 ,4 ,4) > z 

w rep ( x , x ) # c (1 ,2 ,2 ,3 ,3 ,3 ,4 ,4 ,4 ,4) >w 

 

######################################### 

 



Matthias Kohl 




102

# 2way d e s i g n 

# 4 Z e i l e n k l a s s e n 

# 3 S p a l t e n k l a s s e n 

# j e w e i l s 2 Beobachtungen 

######################################### 

c o l c rep ( 1 : 3 , rep ( 8 , 3 ) ) 

# e r g i b t : 

# 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 

rowc rep ( rep ( 1 : 4 , rep ( 2 , 4 ) ) , 3 ) 

# e r g i b t : 

# 1 1 2 2 3 3 4 4 1 1 2 2 3 3 4 4 1 1 2 2 3 3 4 4 

 



Matthias Kohl 




103

1.3.3 Einlesen von Daten I 

1.3.3 (a) der read. table–Befehl 

liest Data-Frame ein 

die erste Zeile des einzulesenden Files sollte einen Namen für 

jedes Merkmal / jede Variable enthalten 

jede weitere Zeile sollte mit einem Beobachtungs-Label (row 

label) beginnen 

oft sinnvoll den Beobachtungs-Label zu überlesen 

read. table(,header=T) 

Bemerkung 1.3-2 [Filenamen]: 

(i) \’s müssen in Windows maskiert werden, so dass wir z.B. 

erhalten "C:\\mywork\\r\\sws\\file.dat"; stattdessen 

 



Matthias Kohl 




104

können wir aber auch schreiben 

"C:/mywork/r/sws/file.dat". 

(ii) Der Filename clipboard kann genutzt werden um Daten aus 

der Zwischenablage zu lesen. 

1.3.3 (b) der scan–Befehl 

liest einen einzelnen Vektor ein 

sehr flexibel, c.f. Referat 

count. fields zählt die Beobachtungen 

einfache mögliche weitere Parameter what, multi . line , sep, siehe 

Beispiel 


 

M m a t r i x ( scan ( "mat . dat " ) , n c o l =4, byrow=T) 

 



Matthias Kohl 




105

# l i e s t Daten i n e i n e 4 s p a l t i g e Matrix 

iD scan ( " i n p . dat " , what= l i s t ( i d="" , x=0,y =0)) 

# l i e s t Daten i n e i n e L i s t e aus 3 Komp . 

# e r s t e char , a ndere b e i d e numeric 

i L c as . l i s t ( rep ( 0 , 5 0 ) ) # c a s t i n g i n L i s t e 

names ( i L ) p a s t e ( "X" , 1 : 5 0 , sep="" ) 

dL scan ( " b i g . dat " , what=iL , m u l t i . l i n e=T) 

# e i n l e s e n von 50 D a t e n s a e t z e n 

# j e d e r mit 5 Z e i l e n im F i l e 

# i n d i e V a r i a b l e n X1 , . . . . , X50 

### zu " p a s t e " s i e h e A b s c h n i t t 1.6 

1.3.3 (c) der data–Befehl 

Liegen die Daten in einer Library von R, so können diese mit dem 

Befehl data(,package=) eingeladen 

werden 

 



Matthias Kohl 




106

1.3.4 Einlesen von Daten II — 

Dateneingabe und Import unter R / 

S-Plus 

— basierend auf einem Referat von Volkmar Klatt vom 29.04.2002 

1.3.4 (a) Gliederung 

Was sind Daten? 

Der Kontext von wissenschaftlicher Datenproduktion 

Wie „macht“ man Daten-Dateien? 

– Beispiel: Dateneingabe über SPSS 

– Beispiel: Dateneingabe über Access 

 

Was muß man über fremde Daten mindestens wissen? 

 



Matthias Kohl 




107

Datenaufbereitung und Import nach R 

 

– Beispiel: Import von SPSS-Dateien 

– Beispiel: Import einer ASCII-Datei 

– weitere interessante Importmöglichkeiten 

Datenstruktur(en) der eingelesenen Daten in R 

 



Matthias Kohl 




108

1.3.4 (b) Was sind „Daten“? 

Daten sind kodierte Informationen über „die“ Wirklichkeit und 

die Erläuterung dieser Kodierung 

Daten sind kein Selbstzweck, sondern dienen einem Ziel 

(sollten;-)) 

1.3.4 (c) Der Kontext von wissenschaftlicher Datenproduktion 

Die 4 Phasen einer (sozial-)wissenschaftlichen Untersuchung: 

(Die fett gedruckten Abschnitte wollen wir hier kurz ansprechen) 

1. Definitionsphase 

Problemwahl 

Literaturanalyse; eigene Hypothesen bilden 

theoretischen Bezugsrahmen aufstellen 

 

ergänzt nach von Alemann (1984), vgl. besonders Kapitel 3, “Die Phasen 

einer sozialwissenschaftlichen Untersuchung.” 

 



Matthias Kohl 




109

Operationalisierung der Grundbegriffe (wie messe ich?) 

Festlegen von Grundgesamtheit und Analyseeinheit 

Forschungsplan aufstellen, darin: wichtigste Ziele, 

Gliederung, Literaturverzeichnis, Hilfsmittel festlegen; Zeit 

und Kosten abschätzen 

2. Durchführungsphase: Forschungsplan wird umgesetzt, d.h. 

Forschungsinstrumente konkretisiert 

Auswahlplan erstellen: Wer wird befragt? (Auswahlverfahren) 

Kodierung der Daten festlegen - maschinenlesbare Form 

Vortest (=Pre-Test) und Exploration: Ist 

Forschungsinstrument praxistauglich? Datenanalyse mit 

Dummy-Daten testen 

Datei für die Auswertung erstellen, Eingabemaske 

erstellen, Datenanalyse mit Dummy-Daten testen 

Vorbereitung der Hauptuntersuchung (Geld und Zeit 

bereitstellen, Schulung der Hilfskräfte, Durchführung der 

 



Matthias Kohl 




110

Hauptuntersuchung) 

3. Analysephase: Daten bereinigen, d.h. eindeutig fehlerhafte 

Messwerte kennzeichnen 

Statistikprogramm starten 

Durchführung der Analyse (Daten eingeben/einlesen, 

Berechnungen durchführen) 

Aufbereitung der Daten (Visualisierung) 

 



Matthias Kohl 




111

4. Disseminationsphase: 

Schreiben der Forschungsberichte 

Publikation und Verbreitung der Ergebnisse / Vortrag halten 

Geld und Lorbeeren einstecken 

1.3.4 (d) Wie „macht“ man Daten–Dateien? 

Beispiel 1.3-4 [Dateneingabe über SPSS]: 

Es können sehr komfortabel Level vergeben werden (und nach R 

importiert werden) 

Nachteil: bei großen Tabellen ist es schwierig, nicht in falsche 

Zeilen bzw. Spalten zu rutschen 

Dissemination ist eigentlich ein medizinisches Fachwort und bedeutet: 

Ausbreitung einer Seuche . . . 

 



Matthias Kohl 




112

Beispiel 1.3-5 [Dateneingabe über Access]: 

persönlich gestaltete Eingabemasken sind möglich 

Überprüfung während der Eingabe auf Tippfehler möglich! 

Nachteil: Das Anlegen der Tabellenstruktur und Masken ist 

zeitaufwändig 

 

 



Matthias Kohl 




113

Mit einer Validitätsprüfung der eingetippten Werte kann man sich in 

Access auf Unstimmigkeiten hinweisen lassen. 

1.3.4 (e) Was muss man über fremde Daten mindestens wissen? 

Datenquelle - Zuverlässigkeit, Messverfahren 

rechtliche Restriktionen – darf ich die Daten verwenden? 

welches Skalenniveau haben die Daten? 

wie sind Metainformationen kodiert (wie "Antwort verweigert", 

trifft nicht zu", "keine Angaben") 

 



Matthias Kohl 




114

Tipps zur Datenspeicherung: 

Daten aus mehreren Quellen getrennt halten, z.B. indem für 

jede Quelle eine SQL-Tabelle anlegt und diese verknüpft 

Daten in simpler Textdatei (kein Word usw.!) beschreiben, dies 

auch ausdrucken. 

1.3.4 (f) Datenaufbereitung und Import nach R 

Beispiel 1.3-6 [Import von SPSS-Dateien]: 

siehe Datei 

http://www.uni-bayreuth.de/departments/math/org/mathe7/ 

rkurs/referate/volkmar/spss_import.R 

Beispiel 1.3-7 [Import einer ASCII-Datei]: 

siehe Datei 

 


rkurs/referate/volkmar/tabellen_import.R 

 



Matthias Kohl 




115

Beispiel 1.3-8 [weitere interessante Importmöglichkeiten]: 

scan: allgemeinere Methode als read.table() 

unter Windows: Anbindung an Excel via DCOM-Server 

Unter Excel wurden über die R-Schnittstelle 150 Zufallszahlen 

erzeugt und mit Excel dann als Diagramm dargestellt. 

Import von Daten ist einfach 

 



Matthias Kohl 




116

Excel-Blätter sehen dabei jedoch schnell unübersichtlich aus 

Der DCOM-Server stürzt schnell ab, kann aber auch schnell 

wieder gestartet werden 

Anbindung an eine SQL-Datenbank 

 

– Zugriff auf extrem große Datenbestände ist möglich 

– umständlicher und störanfälliger als eine Datendatei, u.U. 

verminderte Datensicherheit 

– auch über’s Internet möglich 

– es gibt kein einheitliches SQL-Modul für R, sondern viele 

verschiedene 

 



Matthias Kohl 




117

R–Beispiel 1.3-9 [Import von SPSS-Dateien]: 

# 2002 ( c ) Volkmar K l a t t 

# volkmar . k l a t t @ s t u d . uni b a y r e u t h . de 

# 

############################################### 

# Ein B e i s p i e l zum E i n l e s e n von D a t e i e n im 

# SPSS Format mit dem S t a t i s t i k p r o g r a m m R 

# ( verwendet wurde h i e r R , V e r s i o n 1 . 4 . 1 und 

# das Modul f o r e i g n , V e r s i o n 0 . 5 . 2 , doch 

# muessten d i e B e i s p i e l e auch u n t e r a e l t e r e n 

# V e r s i o n e n l a u f e n ) 

################################################ 

# 

# Es s o l l d i e SPSS D a t e i nbg3 . sav e i n g e l e s e n 

# werden ; 

 

d a b e i h a n d e l t e s s i c h um e i n e g e k u e r z t e 

# Fassung aus d e r D o k t o r a r b e i t von Andreas Klee 

# u e b e r L e b e n s s t i l e i n d e r Stadt Nuernberg . 

 



Matthias Kohl 




118

# Wer s i c h e i n g e h e n d e r mit den Z i e l e n und 

# E r g e b n i s s e n d e r A r b e i t v e r t r a u t machen w i l l , 

# s o l l t e f o l g e n d e n A r t i k e l l e s e n : 

# 

######### 

# 

# ANMERKUNG P . R . : 

# 

# d i e D a t e i nbg . sav l a e s s t s i c h von u n s e r e r 

# Homepage aus b e z i e h e n 

# ( s i e h e auch L i n k s zu R e f e r a t e n ) 

# u n t e r 

# 

# h t t p : //www. uni b a y r e u t h . de / departments / 

# math/ org /mathe7/ SPlus / r e f e r a t e / volkmar / 

 

# nbg . sav 

# 

 



Matthias Kohl 




119

######### 

# 

# Klee , Andreas ( 2 0 0 1 ) : 

# Der Raumbezug von L e b e n s s t i l e n i n d e r Stadt . 

# Ein D i s k u r s u e ber e i n e s c h w i e r i g e Beziehung 

# mit e m p i r i s c h e n Befunden aus d e r Stadt 

# Nuernberg 

# I n : Muenchner G e o g r a p h i s c h e Hefte , Band 83 

# 

# Andreas Klee h a t t e d i e D a t e i f u e r s e i n e n 

# SPSS Kurs a l s Uebungsdatei i n s I n t r a n e t d e r Uni 

# Bayreuth g e s t e l l t , s o d a s s e s s t a t t h a f t er 

# s c h e i n t , s i e HIER a n z u f u e h r e n . 

# Vor e i n e r Weitergabe a u s s e r h a l b d e r U n i v e r s i t a e t 

# s o l l t e 

 

man s e i n e Genehmigung e i n h o l e n . 

# 

# Zunaechst : Das E i n l e s e n d e r O r i g i n a l d a t e i 

 



Matthias Kohl 




120

# nbg . sav mit R s c h l u g f e h l ! ! ! 

# ( aus mir unbekannten Gruenden ) 

# F a l l s e s f e h l s c h l a e g t , s o l l t e man f o l g e n d e s ver 

# suchen , was auch h i e r g e h o l f e n hat : 

# 

# £ mit SPSS d i e D a t e i e i n l e s e n und a l s 

# " p o r t a b l e SPSS D a t e i " 

# ( Endung " . por ") a b s p e i c h e r n . 

# £ D i e s e p o r t a b l e D a t e i kann dann ( h o f f e n t l i c h ) 

# mit SPSS e i n g e l e s e n werden . 

# £ F a l l s man d i e por D a t e i u n t e r SPSS e r n e u t 

# e i n l a e d t und a l s normale SPSS D a t e i 

# ( Endung " . sav " a b s p e i c h e r t , so l a e s s t s i c h 

# d i e s e s e l t s a m e r w e i s e AUCH i n R e i n l e s e n . 

# ( d i e s 

 

f u n k t i o n i e r t e mit SPSS V e r s i o n 1 0 ; d i e s e 

# i s t auch u e b e r den S t u d e n t e n s e r v e r USS d e r Uni 

# Bayreuth v e r f u e g b a r ) 

 



Matthias Kohl 




121

# 

# 

r e q u i r e ( f o r e i g n ) 

# l a d e das R Modul f o r e i g n , f a l l s das n i c h t schon 

# geschehen i s t . 

# 

# Nun k l a p p t das E i n l e s e n mit : 

n u e r n b e r g read . s p s s ( " nbg3 . sav " ) 

# 

summary ( n u e r n b e r g ) 

# G i b t e i n e n U e b e r b l i c k u e b e r s a e m t l i c h e V a r i a b l e n 

# und i h r e n Typ aus , und ob L e v e l v o r l i e g e n . 

# 

# L e i d e r werden d i e V a r i a b l e n I n f o s NICHT mit 

# i m p o r t i e r t , 

 

sondern nur d i e i n SPSS a u f 

# 8 Z e i c h e n b e g r e n z t e n und daher s e h r 

# k r y p t i s c h e n Variablennamen . So kann man 

 



Matthias Kohl 




122

# ohne w e i t e r e I n f o r m a t i o n n i c h t erkennen , 

# d a s s d i e V a r i a b l e BESFREU k o d i e r t , wie o f t 

# man Freunde b e s u c h t . 

# 

a t t a c h ( n u e r n b e r g ) 

# Macht d i e Variablennamen s i c h t b a r f u e r R . 

# ABER : i c h r a t e davon ab ! F a l l s n a e m l i c h e i n 

# Variablenname so h e i s s t wie e i n B e f e h l u n t e r R , 

# kommt e s zu Namens K o n f l i k t e n 

# 

# Ohne a t t a c h ( ) kann mit n u e r n b e r g [ [ 3 ] ] a u f d i e 

# ( h i e r : 3 . ) V a r i a b l e z u g e g r i f f e n werden , dazu 

# g l e i c h mehr . 

# 

p l o t (ALLGZUST) 

 

# G i b t e i n Balkendiagramm aus , das d i e Anzahl d e r 

# F a e l l e j e d e s L e v e l s d e r V a r i a b l e a n g i b t , d . h . 

 



Matthias Kohl 




123

# p l o t w i r k t h i e r a e h n l i c h wie e i n Histogramm . 

# 

# Welche L e v e l vorkommen , kann man a b f r a g e n mit : 

l e v e l s (ALLGZUST) 

# i n diesem F a l l g i b t e s 5 L e v e l : 

# [ 1 ] "k . A. " 

# [ 2 ] " A u f f a l l e n d g e p f l e g t " 

# [ 3 ] " Sauber und o r d e n t l i c h , 

# normal " 

# [ 4 ] " Nicht b e s o n d e r s g e p f l e g t , a b e r 

# halbwegs i n Ordnung" 

# [ 5 ] " Heruntergekommen , etwas v e r w a h r l o s t " 

# 

# Es g i b t i n R Probleme mit dem U n t e r s t r i c h "_" i n 

# SPSS Variablennamen , 

 

denn R i n t e r p r e t i e r t den 

# U n t e r s t i c h a l s " " und l i e s t a n s t a t t d e r 

# V a r i a b l e C_ALTER demnach C ALTER , was 

 



Matthias Kohl 




124

# s i n n l o s i s t . 

# Dadurch kann man a u f s o l c h e V a r i a b l e n n i c h t 

# d i r e k t z u g r e i f e n . 

# (M) e i n f o l g e n d e r Ausweg i s t u m s t a e n d l i c h : 

# ( kennt jemand e i n e n e l e g a n t e r e n Weg?) 

# ( 1 ) : 

t r y 1 summary ( n u e r n b e r g ) 

t r y 2 as . l i s t ( t r y 1 [ , 1 ] ) 

# 

# 

"C_ALTER" %i n% names ( t r y 2 ) 

# g i b t TRUE oder FALSE aus , j e nachdem d e r S t r i n g 

# "C_ALTER" i n d e r L i s t e d e r Variablennamen 

# vorkommt oder n i c h t . 

# 

 

# ( 2 ) : 

t r y 3 match ( "C_ALTER" , names ( t r y 2 ) ) 

 



Matthias Kohl 




125

# E r m i t t e l t d i e P o s i t i o n , an d e r d i e Z e i c h e n k e t t e 

# "ALTER" i n d e r L i s t e d e r Variablennamen 

# vorkommt , und w e i s t e s d e r V a r i a b l e t r y 3 zu . 

# L i e f e r t "NA" , f a l l s e s n i c h t vorkommt . 

# 

# 3 : Zuweisen von C_ALTER z u r neuen V a r i a b l e 

# CALTER : ( e s k o d i e r t A l t e r s k l a s s e n ) 

CALTER n u e r n b e r g [ [ t r y 3 ] ] 

# w i c h t i g s i n d d a b e i d i e d o p p e l t e n e c k i g e n 

# Klammern . Bei e i n f a c h e n Klammern , a l s o 

t r y 4 a n u e r n b e r g [ t r y 3 ] 

# gehen dagegen d i e l e v e l v e r l o r e n bzw . werden i n 

# Z e i c h e n k e t t e n k o n v e r t i e r t . 

# 

# Beweis : 

 

f o l g e n d e r B e f e h l l i e f e r t "NULL " . Wuerden 

# d i e l e v e l e r h a l t e n b l e i b e n , waere das E r g e b n i s 

# " f a c t o r " 

 



Matthias Kohl 




126

c l a s s ( t r y 4 a ) 

# 

# Anderer Beweis : Der f o l g e n d e B e f e h l g i b t d i e 

# Anzahl d e r L e v e l z u r u e c k : 

n l e v e l s ( t r y 4 a ) 

# das E r g e b n i s : 0 a n s t a t t 6 

# 

# Nun koennen w i r C_ALTER a l i a s CALTER e i n m a l 

# p l o t t e n : 

p l o t (CALTER) 

# L e i d e r b e s c h r i f t e t d i e s n i c h t a l l e L e v e l . 

# 

p l o t (CALTER, SEX) 

# Es w i r d e i n i n t e r e s s a n t e s z w e i f a r b i g e s Balken 

# diagramm ausgegeben : 

 

# £ 1 . V a r i a b l e ( h i e r : CALTER) w i r d a l s v e r s c h i e 

# dene Balken i n t e r p r e t i e r t , 

 



Matthias Kohl 




127

# £ 2 . V a r i a b l e ( h i e r : SEX) a l s f a r b i g e A b s c h n i t t e 

# a u f d i e s e n Balken . SEX k o d i e r t u e b r i g e n s nur 

# das G e s c h l e c h t d e r B e f r a g t e n . . 

# 

# v e r t a u s c h t : 

p l o t (SEX , CALTER) 

# G e s c h l e c h t a l s Balken , A l t e r s k l a s s e n a l s Farben . 

# K l e i n e r Makel : 

# Die Legende u e b e r s c h n e i d e t s i c h mit den Balken 

# 

# a n d e r e D a r s t e l l u n g s w e i s e : S u n f l o w e r p l o t . 

# J e d e r S t r i c h s t e h t f u e r e i n e " Date " : 

s u n f l o w e r p l o t (SEX , CALTER) 

# I s t nur b e i k l e i n e n D a t e n s a e t z e n gut , h i e r 

# dagegen 

 

verschwimmen d i e " Sonnenblumen " 

# 

# W e i t e r e D a r s t e l l u n g s w e i s e : 

 



Matthias Kohl 




128

t r y 5 as . numeric (SEX) 

t r y 6 as . numeric (CALTER) 

p l o t ( j i t t e r ( t r y 5 ) , j i t t e r ( t r y 6 ) ) 

# D i e s e D a r s t e l l u n g i s t ebenso wie S u n f l o w e r p l o t 

# gut g e e i g n e t , s e h r s e l t e n vorkommende L e v e l 

# h e r a u s z u f i n d e n . 

# Bei p l o t (CALTER, SEX) kann man s o l c h e Werte 

# dagegen l e i c h t u e b e r s e h e n . 

# 

# 

# ohne j i t t e r , das i s t d i e k l e i n e z u f a e l l i g e 

# V e r f a e l s c h u n g , waere h i e r n i c h t s a u s s a g e k r a e f 

# t i g e s zu sehen , denn a l l e Punkte d e s s e l b e n 

# L e v e l s werden u e b e r e i n a n d e r g e z e i c h n e t 

# und 

 

e r s c h e i n e n so a l s EIN e i n z i g e r Punkt : 

p l o t ( t r y 5 , t r y 6 ) 

# 

 



Matthias Kohl 




129

################################################# 

# 

# I n welche D a t e n s t r u k t u r hat R e i g e n t l i c h d i e 

# D a t e i e i n g e s p e i c h e r t ? 

# D i es f i n d e t man mit dem B e f e h l t y p e o f ( ) h e r a u s : 

t y p e o f ( n u e r n b e r g ) 

# h i e r : l i s t 

# 

t y p e o f (ALLGZUST) 

# h i e r : i n t e g e r 

# f i n i s 

# 

# A e h n l i c h a r b e i t e t d e r B e f e h l mode ( ) 

mode(ALLGST) 

# h i e r : numeric 

 

 



Matthias Kohl 




130

R–Beispiel 1.3-10 [Import von ASCII-Dateien]: 

# 2002 ( c ) Volkmar K l a t t 

# volkmar . k l a t t @ s t u d . uni b a y r e u t h . de 

# 

######################################### 

# B e i s p i e l zum E i n l e s e n e i n e r T a b e l l e n D a t e i mit 

# dem S t a t i s t i k p r o g r a m m R 

# ( verwendet wurde h i e r d i e V e r s i o n 1 . 4 . 1 von R , 

# doch muessten d i e B e i s p i e l e auch u n t e r a e l t e r e n 

# V e r s i o n e n l a u f e n ) 

# 

# Unter e i n e r T a b e l l e n D a t e i w i r d h i e r e i n e D a t e i 

# v e r s t a n d e n , d i e 

# £ im r e i n e n Text v o r l i e g t 

 

# ( ASCII = American Standard Code 2) 

# £ S p a l t e n ( durch e i n T r e n n z e i c h e n g e t r e n n t ) und 

 



Matthias Kohl 




131

# £ Z e i l e n b e s i t z t ( g e t r e n n t durch 

# Wagenruecklauf Z e i c h e n ) 

# 

# S t a t t l a n g e r Worte s c h a u t man s i c h am b e s t e n 

# ’ mal d i e D a t e i ceuto . dat mit einem T e x t e d i t o r 

# an . 

# 

# V i e l e p r o p r i e t a e r e n D a t e i f o r m a t e ( d i e R n i c h t 

# l e s e n kann ) , l a s s e n s i c h i n T a b e l l e n D a t e i e n 

# e x p o r t i e r e n und so doch noch e i n l e s e n . 

# 

# Warnung : 

# Das d e u t s c h e E x c e l verwendet ( v o r e i n g e s t e l l t ) 

# das Komma a l s D e z i m a l t r e n n z e i c h e n . Dann d a r f 

# man beim 

 

Export i n e i n e T a b e l l e n D a t e i 

# n a t u e r l i c h NICHT das Komma a l s T r e n n z e i c h e n 

# waehlen , w e i l s o n s t Dezimalpunkt und S p a l t e n 

 



Matthias Kohl 




132

# u n u n t e r s c h e i d b a r werden . Empfehlenswert i s t 

# d e r T a b u l a t o r . 

########################################## 

# 

# E i n l e s e n d e r T a b e l l e n D a t e i ceuto . dat 

# D i e s e D a t e i k o d i e r t das F r a s s v e r h a l t e n von 

# Ceutorhynchus p u n c t i g e r , 

# ( einem k l e i n e n K a e f e r ) , d e r im Loewenzahn l e b t . 

# 

# An d e r Datenerhebung u n t e r L e i t u n g von 

# P r o f . e m e r i t . Z w o e l f e r , U n i v e r s i t a e t Bayreuth , 

# habe i c h s e l b s t m i t g e w i r k t , s o d a s s d i e 

# ( g e k u e r z t e n ) Daten h i e r s t e h e n koennen . 

# 

# Eine 

 

Weitergabe an D r i t t e s o l l t e b i t t e 

# n a c h g e s u c h t werden ! 

# 

 



Matthias Kohl 




133

######### 

# 

# ANMERKUNG P . R . : 

# 

# d i e D a t e i ceuto . dat l a e s s t s i c h von u n s e r e r 

# Homepage aus b e z i e h e n 

# ( s i e h e auch L i n k s zu R e f e r a t e n ) 

# u n t e r 

# 

# h t t p : //www. uni b a y r e u t h . de / departments / 

# math/ org /mathe7/ SPlus / r e f e r a t e / volkmar / 

# ceuto . dat 

# 

########## 

# 

 

ceuto read . t a b l e ( " c euto . dat " , header=TRUE) 

# h e a d e r=TRUE b e d e u t e t : d i e 1 . Z e i l e d e r D a t e i 

 



Matthias Kohl 




134

# s o l l so a u f g e f a s s t werden , a l s stuenden d o r t d i e 

# Variablennamen . 

# ( was i n ceuto . dat j a auch d e r F a l l i s t ; ) 

# h e a d e r=FALSE i n t e r p r e t i e r t auch d i e 

# 1 . Z e i l e a l s Daten 

 

 



Matthias Kohl 




135

1.3.4 (g) Datenstruktur(en) der eingelesenen Daten in R 

typeof() 

modeof() 

siehe 


rkurs/referate/volkmar/spss_import.R 

1.4 Arithmetik 

1.4.1 implizites Casting 

so weit wie möglich natürliches Casting durch S: 2+T , d.h. 

der Wert T (true) , F (false) 

Komplexe Arithmetik: nur bei Bedarf; muss z.T. erzwungen 

werden, vgl. sqrt( 2) und sqrt( 2+0i) 

 



Matthias Kohl 




136

Ist bei einer elementweise definierten mathematischen binären 

Operation einer der beiden skalar, so wird dieser Skalar 

elementweise als Operand verwendet, z.B. seq (0,5, by=1)£3. 

für Arrays siehe auch Abschnitt 1.6.3 

1.4.2 zyklisches Auffüllen 

Sind bei einer binären Operation von zwei Vektoren diese nicht 

gleich lang, so wird der kürzere auf die Länge des längeren gebracht, 

indem der erstere zyklisch (möglicherweise unvollständig) wiederholt 

wird, z.B. seq (0,5, by=1)+seq(0,6,by=1). 

1.4.3 einige Funktionen 

Grundrechenarten: +, ,£,/, Bsp.:2+2 oder auch "+"(2,2) 

Potenzen, Wurzeln, Exp. und Log.: ^,sqrt, exp, log, log10 

 

(Hyperbel-)Trigonometrie und Inverse dazu: sin, cos, tan, asin, acos, 

atan, sinh, cosh, tanh, asinh, acosh, atanh 

 



Matthias Kohl 




137

Gamma-Funktion u.ä.: gamma(4) , lgamma(4) 

Rundung: round, trunc, ceil , floor 

round(x,3) rundet auf Nachkommastellen, round(x, 3) rundet auf 

, trunc/ ceil / floor runden gegen /ab/auf. 

Teilen mit Rest: %%: modulo, %/% ganzzahlige Division 

Summen und Produkte: sum,prod,cumsum,cumprod bilden Summe 

und Produkt eines Vektors, resp. kumulative Versionen davon, i.e. 

z.B. cumsum(x) 

Minima und Maxima: min,max,cummax,cummin,pmin,pmax; erstere: 

(kumulative) Minima und Maxima eines Vektors; letztere: punktweise 

Minima und Maxima: x1 , x2, ,xm -dimensionale Vektoren; 

dann ist pmin(x1 ,...., xm) 

Sortierung: sort,rev; sort (x) sortiert den Vektor aufsteigend, rev gibt 

 

den Vektor in umgekehrter Reihenfolge 

 



Matthias Kohl 




138

1.4.4 Auswertungsreihenfolge 

, >,_ zuweisen 

[von höchster zu niedrigster Priorität] 

$ auf Listenelement zugreifen 

[, [[ auf Listen–/ Vektorelement zugreifen 

^ exponenzieren 

unäres Minus 

: Folgen erzeugen 

%%,%\%,%£% und weitere spezielle Operatoren %...% 

/,£ multiplizieren, dividieren 

+, addieren, subtrahieren 

,=,==,!= vergleichen 

! logisch negieren 

&,|,&&, || logische Operatoren 

~ Formeln erzeugen 

innerhalb einer Funktion zuweisen, 


 



Matthias Kohl 




139

1.4.5 Logische Ausdrücke 

können in offensichtlicher Weise aus den Operatoren , =, ==, !=, !, &, | und Klammern gebildet werden 

any und all gut geeignet um logische Vektoren 

zusammenzufassen: geben einen einzigen logischen 

Rückgabewert zurück im Gegensatz zu den oben angeführten, 

die Vektoren von logischen Werten zurückgeben 

1.4.6 Missings 

zwei Typen von Missings: NA (not available) und NaN (not a 

number) — (sowie Inf, Inf) 

ternäre Logik: kein Vergleich x==NA möglich (liefert logischen 

Wert NA) is .na(x) 

 



Matthias Kohl 




140

Fehlerabfangen in eigenen Routinen durch na.action, na. fail , 

na.omit 

1.5 String-Operationen 

anders als in C: character-Vektoren sind Vektoren von Strings! 

Unterscheide "" und character(0) unterschiedliches “leer”! 

Erzeugung durch Zuweisung "a"oder Verkettung c("a","a") 

lexikographische Ordnung: "a"

– bei Bedarf auch zu einem String — Argument collapse 

– Bsp.:paste(c("Hallo", "␣Welt"), 1:3, 2==1+1) 

grep: im Index zur Mustererkennung — siehe Abschnitt 1.6.1 

und Tabelle 1.10-1, z.B. alle Namen, die mit P anfangen und mit 

o enden namen[grep(pattern=’^P.£o$’,namen)] 

substring: Auswahl von Teil-Strings (siehe Beispiel) 

abbreviate: automatische Abkürzung der Strings (siehe Beispiel) 

strsplit : teilt Strings in Unterstrings auf; Achtung 

Ergebnis ist Liste der Länge , deren Elemente Vektoren mit 

aufgeteilten Strings sind 

sub, gsub: ersetzt reguläre Ausdrücke (vgl. Tabelle 1.10-1) — 

ersteres nur beim ersten Auftreten, letzteres überall 

 

 



Matthias Kohl 




142


data ( p a i n t e r s , package=MASS) 

# m i t t l e r w e i l e k l a r 

pnames row . names ( p a i n t e r s ) 

# Namen d e r Maler i n pnames 

s u b s t r i n g ( pnames [ 1 : 4 ] , 1 , 5 ) 

as . v e c t o r ( a b b r e v i a t e ( pnames [ 1 : 4 ] ) ) 

1.6 Indizes und Arrays 

1.6.1 Indizierungsmöglichkeiten 

(i) mit logischen Vektoren: 

nur die Elemente werden verwendet die eine logische Bedingung 

erfüllen 

Bsp: z(x+y)[!is .na(x) & x>0] 

 



Matthias Kohl 




143

(ii) Vektoren mit positiven Integern 

Diese Integers müssen im Bereich ‘0:length(x)‘ liegen 

Bsp: x[c (1:3,5,10:13,5:1)] 

(iii) Vektoren mit negativen Integern: 

Die entsprechenden Elemente werden herausgenommen 

Bsp: x[ (1:3)] 

(iv) Vektor mit Charakter-Strings 

Auswahl anhand von Namen, z.B. 

o b s t c ( 5 , 1 0 , 1 ) 

names ( f r u i t ) c ( " Orange " , " B i r n e " , " A p f e l " ) 

e s s e n o b s t [ c ( " A p f e l " , " Orange " ) ] 

e s s e n 

Bemerkung 1.6-1: 

Zuweisungen: Auch Zuweisungen können so vorgenommen werden, 

x[ is .na(x)]0 # ersetzt alle Missings durch 0 

 



Matthias Kohl 




144

unzul. Indizes: 

 

ergeben Fehler bei Ausdrücken 

bei Zuweisungen Missings, falls , sonst ignoriert 

replace, append: 

erzeugen jeweils Kopien des Arguments, ohne das Original zu 

verändern; 

replace(x,pos,values) erzeugt Kopie mit x[pos]values, 

append(x,values, after ) erzeugt Kopie mit angehängten Werten 

values ab Position after 

 



Matthias Kohl 




145

1.6.2 Arrays und Indizierung 

Array: multi-indiziertes Variablenschema; 

bei Indizes Matrix 

Dimensionen der einzelnen Indizes: im Vektor dim abgelegt 

Nummerierung startet mit — nicht wie in C mit 

Indizierung: wie 1.6.1 (i), oder mit mehrdimensionalen Indizes 

wie in 1.6.1 (i)–(iv) 

Erzeugen einer Matrix z.B. durch matrix(0,nrow=3,ncol=4) 

bei Casting Vektor Array “umgekehrtes Stellenwertsystem”, 

d.h. [1,2] entspricht größerer eindim. Index als [2,1] 

— Formel für dim= 

 

 

 

 

 

 

 

 

 

 

 

 



Matthias Kohl 




146

Namen für die Indizes: dimnames, z.B. aarray(a,dim=c(3,4,10)), 

dimnames(a)list( letters [1:3], c("i"," ii "," iii ","iv"),NULL) 

Permutieren der Indizes durch aperm, z.B. aperm(a,(2,3,1)) 

weitere Indizierungsmöglichkeiten 

(i) jede beliebige Indexposition darf leer bleiben: 

– entsprechender Index wird ganz durchlaufen 

– Zahl der Indizes wird um einen kleiner 

– keine Veringerung der Indexzahl saa [2,,, drop=F] 

– drop gibt es nicht bei Matrizen 

(ii) Array indiziert durch Matrix 

bei Indexdimensionen können jeweils Elemente durch 

eine ¢ Matrix ausgewählt werden. 

 

 



Matthias Kohl 




147

1.6.3 Arithmetik mit Arrays 

— Arrays als Input für Funktionen mit skalaren Argumenten — 

Einsetzen von einheitl. dim. Arrays: 

liefert elementweise ausgewertete Funnktion zurück, z.B. 

sin (matrix((1:10)£2£pi/10,nrow=5,ncol=2)) 

Einsetzen von einheitl. dim. Arrays und Vektoren: 

– Auswertung von links nach rechts 

– Erweiterung zu kurzer Vektoren gem. Abschnitt 1.4.2 

– Arrays müssen von einheitlicher Dimension sein 

– Ist ein Vektor länger als die vorangegangenen Arrays so ist 

das Resultat ein Vektor dieser längeren Dimension 

– Liegen Arrays vor, und gab es weder Casting in einen Vektor 

noch einen Fehler, so ist das Resultat ein Array mit den 

gemeinsamen Dimensionen 

 



Matthias Kohl 




148

1.6.4 Sortieren 

kanonisch mit sort 

dabei: Reihenfolge von mit “==” verglichenen Elementen bleibt 

erhalten 

partielles Sortieren möglich 

flexibler: isort . list (x): liefert Indexvektor ‘i‘ zurück, so dass 

‘x[i]‘ sortiert ist 

ebenfalls die Funktion order mit ihr simultanes Sortieren nach 

mehreren Kriterien (z.B. erst Name dann Vorname) 

Ränge: die Funktion rank 

 

 



Matthias Kohl 




149

1.7 Matrix–Operationen 


Das meiste in Abschnitt 1.7 gilt auch für numerische Data-Frames. 

Im folgenden seien X, X1, X2 Matrizen und y, y1, y2 Vektoren, so 

dass die Dimensionen immer “passen”. 

1.7.1 Anhängen von Spalten und Zeilen 

Anhängen von Zeilen durch rbind, von Spalten durch cbind 

Ist der anzuhängende Vektor zu kurz, wird er wie in 

Abschnitt 1.4.2 aufgefüllt. 

 

 



Matthias Kohl 




150

1.7.2 Matrixprodukte und Transposition 

Transposition: t(X),t(y) 

Matrixmultiplikation: X1%£%X2, X1%£%y, y%£%X1 

Beachte: Bei Linksmultipl. mit Vektor keine Transposition! 

Genauer: %£% inneres Produkt x%£%x 

Kreuzprodukt: crossprod(X1,X2) 

äußeres Produkt: y1%o%y2 (dyadisches Produkt), 

X1%o%X2 (Kroneckerprodukt) 

Funktion outer: für , und gibt 

 

outer(y1,y2, f) . 

 



Matthias Kohl 




151

R–Beispiel 1.7-2 [Faltung von Bin(4,0.3) und Bin(3,0.1)]: 

# X~Bin ( 4 , 0 . 3 ) und Y~Bin ( 3 , 0 . 1 ) unabh . 

# g e s u c h t : d i e Wahrsch . f k t . von X+Y 

x dbinom ( 0 : 4 , s i z e =4,p =0.3) 

 

# dbinom ( . . ) = P(X=x ) 

y dbinom ( 0 : 3 , s i z e =3,p =0.1) 

# dbinom ( . . ) = P(Y=y ) 

xy x%o%y # e r g i b t p i £ q j 

i n d o u t e r ( 0 : 4 , 0 : 3 , "+" ) 

pf f u n c t i o n ( i ){ 

i n d 0 ( i n d==i ) 

r e t u r n ( sum ( i n d 0 £ xy ) ) } 

c ( pf ( 0 ) , pf ( 1 ) , pf ( 2 ) , pf ( 3 ) , pf ( 4 ) , pf ( 5 ) , pf ( 6 ) , pf ( 7 ) ) 

 



Matthias Kohl 




152

1.7.3 apply und sweep 

1.7.3 (a) apply 

apply erlaubt es, skalare-argumentige Funktionen sukzessive, 

schnittweise auf Arrays auszuwerten 

vermeidet Schleifen; falls Matrixmultiplikation möglich, ist diese 

aber schneller 

Argumente 

– Name des Arrays 

– Integer-Vektor MARGIN, der die Indizes festlegt, auf die die 

Funktion separat angewendet werden soll 

Beachte: das Resultat hat Dimensionen dim(X)[MARGIN] 

– Name einer Fkt., FUN, die auf die Schnitte angewendet wird 

– alle weiteren Argumente von FUN 

– entsprechende Varianten für andere Strukturen: sapply, 

lapply, tapply, c.f. Abschnitte 1.8.5 und 1.8.3 

 



Matthias Kohl 




153


data ( i r i s 3 ) # l a d e n des IRIS dim ( i r i s 3 ) 

# D a t e n s a t z e s 

h e l p ( i r i s 3 ) # I n f o dazu 

i r . means a p p l y ( i r i s 3 , c ( 2 , 3 ) , mean ) 

# Anwendung von mean a u f j e d e n 

# j , k s c h n i t t von i r i s [ i , j , k ] 

a p p l y ( i r i s 3 , c ( 2 , 3 ) , mean , t r i m =0.1) 

# zus . Arg von mean > getrimmtes M i t t e l 

a p p l y ( i r i s 3 , c ( 2 ) , mean ) 

i r . v a r a p p l y ( i r i s 3 , 3 , v a r ) 

1.7.3 (b) sweep 

# V a r i a n z e i n e s j e d e n k S c h n i t t s 

Bereinigen der Daten — im obigen Beispiel Abzug des Mittelwerts 

 

sweep( iris3 ,c (2,3), ir .means) 

 



Matthias Kohl 




154

1.7.4 Funktionen in Matrizen 

Lösen linearer Gleichungssysteme: solve 

solve(A) invertiert (A), 

solve(A,b) berechnet ein x, so dass , 

bei überbestimmtem die KQ-Lösung 

Choleskizerlegung: chol, backsolve 

Eigenwerte / –vektoren: eigen 

liefert Liste mit Komponenten values (Eigenwerte) und vectors 

(Eigenvektoren) 

nur –werte mit only . values=T, 

deklarativ symmetrisch symmetric=T 

Singulärwertzerlegung svd 

QR-Zerlegung qr 

Determinante: nicht direkt; 

Spur: nicht direkt; mit qr oder eigen Achtung nicht zu 

verwechseln mit trace, siehe Abschnitt 3.4.3 (c) 

 



Matthias Kohl 




155

1.7.5 Casting für Matrizen und Data-Frames 

Matrix Data-Frame as.data.frame; Namen übernommen oder 

Defaults 

Data-Frame Matrix 

as.matrix: sind Strings im Data-Frame Modus: character 

(alle, auch numerische Spalten!) 

data.matrix : Modus: numeric (Strings werden auf numeric 

gecastet!), ursprgl. Strings in column. levels 

1.8 Funktionen von Faktoren und Listen 

1.8.1 ein hypothetisches Datenbeispiel 


l a n d c ( "HHA" , "BAY" , "NRW" , "BAW" , "RLP" , "HBR" , 

 

"BAY" , "SAC" , "BAW" , "SAA" , "HES" , "NS" ) 

 



Matthias Kohl 




156

s e l b s t c (T, T, F , T, F , F , F , T, F , T, T,T) 

EKT c ( 3 0 , 2 8 , 2 3 , 4 0 , 1 4 , 4 0 , 2 4 , 9 0 , 2 9 , 3 0 , 6 0 , 4 0 ) 

Beruf . s t u d i e data . frame ( land , s e l b s t ,EKT) 

rm( land , s e l b s t ,EKT) 

a t t a c h ( Beruf . s t u d i e ) # s i e h e A b s c h n i t t 1.10.3 (c) 

1.8.2 table und tabulate 

im Beispiel werden die Strings und logischen Werte zu Faktoren 

table listet die absoluten Häufigkeiten eines jeden Faktors, in 

Beispiel 8.1-1: table(EKT), table( selbst ) 

bei mehr als einem Argument bildet table 

Mehrfach-Kreuztabellen, in Beispiel 8.1-1: table(EKT,selbst) 

die Funktion tabulate listet die absoluten Häufigkeiten in einem 

Vektor mit nicht negativen, numerischen Einträgen 

 



Matthias Kohl 




157

es entsteht ein ragged array, eine Liste mit heterogenen 

unterschiedlich langen Einträgen 

ist das erste Argument der Funktion ein Faktor, so erzeugt die 

entsprechende Methode plot, i.e. plot . factor, boxplots, siehe 

auch Abschnitt 4.2 

1.8.3 tapply 

wie in Abschnitt 1.7.3 können for–Schleifen vermieden werden, 

hier durch tapply, 

in Beispiel 1.8-1: tapply(EKT,land,mean) 

Argument 1: zu betrachtende Variable, Argument 2: (Liste von) 

klassierende(n) Variablen, Argument 3: anzuwendende Funktion 

/ Statistik 

 

 



Matthias Kohl 




158

1.8.4 split 

split splittet den Datensatz gemäß einer kategoriellen Variable 

auf 

in Beispiel 1.8-1: split (EKT,selbst) 

1.8.5 lapply und sapply 

die Analoga zu apply und tapply für Listen sind lapply und sapply 

sind alle Einträge gleich lang, so vereinfacht sapply das Resultat 

zu einer Matrix / einem Vektor 

in Beispiel 1.8-1: sapply( split (EKT,selbst),mean) 

 

 



Matthias Kohl 




159

1.9 Datenausgabe 

1.9.1 Ausgabe auf File 

der Befehl write 

– Syntax: write(,file="") 

– schreibt Objekt auf das File ; 

man beachte auch Bemerkung 1.3-2 

– entspricht schreiben auf das Sitzungs–Fenster 

– Argument ncolumns spezifiziert die Spaltenzahl pro Zeile 

der Befehl write . table, z.B. 

write . table( painters , file ="",sep="\t::␣") 

– per default werden Zeilen– und Spalten–Labels mit 

geschrieben — so vorhanden 

 

– row.names=F,col.names=F lässt beide weg 

 



Matthias Kohl 




160

der Befehl write .matrix von Venables and Ripley (1999) 

w r i t e . m a t r i x f u n c t i o n ( x , f i l e ="" , sep="␣" ) 

{ 

} 

x as . m a t r i x ( x ) 

p n c o l ( x ) 

cat ( dimnames ( x ) [ [ 2 ] ] , format ( t ( x ) ) , f i l e =f i l e , 

sep=c ( rep ( sep , p 1) , "\n" ) ) 

der Befehl cat 

– ähnlich wie paste mit Argument collapse ="" 

– explizites \n zum Zeilenumbruch nötig 

– Argument fill= Zeichen pro Zeile; 

fill=T bricht genau auf Fensterbreite um 

– Argument labels=letters kennzeichnet die Zeilen durch 

Buchstaben 

 

– Argument/Funktion format 

 



Matthias Kohl 




161

£ zwingt die Ausgabe auf bestimmtes Format, vgl. 

Format-String in C — printf, scanf 

£ Beispiel: Deklaration der Funktion print .summary.lm 

der Befehl dump 

– Syntax: dump("",file="") 

bzw. 

dump(list("","",...),file="") 

– schreibt [die Liste von] Objekt[en] als 

Zuweisungen auf das File gut lesbar; 

– mit source("") wieder einlesbar (aber langsam) 

– schneller mit dump.data und data. restore 

£ zum Übermitteln von Datensätzen zwischen 

(verschiedenen) Rechnern; 

£ Speichermodus wird mit übermittelt 

 



Matthias Kohl 




162

der Befehl save 

– Syntax: save("",file="") 

bzw. 

dump(list("","",...),file="") 

– weitere Optionen: 

£ ascii : falls auf TRUE wird in ASCII–Code abgelegt; per 

default auf FALSE; dann abspeichern in einem 

plattformunabhängigen Binärformat (XDR–Darstellung) 

£ compress: falls auf TRUE werden die Daten komprimiert 

abgelegt; per default auf FALSE; 

– schreibt [die Liste von] Objekt[en] als 

ASCII– oder Binärdatei auf das File 

komprimierten Files 

– Daten schnell wieder in R mit load("") 

unabhängig vom Betriebssystem einlesbar; 

 

– Variante: save.image(file="") 

 



Matthias Kohl 




163

– schreibt den gesamten Arbeitsspeicher als ASCII– oder 

Binärdatei auf das File ; siehe auch 

Abschnitt 8.2.1 (a) 

– zusätzlicher Parameter: 

safe: falls auf TRUE wird zuerst auf eine temporäre Datei 

geschrieben, und diese erst nach erfolgreichem Abschluss des 

Speicherns in "" umbenannt 

1.9.2 Umleiten der Ausgabe / Drucken 

Mit dem Befehl sink("") wird die 

Bildschirmausgabe auf das auf das File umgelenkt 

zum Drucken: am besten Umweg über Ausgabefile, das 

nacheditiert werden kann 

 

zum Ausdruck von Graphik siehe Abschnitt 4.1.2 

 



Matthias Kohl 




164

1.10 Arbeiten mit dem System 

1.10.1 File- und URL-zugriffe unter R 

um systemunabhängig auf Files zugreifen zu können: siehe ? files 

file . create (...) , file . exists (...) , file .remove (...) erzeugt 

File/testet es auf Existenz/löscht es 

dabei: Argumente ... durch "/" getrennt zu Pfad 

zusammengehängt 

mit file .rename, file .copy, file .symlink(from, to) kann man 

Files umbenennen, kopieren, bzw. Verknüpfungen erstellen 

file .append hängt Files zusammen 

dir . create erzeugt einen Ordner 

dir (synonym: list . files ) gibt den Inhalt eines Ordners aus 

 

genauer: das systemspezifische Ordner-Trennzeichen 

 



Matthias Kohl 




165

download. file lädt eine URL in ein entsprechendes temporäres 

File; dabei sind für Proxies eventuell Systemvariablen mit 

Sys.putenv zu setzen —vgl. auch ?download. file , ?Sys.putenv 

das aktuelle Arbeitsverzeichnis erhält man mit getwd und setzt 

es mit setwd 

1.10.2 R-Skripte 

R-Skripte sind ASCII–Files, vorzugsweise mit Endung .r, mit 

Folgen von R-Anweisungen 

werden dann Zeile für Zeile abgearbeitet (interpretiert !) 

Einlesen eines Sripts mit source(""), 

— möglicherweise mit options(echo=T) 

Bearbeitung mit einem Editor Ihrer Wahl (siehe auch Übung) 

zum Erstellen oft nützlich: das Editieren von History-Files, vgl. 

Abschnitt 1.10.5 

 



Matthias Kohl 




166

1.10.3 Auffinden von S-Objekten 

1.10.3 (a) Daten–Filestruktur in S 

interaktiv erzeugte Objekte in S-Plus real, in R virtuell als File 

abgelegt: 

S-Plus unter (.Data bzw. _DATA)–Verzeichnis 

 

R im virtuellen Verzeichnis “.GlobalEnv” 

Objekte, die auf einer höheren Ebene generiert werden, — z.B. 

lokale Variablen in einem Funktionenkörper, — werden in einem 

lokalen frame abgelegt (vgl. auch Abschnitt 3.6) 

jedes Objekt wird in einem separaten File abgelegt (auch mit 

cp/copy, rm/del etc. manipulierbar) 

in S-Plus: alle Objekte aus früheren Sitzungen bleiben 

verfügbar (als Files) 

besser mehrere Arbeitsverzeichnisse für unterschiedliche 

Projekte 

 



Matthias Kohl 




167

1.10.3 (b) Suchmechanismus in S 

auf der Suche nach einem Objekt durchsucht S zunnächst die 

Search list (Suchliste) 

diese Liste erhält man mit search() 

die Elemente des ersten Elementes der Suchliste erhält man mit 

objects (), die der weiteren mit objects() 

durch weiteres Argument pattern (mit Wildcards) Einschränkung 

der Suche 

Wildcard-Syntax gemäß Unix–Standard POSIX 1003.2, siehe 

auch Tabelle 1.10-1 

zu einem Objekt findet find() die Stellen in der 

Suchliste 

 

 



Matthias Kohl 




168

Tabelle 1.10-1 [Reguläre Ausdrücke]: 

— aus Aho et al. (1988),fig. 3.48 

Ausdruck wird gematch-t durch Beispiel 

c jedes non-operator Zeichen c a 

\c Zeichen c als solches \£ 

"s" String s als solches "££" 

. jedes Zeichen außer newline a.£b 

^ Zeilenanfang âbc 

$ Zeilenende abc$ 

[s] jedes Zeichen in s [abc] 

[^s] jedes Zeichen, das nicht in s ist [âbc] 

r£ oder mehr r’s a£ 

r+ oder mehr r’s a+ 

r? oder mehr r a? 

r{m,n} bis –maliges Auftreten von r a{1,5} 

r1r2 r1 gefolgt von r2 ab 

r1|r2 r1 oder r2 a|b 

(r) r (a|b) 

r1/r2 r1 falls es von r2 gefolgt wird abc/123 

 



Matthias Kohl 




169

1.10.3 (c) Positionen in der Suchliste 

Einträge der Suchliste heißen Dictionary oder Database 

neben S–Files können auch Listen oder listen–artige Objekte wie 

Data-Frames Einträge sein 

an erster Stelle 

S-Plus .Data bzw. _DATA)–Verzeichnis; 

R .GlobalEnv 

dieses heißt auch Arbeitsverzeichnis (Workspace) 

mehrere Objekte mit gleichen Namen: das im “früheren” 

Directrory (in Suchliste) maskiert die “dahinter” kommenden 

spezifische Variante aus Directory mit 

get("",) 

Hinzufügen weiterer directories, Listen oder Data-Frames (in die 

Suchliste) mit attach 

hierbei Erstellen einer Kopie (keine Auswirkung auf “Original”) 

 



Matthias Kohl 




170

Löschen weiterer directories, Listen oder Data-Frames (aus der 

Suchliste) mit detach 

Modifikationen in lokaler Kopie werden in File von der Gestalt 

Save.. — außer Argument save=F in 

detach 

Beträchtliches Caching logische Position (in Suchliste) 

Position im Filesystem; Abgleich mit synchronize 

1.10.4 Systemkonfiguration 

vielfältige Anpassungsmöglichkeiten des Systems sogar 

Modifikation von Systemfunktionen 

der Befehl options, 

– z.B. unlist (options) 

– Auskunft über Option mit 

options(""), z.B. options("prompt") 

 



Matthias Kohl 




171

– Setzen der Option auf Wert mit 

options(=), z.B. 

options(prompt=":") 

 

– wichtige Optionen siehe Tabelle 1.10-2 

ähnlich: ps.options, siehe Abschnitt 4.1.2 (b) 

der Befehl . First 

– wird beim Aufruf von R “still” ausgeführt (falls in .Data 

bzw. _DATA vorhanden) 

– Beispiel aus Venables and Ripley (1999) 

. F i r s t f u n c t i o n ( ) 

{ 

o p t i o n s ( prompt=">" , c o n t i n u e="+␣" , 

d i g i t s =5, l e n g t h= 99999) 

ps . o p t i o n s ( paper=" a4 " , f o n t =3, 

p o i n t s i z e =10, h o r i z o n t a l=F) 

l i b r a r y (MASS, f i r s t =T) 

 



Matthias Kohl 




172

} 

der Befehl .Last 

– analog . First wird bei Abschluss der Sitzung von R “still” 

ausgeführt 

– Beispiel (c.f. Venables and Ripley (1999)) 

.Lastfunction(){cat("und␣tschuess ....\ n")} 

 



Matthias Kohl 




173

Tabelle 1.10-2 [wichtige Optionen]: 

width Seitenweite, in char–Symbolen 

length Seitenlänge, in char–Symbolen, oft zum Auftrennen 

langer Ausgaben 

digits signifikante Zahl an Stellen bei Ausgabe mit print 

editor der von Ihnen präferierte Editor 

echo logischer Wert: Sollen Ausdrücke vor Auswertung 

noch ausgegeben werden? 

prompt primärer Prompt (per default > ) 

continue Kommando–Fortsetzungs–Prompt (per default + ) 

error Funktion zum Fehlerabfangen (siehe Abschnitt 3.4) 

warn Strenge bei der Behandlung von Warnungen; 0 

sammelt sie und gibt sie gemeinsam aus, 1 gibt sie 

sofort aus, 2 macht Warnungen zu Fehlern 

memory maxim. Speicher (in bytes) der alloziert werden kann 

 

object.size maximaler Speicher (in bytes) eines Objekts 

 



Matthias Kohl 




174

1.10.5 History–File 

mit history (max.show = 25, reverse = FALSE) werden die 

ersten [letzten] max.show in dieser Sitzung ausgeführten Befehle 

in chronologischer [umgekehrter falls reverse = T] Reihenfolge 

gelistet 

Abspeichern der Historie mit savehistory (), per 

default in .Rhistory 

Laden einer Historie mit loadhistory () 

 

 



Matthias Kohl 




175

2 Einfache explorative Analyse 

2.1 etwas Stochastik/Statistik 

Dieser Abschnitt stellt im Range einer Wiederholung wichtige Begriffe und 

Verteilungen aus der Stochastik I zusammen, führt die Notation ein, und 

geht dann auf deren Umsetzung in R ein 

2.1.1 Wahrscheinlichkeitsmaße 

mathematische Umsetzung der Information / 

Entscheidungsgrundlage: die –Algebra 

– Teilmenge der Potenzmenge einer Ereignismenge , 

– abgeschlossen unter ¡ und abzählbar vielen , 

axiomatischer Wahrscheinlichkeitsbegriff: 

ein Wahrscheinlichkeitsmaß gemäß Kolmogoroff’schen Axiomen 

 

– , 

 



Matthias Kohl 




176

– –additiv: disjunkt 

 

– ( für alle ) 

Paar heißt Messraum 

Tripel heißt Wahrscheinlichkeitsraum (W-Raum) 

2.1.2 Zufallsvariablen und Verteilungen 

2.1.2 (a) Zufallsvariablen 

eine Abbildung zwischen zwischen Messräumen 

, ist messbar, falls für alle 

; 

anschaulich: Ich kann mit der Information aus entscheiden, welche Werte in annimmt. 

jede messbare Abbildung von einem W–raum in 

einen Messraum heißt Zufallsvariable (ZV). 

der Messraum heißt auch Stichprobenraum 

 



Matthias Kohl 




177

i.a. genaue Gestalt von unwichtig, es interessiert nur 

das Realisationsverhalten von in . 

Beispiele für : 

– Realisationen eines Würfels 

– Antworten in einem Fragebogen 

– Kurvenverlauf des DAX 

2.1.2 (b) Mess–Skalen 

je nach Stichprobenraum nur bestimmte Operationen mit den 

Daten zulässig; 

Klassifikation durch Skalenniveau 

– kategorielle Merkmale: z.B. Geschlecht, Marktsegment, 

Augenfarbe, Landschaftstyp 

nur relative Häufigkeiten, z.B. Modus 

 



Matthias Kohl 




178

– ordinale Merkmale: z.B. Schulnoten, “stimme-zu-Skalen” 

Anordnung zulässig auch Ordnungsstatistiken wie Median, 

Quartile zulässig 

– metrische Merkmale: z.B. Alter, Einkommen, 

auch: Unterscheidung Ratio–/ und Intervallskalen 

Addition (und bei Ratio-Skalen auch Division) zulässig 

auch Mittelwert, Varianz zulässig 

abgeleitete Skalen: Vektor–/ “Listen”–wertige Variablen 

2.1.2 (c) Verteilungen/Dichten 

Information über Realisation einer einzelnen ZV vollständig 

beschrieben durch Bildmaß , 

für , 

statt auch 

ziemlich groß, stattdessen repräsentative Unterklassen von 

Ereignissen 

 



Matthias Kohl 




179

– für diskrete Merkmale: alle Elementarereignisse in , 

W-Funktion , zum Beispiel durch Angabe der 

W-keit für Ereignisse vom Typ “6” beim Würfeln 

– für metrische Merkmale mit Werten in oder : 

Ereignisse in , 

Verteilungsfunktion , ; 

Konvention: im heißt falls für alle . 

bei (absolut)stetigen Merkmalen: 

Falls besitzt eine (Lebesgue–)Dichte, also 

, so dass für alle 

 

dabei heißt : 

 

 

 

 

 

 

 



Matthias Kohl 




180

2.1.3 wichtige Verteilungen 

2.1.3 (a) diskrete Verteilungen 

Einpunktverteilung / Diracmaß in , in Zeichen 

Uniforme Verteilung auf einer endlichen Menge von Elementen 

, in Zeichen 

Bernoulli–Verteilung: ; 

Parameter , in Zeichen 

Binomial–Verteilung: Vtlg. der Summe von 

Bernoulli–Variablen; -fache Ziehung mit Zurücklegen; 

Parameter , , in Zeichen 

Hypergeometrische Verteilung: -fache Ziehung ohne 

Zurücklegen aus Urne mit Kugeln, weiß, schwarz; 

Parameter , , , in Zeichen 

 



Matthias Kohl 




181

Multinomial–Verteilung: Vtlg. der Summe von Variablen 

mit Merkmalsausprägungen; Parameter , , in 

Zeichen 

Wilcoxon–Verteilung: Vtlg. der entsprechenden Teststatistik, 

Parameter , , in Zeichen 

Poissonverteilung: Grenzwert für “seltene Ereignisse”, 


Geometrische Verteilung: , , 


negative Binomial–Verteilung (auch Pascal–Verteilung): Vtlg. 

der Wartezeit, bis man bei –Variablen zum -ten 

Mal “” erzielt; Parameter , , in Zeichen ; 

Spezialfall : Geom. Vtlg; 

 

 



Matthias Kohl 




182

2.1.3 (b) die Normalverteilung 

wichtig wegen Zentralem Grenzwertsatz 

Parameter: , , in Zeichen 

 

multivariat: Seien ; 

fassen wir diese zu zusammen, und ist ¢ , , so 

heißt die Verteilung von multivariat normal mit 

Parametern , ¦ , in Zeichen ¦ 

2.1.3 (c) von der Normalverteilung abgeleitete Verteilungen 

Im folgenden sei , 

, , ; 

: Lognormal–Vtlg 

 

 

: oder Chiquadrat–Vtlg mit Freiheitsgraden 

(df’s) und Nichtzentralität (ncp) 

 



Matthias Kohl 




183

: –Vtlg — ohne Erwartungswert! 

Sei von sto.u.; 

dann : / Student–Vtlg mit df’s und 

ncp . 

Sei von sto.u.; 

dann 

: / Fisher–Snedecor–Vtlg mit df’s 

und und ncp . 

 

Seien ¦; 

fassen wir die zu einer Matrix ¢ zusammen, 

dann : ¦ / Wishart-Vtlg mit Parametern 

, ¦ 

Sei sto. u. von ; 

dann : oder Hotelling–Vtlg. 

Seien ¦ und ¦ sto. u. 

dann 

: £ oder Wilks–Vtlg. 

 



Matthias Kohl 




184

2.1.3 (d) sonstige stetige Verteilungen 

Uniforme Verteilung auf in Zeichen 

Exponential–Verteilung: gedächtnislose Verteilung, Parameter , 

in Zeichen 

Laplace–Verteilung: symmetrisierte Exponentialverteilung mit 

Parameter , in Zeichen . 

Gamma– oder Erlang–Verteilung: Verteilung mit Parametern 

und Vtlgsfkt. 

, in 

Zeichen ; 

falls : Vtlg. der Summe von –Variablen. 

logistische Verteilung: , in Zeichen 

. 

Beta–Verteilung: Vtlg. der -ten Ordnungsstatistik von 

–Variablen, in Zeichen . 

 



Matthias Kohl 




185

Extremwertverteilungen: 

Gumbel–Verteilung: , Fréchet–Verteilung: , , 

Weibull–Verteilung: , , 

Pareto–Verteilung: 

, 

2.1.3 (e) Mischungen von Verteilungen 

im Kontext von robuster Statistik wichtig (nicht nur dort!) 

, mit (Kontaminationsradius). 

, , , sto. u. 

2.1.4 Umsetzung in R 

umfassende Sammlung an Verteilungen bereits in R verfügbar 

Nomenklatur: , z.B. dnorm 

mit VtlgName: Name der Verteilung und : 

r d p q 

 



Matthias Kohl 




186

– r : Simulation von Zufallsgrößen mit Verteilung 

zusätzliches Argument: n Stichprobenumfang 

– d : Dichte / W-fkt der Verteilung 

zusätzliches Argument: x Auswertungsstelle(n) 

– p : Verteilungsfkt. der Verteilung 

zusätzliches Argument: q Auswertungsstelle(n) 

– q : Quantilsfkt. der Verteilung 

zusätzliches Argument: p Auswertungsstelle(n) 

dabei Quantilsfunktion: 

speziell 

 

– 

 

Median, 

 

– , unteres/oberes Quartil 

(2.1.1) 

 



Matthias Kohl 




187

Tabelle 2.1-1 [Verteilungen in R]: 

— aus http://cran.r-project.org/doc/manuals/R-intro.pdf, p. 34 

Verteilung Parameter 

beta shape1,shape2,ncp 

binom size,prob 

cauchy location,scale 

 

 

 

 

chisq 

exp 

df,ncp 

rate 

f df1,df2,ncp 

gamma shape,scale 

geom prob 

hyper m,n,k 

– lnorm meanlog,sdlog 

logis location,scale 

nbinom size,prob 

norm mean,sd 

pois lambda 

t df,ncp 

unif min,max 

weibull shape,scale 

wilcox m,n 

Extremwertvtlg.’en in Paket evd 

 



Matthias Kohl 




188

2.2 Verteilungen mit den Zusatzpaketen 

distr und distrEx 

im Anschluss dieses Kurses: 

Software-Praktikum von Thomas Stabla, statho3@web.de, 

Florian Camphausen, fcampi@gmx.de 

Ergebnis: R–Paket “ distr ” 

mittlerweile (05/2006) in Version 1.7 auf CRAN veröffentlicht ; 

siehe auch Ruckdeschel et al. (2006). 

erweitert durch Paket “ distrEx” 

Auslöser für diese Pakete: 

will Algorithmus unabhängig von einer konkreten Verteilung 

formulieren; 

 



Matthias Kohl 




189

dafür notwendig: tatsächliche Verteilung als Art Variable an 

Algorithmus übergeben 

Im Prinzip möglich: zusammenkleben von Präfix und 

Verteilungsname in eval(parse (....)) 

unelegant und unflexibel 

stattdessen: Variablentyp (genauer Klasse) Distribution 

Arithmetik für Verteilungen: 

– Identifikation von Zufallsvariable und Verteilung 

– Norm()+Pois() bedeutet: 

, , , sto. u., dann: 

Norm()+Pois() 

– analog sin (Norm()) 

 

 



Matthias Kohl 




190


l i b r a r y ( d i s t r ) 

N Norm( mean = 2 , sd = 1 . 3 ) 

P Pois ( lambda = 1 . 2 ) 

Z 2£N + 3 + P ; Z 

p l o t (Z) 

p (Z ) ( 0 . 4 ) ; q (Z ) ( 0 . 3 ) 

Zs r (Z ) ( 1 0 0 0 ) ; Zs [ 1 : 3 0 ] 

 

 



Matthias Kohl 




191

d(x)(grid) 

0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14 

Density of AbscontDistribution 

0 10 20 30 

grid 

p(x)(grid) 

0.0 0.2 0.4 0.6 0.8 1.0 

CDF of AbscontDistribution 

0 10 20 30 

Abbildung 1: Dichte, Verteilungsfunktion un Pseudoinverse von Z 

grid 

grid 

0 10 20 30 

Quantile of AbscontDistribution 

0.0 0.2 0.4 0.6 0.8 1.0 

p(x)(grid) 

 



Matthias Kohl 




192

In Paket distrEx hat man auch Funktionale auf Verteilungen wie 

Erwartungswert (E), Varianz (var), Standardabweichung (sd), etc. 

zur Verfügung: 


l i b r a r y ( d i s t r E x ) 

E Exp ( r a t e =2) 

E(E) ## b e n u t z t Formel =1/ r a t e 

E( as (E , " A b s c o n t D i s t r i b u t i o n " ) ) ## mit num . I n t e g r a t i o n 

E( as (E , " U n i v a r i a t e D i s t r i b u t i o n " ) ) ## mit S i m u l a t i o n e n 

E(E , fun = f u n c t i o n ( x ){2 £x ^2}) ## b e r e c h n e t E(2E^2) 

# mit demselben Operator / F u n k t i o n a l 

P Pois ( lambda=2) 

E(P) ## n u t z t Formel =lambda 

E( as (P , " D i s c r e t e D i s t r i b u t i o n " ) ) ## mit Summen 

 

E( as (P , " U n i v a r i a t e D i s t r i b u t i o n " ) ) ## mit S i m u l a t i o n e n 

E(P , fun = f u n c t i o n ( x ){2 £x ^2}) ## b e r e c h n e t E(2P^2) 

 



Matthias Kohl 




193

2.3 Simulation von Zufallsvariablen 

2.3.1 Was sind “gute” Zufallszahlen? 

sollen “zufällig” aussehen 

besser: sollen mit statistischen Verfahren (Tests) nicht von 

unterscheidbar sein, insbesondere 

– von einer bekannten Verteilung 

– keine Autokorrelation 

– keine höheren Abhängigkeitsschemata 

sollen eine lange Periode haben (vor Wiederholung) 

sollen einfach und schnell produzierbar sein 

sollen (durch Setzung eines Initialisierungs–Parameters) 

reproduzierbar sein 

 



Matthias Kohl 




194

Die folgenden drei Unterabschnitte stellen in einem Exkurs wichtige 

Resultate und Prinzipien zur Simulation von Zufallsvariablen zusammen; 

da diese aber sowieso in R implementiert sind, kann man diesen Abschnitt 

auch gut überspringen. 

2.3.2 Schritt 1: Erzeugung von 

; typische 

Zufallszahlengeneratoren 

2.3.2 (a) historisch: physikalisch erzeugte Zufallszahlen 

z.B. C-14–Zerfall, andere Isotopenzerfälle 

2.3.2 (b) lineare Kongruenzenschemata 

Definition 2.3-1: 

Für definiert man “Zufallszahlen” als 

 

(2.3.1) 

 



Matthias Kohl 




195

Hierzu gilt: 

Theorem 2.3-2: 

Ein Schema gemäß (2.3.1) hat die (maximale) Periode genau 

dann, wenn 

(i) 

(ii) für jeden Primfaktor 

(iii) falls , dann 

Im Spezialfall , haben wir maximale Periode genau 

dann, wenn ungerade und . 

Für den Beweis verwenden wir 

Lemma 2.3-3 [kleiner Fermat’scher Satz]: 

Für prim gilt für 

 

(2.3.2) 

 



Matthias Kohl 




196

Beweis 

zu Lemma 2.3-3: 

Für ist (2.3.2) trivial; sei also . Dann ist (2.3.2) 

äquivalent mit . Aber die Multiplikation mit stellt einen 

Gruppenautomorphismus in der abelschen, multiplikativen Gruppe der 

Restklassen dar. Daher gilt 

 

 

 

 

 

 

 

 

 

 

also in der Tat . //// 

Beweis zu Theorem 2.3-2: 

“”: 

Mit Induktion sehen wir ein, dass für gilt, sofern : 

 

 

 

 

 

(2.3.3) 

Sei die Periode des Schemas und ; dann gilt mit (2.3.3) 

für alle , und falls ist nicht möglich; also gilt (i). 

Für (ii) nehmen wir an : 

Wir betrachten die Folge der modulo . Wegen der Restklassenbildung gilt 

für diese Folge ; nehmen wir an, , so müsste gelten und somit 

, da prim; dann aber folgte für alle im Widerspruch zu (i). 

 



Matthias Kohl 




197

Insgesamt 

also muss gelten und somit, falls nach 

(2.3.3) 

. Dass wird durch (i) widerlegt, und 

 

somit müsste sein; dies aber stünde im Widerspruch zu 

Lemma 2.3-3, und so gilt (ii). 

Nehmen wir nun an, dass . Man betrachte die Folge der modulo . 

Dann aber muss wie gerade gezeigt diese Folge Periode haben. Sei 

. Wegen (ii) muss dann sein; und wegen (i) muss 

gelten oder . Für diese beiden Konstellationen ergeben sich: 

 

 

also keine volle Periode. Beweis wird auf Seite 201 fortgesetzt 

Vor dem Beweis der Rückrichtung noch drei Lemmata: 

Lemma 2.3-4: 

Sei für und , und die Perioden des 

Schemas (2.3.1) für die Parameter , 

 

und 

, wobei die ¡ –Größen modulo , die ¡ –Größen 

modulo aus den Parametern hervorgehen. 

Dann gilt . 

 



Matthias Kohl 




198

Beweis zu Lemma 2.3-4: 

Da , folgt, dass Da aber folgt, 

weil die Periode des ¡ –Schemas ist, , und analog 

, so dass also auch , also . //// 

Lemma 2.3-5: 

Die Periode des Schemas (2.3.1) mit und ist für 

eine Primzahl genau dann, wenn 

(i) für 

(ii) für 

Lemma 2.3-6: 

Sei prim und . Dann gilt 

 

 

 

 

 

 

 

 

 

 

 

 

(2.3.4) 

 



Matthias Kohl 




199

Beweis 

zu Lemma 2.3-6: 

Sei also mit . Dann gilt 

 

 

 

 

 

¡ 

da der Faktor für stets einen Primfaktor abspaltet und für 

dieser Faktor von geliefert wird. Andererseits gilt für : 

 

 

 

also . //// 

Beweis zu Lemma 2.3-5: 

Das Lemma ist der Spezialfall des Satzes für , und . 

“” ist daher bereits durch den entsprechenden Beweisteil des Theorems 

abgedeckt. 

“”: Sei mit , also (i) oder (ii) in der Aussage von 

Lemma 2.3-5. Sei weiter . Dann folgt aus Lemma 2.3-6 — indem 

wir induktiv in in (2.3.4) für einsetzen für alle : 

 

 

 

 

 

 

 

 

 

 

 

(2.3.5) 

 



Matthias Kohl 




200

Aus 

der rechten Seite der Implikation aber folgt 

 

 

 

 

 

Fortsetzung Beweis : “” in Theorem 2.3-2: 

 

 

 

 

 

 

 

 

 

(2.3.6) 

denn aus der linken Seite folgt für ein so dass 

, also . Damit aber ist der Bruch auf der rechten Seite gerade 

 

 

 

 

 

Betrachten wir wieder (2.3.3) mit , , und . 

Dann gilt für die Periode des Schemas 

 

Setzen wir , so folgt mit aus der rechten Seite der Implikation 

(2.3.6) , also . Andererseits setzen wir , so 

folgt mit aus der rechten Seite der Implikation (2.3.6) 

, also , so dass in der Tat . //// 

Nach Lemma 2.3-4 genügt es, das Theorem für Primzahlpotenzen zu zeigen. 

Dabei genügt es zu zeigen, dass die mit startende Folge maximale 

 

 

 



Matthias Kohl 




201

Periode hat. Das Theorem ist richtig für : Dann ist , 

und nach (i) folgt aus auch , also was genau 

dann gilt, wenn . Für wenden wir Lemma 2.3-5 an. //// 

 

 



Matthias Kohl 




202

2.3.2 (c) rein multiplikative Schemata 

in der Praxis finden meist Schemata aus Definition 2.3-1 mit 

, also rein multiplikative Schemata, Verwendung 

ist hier natürlich verboten! 

die maximale Periode ist hier (s.u.) 

in R: functionseed, , , 

Hierzu gilt: 


Sei , . Dann ist die maximale Periode und 

wird genau dann erreicht, wenn oder und 

ungerade. 

Beweis: 

 

in Ripley (1987) //// 

 



Matthias Kohl 




203


Die maximale Periode kann nur erreicht werden, wenn prim 

ist; dann teilt die Periode und ist genau dann, wenn 

primitive –te Einheitswurzel ist, i.e. , 

für jeden Primfaktor von und die kleinste Potenz, für 

die . 

Beweis: 

schnelle Multiplikation durch Shift und Add 

Generator RANDU mit 

 

 

 

 

in Ripley (1987) //// 


die hintersten Bits von sind nicht sehr zufällig! 

Sei dazu . Dann benimmt sich das letzte Byte 

stets wie modulo , also mit maximaler Periode .... 

 

 



Matthias Kohl 




204

Schreibt man diese Rekursion aus, so erhält man 

 

£ 

(2.3.7) 

(2.3.8) 

(2.3.9) 

also die Tripel 

liegen auf 15 parallelen Hyperebenen 

durch den Einheitswürfel.... 

2.3.2 (d) “Exor-Shift-Schema” für bits 


Für kleiner als die Wortlänge und Initialisierungswerte 

sei 

(2.3.10) 

´ 

in R: , 

 

 



Matthias Kohl 




205

2.3.2 (e) Kombinationen mehrerer Techniken 

Durch Verknüpfung mehrerer Generatoren kommt man in natürlicher 

Weise auf lineare Differenzengleichungen 


Für definiert man “Zufallszahlen” 

als 

 

Periode für die meisten Initialisierungen: ¢ 

 

 

 

 

(2.3.11) 

Erzeugung von Zufallsbits Shift–Register Generatoren 

maximale Periode für : 

 



Matthias Kohl 




206

2.3.2 (f) in R implementierte Zufallszahlengeneratoren (RNG’s) 

Wichmann-Hill 

– basiert auf: Vorschlag von Wichmann und Hill 

– Periode: 

– Referenz: Wichmann and Hill (1982) 

Marsaglia-Multicarry 

– basiert auf: Vorschlag von Marsaglia 

– Technik: Multiplizieren mit Übertrag (vgl. zweite 

Bemerkung 2.3-9) 

– Periode: ; laut Marsaglia: alle Tests bestanden 

– Referenz: Marsaglia and Zanan (1994) 

 

 



Matthias Kohl 




207

Super-Duper 

– basiert auf: Vorschlag von Marsaglia aus den 70ern 

– Technik: Kombination von “Exor-Shift-Schema” und 

rein–multiplikativem Schema 

– versagt beim MTUPLE test der “ Diehard battery ” 

– Periode: £ 

– Referenz: Marsaglia (1997) 

Mersenne-Twister 

– basiert auf: Vorschlag von Matsumoto und Nishimura 

– zur Zeit default 

– Periode: 

– Referenz: Matsumoto and Nishimura (1998) 

Knuth-TAOCP 

 

– basiert auf: Vorschlag von Knuth 

 



Matthias Kohl 




208

– Technik: Fibonacci–Folge mit Differenz, i.e. 

– Periode: 

– Referenz: Knuth (1998) 

Knuth-TAOCP-2002 

Ripley (1987) 

 

 

– wie Knuth-TAOCP nur mit anderen Seeds 

2.3.2 (g) generelle Literatur 

Hammersley and Handscomb (1964) 

Knuth (1998) 

 



Matthias Kohl 




209

2.3.3 Qualitätskontrolle für Pseudozufallszahlen 

2.3.3 (a) Tests auf “Zufälligkeit” 

im Prinzip jeder Test geeignet, besonders aber 

Korrelationstest: sind Teilstichproben unkorreliert, 

vgl. Abschnitt 5.1.13 [ auch: Spektraltest!] 

–Anpassungstest, vgl. Abschnitt 5.1.11 

werden alle Intervalle der gleichen Länge gleich häufig belegt? 

werden nach Standardisierung auf alle 

Teil–(Hyper–)würfel des Einheitsquaders gleich häufig belegt? 

Kolmogoroff–Smirnoff–Test, vgl. Abschnitt 5.1.10 

Gap–Test: 

– erst Standardisierung auf 

 

– wähle . 

 



Matthias Kohl 




210

– betrachte Länge der Folgen so dass 

keines der Folgeglieder in liegt; diese Längen sind zu 

vergleichen mit der entsprechenden Verteilung der Längen 

unter dem Modell 

Pokertest 


– partitioniere in fünf Teilintervalle. 

– betrachte die Verteilung, dass jeweils fünf 

aufeinanderfolgende Zufallszahlen in verschiedene 

Teilintervalle fallen. 

– die Fenster sollen sich dabei nicht überlappen! 

– diese empirische Verteilung ist zu vergleichen mit der 

entsprechenden Verteilung unter dem Modell 

Coupon–Collector–Test: 

bestimme für bis Periode , wie lange man warten muss, 

bis jede Zahl bis einmal vorgekommen ist; diese Wartezeiten 

 



Matthias Kohl 




211

sind zu vergleichen mit der entsprechenden Verteilung unter dem 

Modell 

Run–Test 

zähle die Längen monoton steigender Teilstücke und vergleiche 

die Verteilung mit der entsprechenden Verteilung unter dem 

Modell 

Maximum–Test: 


– bilde nichtüberlappende Gruppen der Länge 

– Betrachte die Verteilung von 

 

– Diese empirische Verteilung ist zu vergleichen mit der 

entsprechenden Verteilung unter dem Modell 

 

 



Matthias Kohl 




212

2.3.3 (b) Wie zufällig müssen (simulierte) ZV’s sein? 

je nach Zweck unter Umständen gar nicht “”–Variablen 

nötig: MC–Integration 

zum Erzeugen “plausibler” Werte auch andere Techniken möglich 

2.3.4 Schritt 2: Anamorphose 

— Wandlung in “beliebige” Verteilungen 

2.3.4 (a) Wandlung in 

erst Casten in float/numeric 

dann durch teilen 

 

 



Matthias Kohl 




213

2.3.4 (b) Quantilsfunktion 

Vorbereitung: 

– betrachte die Pseudoinverse einer reellwertigen Zufallsvariable 

(2.3.12) 

– Es gilt die Gleichheit der beiden Mengen für jedes : 

 

– Daher gilt für 

 

also 

also 

Beispiele: 

– 

– 

 

, 

und da wenden wir 

auf die ufo–Variablen an 

 



Matthias Kohl 




214

– : simuliere u.i.v. –Variablen und 

bilde 

 

2.3.4 (c) Rejection Sampling 

Situation: , Lebesgue–Dichten von W-Maßen. 

: für alle 

die Erzeugung von Zufallszahlen gemäß ist 

leicht zu realisieren 

Algorithmus 2.3-12 [Rejection Sampling]: 

(1) Generiere . 


(3) Falls , setze sonst gehe zu (1) 

 



Matthias Kohl 




215


(i) . 

(ii) Die Ws., ein anzunehmen, ist . 

(iii) Die Zahl der Versuche, bis ein anzunehmen ist, ist gemäß 

verteilt; insbesondere gilt 

Beweis: 

 

 

(2.3.13) 

 

 

 

 

 

 



Matthias Kohl 




216

Für den Zähler gilt 

 

 

 

 

 

 

 

 

 

 

 

 

und analog für den Nenner 

 

 

 

 

 

 

 

 

 

 

 

und so , also (i). 

“Annahme von ” 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

, der Rest ist klar. //// 

 



Matthias Kohl 




217

Beispiel: Simulation von –verteilten Größen 

 

– Situation: recht groß Simulation als Summe von 

unabhängigen –Variablen zu “teuer” 

– Dichte von : 

 

– Idee: , also 

– man erhält als optimales 

, d.h. 

 

 

 



Matthias Kohl 




218

2.3.4 (d) Ausnutzung der Definition / ZGWS 

: als Verteilung von für 

–Verteilung: Summe der Quadrate von u.i.v. –Variablen 

–Verteilung: 

 

im wesentlichen als Quotient zweier entsprechender –Verteilungen 

–Verteilung: 

im wesentlichen als Quotient einer – und einer entspr. –Verteilung 

früher (schlecht!): 

– als Verteilung der Summe von unabhängigen Variablen 

– erste beide Momente passen Hoffnung auf ZGWS? 

multivariate Normalverteilung ¦ 

– zuerst jeweils “unabhängige” –Variablen als einen 

–verteilten Vektor auffassen 

– ¦ als Verteilung von , wobei beliebig mit ¦, 

z.B. “Choleski-Hälfe” 

 



Matthias Kohl 




219

2.3.4 (e) Box–Muller für Normalverteilung 

betrachte für im wesentlichen in 

Polarkoordinaten, i.e. 

 

(2.3.14) 

wegen der Rotationsinvarianz von unter ist 

gleichverteilt auf allen Winkeln 

, also 

dies liefert: 

Algorithmus 2.3-14 [Box–Muller]: 

(1) Generiere 

. 

(2) 

(3) 

(4) £ £ 

 



Matthias Kohl 




220

2.3.4 (f) Wartezeiten bei Poissonvariablen 

Ziel: –verteilte Zufallsvariablen 

nutze aus: 


 

Seien , . Dann ist der Prozess 

, ein Poissonprozess mit konstanter 

Intensität . 

Beweis: 

Georgii (2002), Satz 3.33 //// 

Definiere . Dieses ist nach 

Theorem 2.3-15 –verteilt 

 

 



Matthias Kohl 




221

dies ergibt 

Algorithmus 2.3-16: 

(0) ; ; 


(2) ; ; 

(3) falls gehe zu (1) sonst 

(4) 

Algorithmus 2.3-16 ist gut für klein 

für groß besser geeignete Quantilstransformation 

 

 



Matthias Kohl 




222

Achtung: bei Verwendung der Exp-Verteilung deren 

Gedächtnislosigkeit berücksichtigen; 

Genauer gilt für und — 

(und unter stetigen Verteilungen nur für ): 

(2.3.15) 

der Parameter mittlere Zahl an Ereignissen in vorgegebener 

Zeit 

2.3.4 (g) Wartezeiten bei Poissonvariablen und nicht-konstanter 

Intensität 

gegeben: zeitvariable Intensitätsfunktion , : 

Übergang zur Stammfunktion £ 

 

 

£ isoton — in R: 

 

 

 



Matthias Kohl 




223

} 

stammfunktion f u n c t i o n ( fun , T0=0,T1 , n r g i t t e r =1000){# 

x seq (T0 , T1 , l e n g t h=n r g i t t e r ) 

Lf f u n c t i o n ( t ){# b e r e c h n e t g ( t ) an d e r S t e l l e t 

r e t u r n ( i n t e g r a t e ( fun , T0 , t , r e l . t o l =10^ 8)$ v a l u e ) } 

y s a p p l y ( x , Lf ) 

r e t u r n ( s p l i n e f u n ( x , y ) ) 

} 

Bildung der Pseudoinversen £ £ — 

in R: 

i n v e r t i e r e f u n c t i o n ( fun , T0=0,T1 , n r g i t t e r =1000){# 

x seq (T0 , T1 , l e n g t h=n r g i t t e r ) 

y fun ( x ) 

r e t u r n ( s p l i n e f u n ( y , x ) ) 

 



Matthias Kohl 




224

um also £ im (-)Bereich ; ( ein 

Werktag) zur gegebenen R-Funktion lambda zu bekommen, geht 

man nun so vor: 

Lbd1 invertiere (stammfunktion(lambda,T0=t0,T1=t1),T0=t0,T1=t1) 

Tatsache: folgende Vorgehensweise liefert Wartezeiten zur 

gegebenen Intensitätsfunktion lambda 

# 1 # Z i e h e N (N g r o s s ) Exp(1) V a r i a b l e n : 

# roh Z w i s c h e n a n k u n f t s z e i t e n 

Ex1 rexp (N) 

# 2 # gehe über zu k u m u l a t i v e n Summen : 

# roh A n k u n f t s z e i t e n 

CEx1 cumsum( Ex1 ) 

# 3 # T r a n s f o r m a t i o n mit Lambda^ 

# A n k u n f t s z e i t e n 

A n k u n f t s z e i t e n Lbd1 ( CEx1 ) 

 



Matthias Kohl 




225

Schritte bei empirischer Bestimmung von : 

Erstellung / Erhebung einer Stichprobe von Ankunftszeiten hier: 

Ankunft 

Aufgabe: Rekonstruktion von aus diesen Daten 

erst: Ermittlung der Wartezeiten und der empirischen Raten: 

### Umrechnung von W a r t e z e i t e n i n e m p i r i s c h e Raten 

##W a r t e z e i t e n 

WZ=d i f f ( Ankunft ) 

WZs=as . numeric ( f l o o r (WZ£60£24£ 6 0 ) ) 

## W a r t e z e i t 0 v e r h i n d e r n 

WZs[WZ==0]= r u n i f (WZs==0) 

r a t e =1/WZs 

 

 



Matthias Kohl 




226

dann: Glättung 

## s t a r k e G l ä t t u n g ( s p a r nahe b e i 1) 

e r g smooth . s p l i n e ( x=Ankunft , y=r a t e , s p a r =0.9 , 

p l o t ( erg , t y p e="b" ) 

##G l ä t t u n g s f u n k t i o n 

a l l . k n o t s=TRUE) 

s f s p l i n e f u n ( e r g $x , e r g $y ) 

##i n t e r e s s i e r e n d e r Z e i t b e r e i c h ( i n "Tagen ") 

x seq (8 £ 60 ,18 £ 60 , l e n g t h =200) 

x t t i m e s ( seq (8 / 24 ,18 / 24 , l e n g t h =200)) 

s f y s f ( x ) ; s f y s f y £ ( s f y >0) 

p l o t ( xt , s f y , t y p e=" l " ) 

p o i n t s ( Ankunft , 0 £ Ankunft , pch="£" ) 

p o i n t s ( Ankunft , r a t e , pch="+" ) 

 

 



Matthias Kohl 




227

2.4 Univariate, num. Kenngrößen 

2.4.1 die empirische Verteilung 

2.4.1 (a) Definition 

Situation: haben reale / simulierte Daten aus “unbekannter” 

Verteilung 

relevante Information bereits in empirischer Verteilung 

definiert als 

2.4.1 (b) Umsetzung in R 

aus Bibliothek stepfun 

Funktion ecdf 

 

 

 

siehe auch Abschnitt 2.5.2 

empirische Quantile mit quantile 

 

 

 

 



Matthias Kohl 




228

2.4.2 Zusammefassungen 

2.4.2 (a) der Befehl summary 

gibt Mittelwert, Quartile und die Zahl der Missings (falls 

vorhanden) aus 

2.4.2 (b) Fivenum 

definiert als Vektor aus Minimum, unterem Quartil, Median, 

oberem Quartil und Maximum 

in R als quantile (x) — per default falls kein Quantil–Argument 

2.4.2 (c) Stem and Leaf 

“Text–Version” eines Histogramms (c.f. Abschnitt 2.5.1) 

Daten in Zeilen nach führenden Ziffern aufgeteilt 

 

in R als stem(x) 

 



Matthias Kohl 




229

2.4.3 Lokationsmaße 

Problem: “Wo liegen die Daten / ihr ‘Schwerpunkt’ ?” 

klassische Lösung: Mittelwert — in R mean 

robuste Lösung: Median — in R median 

für kategorielle Merkmale: Modus — in R 

((1: max(x))[rev(order(tabulate(x )))])[1] 

2.4.4 Streuungs–/Dispersionsmaße 

Problem: “Wie stark variieren die Daten?” 

klassische Lösung: Varianz und Standardabweichung — in R var 

und sd 

robuste Lösung: MAD und IQR — in R mad und IQR 

extreme Lösung: die Spannweite — in R max(x) min(x) 

 

für kategorielle Merkmale: Shannon–Entropie 

 



Matthias Kohl 




230

2.4.5 Symmetrie / Krümmung 

Problem: “Sind die Daten schiefverteilt / steiler als die N.V.?” 

Schiefe-Parameter: “Skewness” — in R 

mean((x mean(x))^3)/sd(x)^3 

Exzess/Kurtosis — in R mean((x mean(x))^4)/sd(x)^4 

2.4.6 Zusammenhangsmaße 

Problem: “Hängt die Annahme von Wert durch mit der 

Annahme von Wert durch zusammen?” 

klassisch: Korrelationskoeffizient — in R cor 

für ordinale Merkmale: Rangkorrelationen von Spearman und 

Kendall — in R in der Bibliothek c. test als Listenelement im 

Ergebnis von cor. test 

 



Matthias Kohl 




231

2.4.7 getrimmte und winsorisierte Varianten 

oft zur Robustifizierung klassischer Statistiken verwendet 

anstelle des vollen Datensatzes Berechnung nur auf den 

“zentralen Werten” 

getrimmte Größen: Berechnung auf Basis der entsprechend 

verkleinerten Stichprobe — in R durch Übergabe des Parameters 

trim 

winsorisierte Größen: Werte größer als der p% –größte Wert 

werden (intern) auf diesen gesetzt (entsprechend bei kleinen 

Werten) 

 

 



Matthias Kohl 




232

Beispieldatensatz: xc (100,1,4,3,3,2, 30,3,1,0) 

 

– Mittelwert mean(x) ergibt 

– -getrimmter Mittelwert mean(x,trim=0.1) ergibt — 

durch Anwendung auf 

– -winsorisierter Mittelwert 

x1sort(x);mean(x1[2:9],x1 [2], x1 [9]) ergibt 

— durch Anwendung auf 

 



Matthias Kohl 




233

2.5 graphische univariate Analyse 

Beispiel: der Datensatz faithful aus der Bibliothek MASS 

2.5.1 Histogramm 

R–Beispiel 2.5-1 [Wartezeiten des Old Faithful]: 

Frequency 

0 10 20 30 40 50 

 

Histogram of faithful$waiting 

40 50 60 70 80 90 100 

faithful$waiting 

 



Matthias Kohl 




234

Umsetzung in R: hist 

Parameter: 

– Klassenzahl nclass — (sollte sein) 

– freq (logisch): relative oder absolute Häufigkeiten 

– col: Nummer der Farbe; per default NULL, dann keine 

Füllung 

2.5.2 empirische Verteilungsfunktion 

 

Fn(x) 

0.0 0.2 0.4 0.6 0.8 1.0 

ecdf(faithful$waiting) 

40 50 60 70 80 90 100 

x 

 



Matthias Kohl 




235

c.f. Abschnitt 2.4.1 

Umsetzung in R: 

 

l i b r a r y ( s t e p f u n ) 

p l o t ( e c d f ( f a i t h f u l $ w a i t i n g ) , do . p o i n t s=F , 

v e r t i c a l s=T) 

2.5.3 Boxplots 

50 100 150 200 

Warte.id Warte.c 

● 

● 

● 

 



Matthias Kohl 




236

hier: links Originalwartezeiten, rechts um Ausreißer 

erweitert 

plottet eine Box zwischen unterem und oberem Quartil mit einer 

Kerbe am Median 

Striche bis zu den äußersten Beobachtungen innerhalb 

¦ 

Beobachtungen außerhalb der Striche als Kringel Ausreißer 

Umsetzung in R: boxplot 

 

 



Matthias Kohl 




237

2.5.4 Visualisierung diskreter Zufallsvariablen 

Ziel: Visualisierung der einzelnen Realisationen einer diskreten 

Zufallsvariable — zum Beispiel 

X

Visualisierung von Unabhängigkeit/Unkorreliertheit 

Beispiel: 

 

X sample ( 1 : 6 , s i z e =500 , r e p l a c e=T) 

Y sample ( 1 : 6 , s i z e =500 , r e p l a c e=T) 

SX+Y 

M pmax (X, Y) 

p l o t ( j i t t e r ( S ) , j i t t e r (M) ) 

 



Matthias Kohl 




239



Matthias Kohl 




240

2.6 ein ausgearbeitetes Beispiel 

# £ R £ 

c.f. Venables and Ripley (1999), pp. 121–147 Link aufs File 

# S i t z u n g am 2 7 . 1 1 . 0 2 

# von V e n a b l e s / R i p l e y 

# Setzen e i n i g e r Optionen 

# und l a d e n d e r MASS l i b r a r y 

l i b r a r y (MASS) 

o p t i o n s ( width =65, d i g i t s =5, h e i g h t =9999) 

 

# 

 



Matthias Kohl 




241

# 2 . 1 S t a t i s t i k / S t o c h a s t i k 

x r t (250 , 9) 

# e r z e u g t 250 t_9 V a r i a b l e n 

qqnorm ( x ) ; q q l i n e ( x ) 

# V e r g l e i c h mit d e r NV 

# 2 . 2 ZV’ s 

contam rnorm ( 100 , 0 , 

# knapper geht ’ s n i c h t 

# contam~ [ . 9 5 N(0 ,1)+.05 N( 0 , 9 ) ] 

 

(1 + 2£ rbinom (100 , 1 , 0 . 0 5 ) ) ) 

# Erzeugung von 100 V a r i a b l e n contam 

# 2 . 3 u n i v a r i a t e n u m e r i s c h e Kenngroessen und 

 



Matthias Kohl 




242

# 2 . 4 g r a p h i s c h e u n i v a r i a t e A n a l y s e 

# 

#e i n i g e D a t e n s a e t z e l a d e n 

data ( g e y s e r ) 

data ( chem ) 

data ( abbey ) 

h e l p ( g e y s e r ) 

h e l p ( chem ) 

h e l p ( abbey ) 

# 

#P l o t t e n e i n i g e r Histogramme 

# mit u n t e r s c h i e d l i c h e r BW Wahl 

# 

 

par ( mfrow=c ( 2 , 2 ) ) 

# 2 x 2 B i l d e r pro S e i t e 

 



Matthias Kohl 




243

# 

h i s t . s c o t t ( g e y s e r $ d u r a t i o n , x l a b=" d u r a t i o n " ) 

h i s t . s c o t t ( chem ) 

h i s t . FD( g e y s e r $ d u r a t i o n , x l a b=" d u r a t i o n " ) 

h i s t . FD( chem ) 

par ( mfrow=c ( 1 , 1 ) ) 

# 

# 1 B i l d pro S e i t e 

#w e i t e r e n Datensatz l a d e n 

# 

data ( s w i s s ) 

h e l p ( s w i s s ) 

s w i s s . f e r t i l i t y s w i s s [ , 1 ] 

stem ( s w i s s . f e r t i l i t y ) 

 

#stem and l e a f p l o t 

stem ( chem ) 

 



Matthias Kohl 




244

stem ( abbey ) 

stem ( abbey , s c a l e =0.4) # d i f f e r e n t i n R 

par ( mfrow=c ( 1 , 2 ) ) 

b o x p l o t ( chem , sub="chem" , range =0.5) 

b o x p l o t ( abbey , sub=" abbey " ) 

par ( mfrow=c ( 1 , 1 ) ) 

# 

# Robuste S t a t i s t i k e n 

s o r t ( chem ) 

mean ( chem ) 

median ( chem ) 

 

mad( chem ) 

u n l i s t ( huber ( chem ) ) 

 



Matthias Kohl 




245

u n l i s t ( h u b e r s ( chem ) ) 

s o r t ( abbey ) 

mean ( abbey ) 

median ( abbey ) 

u n l i s t ( h u b e r s ( abbey ) ) 

u n l i s t ( h u b e r s ( abbey , k =2)) 

u n l i s t ( h u b e r s ( abbey , k =1)) 

 

 



Matthias Kohl 




246

2.7 Dichteschätzung 

Besitzt eine Verteilung eine Dichte, so kann man versuchen, 

diese zu schätzen. 

erster Ansatz: Histogramm 

für Gütekriterium MSE (mittlerer quadratischer Fehler) 

wesentlich bessere Verfahren möglich 

Zerlegung des Kriteriums: 

 

zusätzliche Säulen: Reduktion des Bias aber Erhöhung der 

Varianz Trade–off 

Literatur: Silverman (1986), Härdle, W. (1991a), Härdle et al. 

(1998), 

 



Matthias Kohl 




247

2.7.1 Häufigkeitspolygon 

bereits besser, weil glatter: Mittelpunkte der Säulen durch 

Polygonzug verbinden 

in R: in Bibliothek MASS, Funktion frequency.polygon 

R–Beispiel 2.7-1 [Venables, Ripley (1999)]: 

 


data ( f a i t h f u l ) 

a t t a c h ( f a i t h f u l ) 

h i s t ( e r u p t i o n s ) 

f r e q u e n c y . polygon ( e r u p t i o n s ) 

 



Matthias Kohl 




248

2.7.2 ASH und WARP 

Histogramm und Häufigkeitspolygon hängen vom “Aufpunkt” ab 

mitteln über Aufpunkte: ASH (average shifted histogram) 

siehe auch session5.r 

Formel: für Häufigkeiten 

 

 

 

 

Spezialfall von: WARPing: Weighted Averaging of Rounded 

Points, Härdle, W. (1991b) 

 

 

 

 

 

 



Matthias Kohl 




249

Density 

Density 

Histogramme zu Geysir Faithful mit versch. Aufpunkten und ASH 

0.0 0.1 0.2 0.3 0.4 0.5 0.6 

0.0 0.1 0.2 0.3 0.4 0.5 0.6 

 

Histogram of eruptions 

1 2 3 4 5 6 

eruptions 


1 2 3 4 5 6 

eruptions 

Density 

Density 

0.0 0.1 0.2 0.3 0.4 0.5 0.6 

0.0 0.1 0.2 0.3 0.4 0.5 0.6 


1 2 3 4 5 6 

eruptions 


1 2 3 4 5 6 

eruptions 

Density 

averaged 

0.0 0.1 0.2 0.3 0.4 0.5 0.6 

0.0 0.1 0.2 0.3 0.4 0.5 0.6 


1 2 3 4 5 6 

eruptions 

1 2 3 4 5 6 

eruptions 

 



Matthias Kohl 




250

2.7.3 Kerndichteschätzung 

2.7.3 (a) Idee 

statt über Treppenfunktionen zu mitteln, bereits lokal glätten 

mit einem Glättungskern und Bandweite 

ist glatt 

 

 

 

 

 

 

 

 

Bandweite steuert Lokalität der Glättung, Säulenzahl bei 

Histogramm 

2.7.3 (b) Eigenschaften von : 

 

 



Matthias Kohl 




251

am besten für alle 

 

 



Matthias Kohl 




252

2.7.3 (c) verschiedene Kerne 

Uniform 

Dreieck 

Epanechnikow 

Quartik 

 

Triweight 

 

Gauß 

 

Cosinus 

 

2.7.3 (d) Bandweitenwahl 

 

Kriterium: AMISE: approximate mean integrated squared error; 

Näherungsformel für 

 



Matthias Kohl 




253

generell , AMISE bei glattem : 

Vergleich: Histogramm AMISE , im parametrischen 

Kontext (LLN) 

Verschiedene Möglichkeiten: 

 

– Rule of Thumb 

– Cross Validation bcv, ucv 

– asymptotische Entwicklung des MISE width.SJ 

– Plug–in –Verfahren 

– Literatur: Härdle et al. (1998), Abschnitt 3.2 

 



Matthias Kohl 




254

2.8 Anwendungen von Zufallszahlen 

2.8.1 Simulation 

Situationen 

 

– aus Sicht des Praktikers 

£ reale Datensätze zu klein 

£ Vergangenheitsdaten repräsentativ für Zukunft? z.B. 

Crash–Simulationen in Banken 

£ Verteilungsannahmen bei realen Daten fraglich 

£ Beispiel: Wechselkurs–Risiken einer Bank 

Man modelliert den Wechselkurs Dollar:Euro zu Zeitpunkt , , in 

etwa so: 

 

 

Dies macht man auch für weitere Währungen und in ähnlicher Form 

für den Zins. Um nun den Fremdwährungsbestand nach dem 

 



Matthias Kohl 




255

Niederstwertprinzip in die Bilanz einzustellen, simuliert man viele 

verschiedene Szenarien, i.e. Wechselkursverläufe im nächsten Jahr, 

und setzt zum Beispiel das untere –Quantil an. 

– aus theoretischer Sicht 

£ oft: analytische/theoretische Form der Verteilung schwer / 

überhaupt nicht zugänglich 

£ oder: theoretische Form der Verteilung nur asymptotisch 

greifbar — wie gut ist die Näherung für finite 

Stichprobengröße? 

£ Beispiel zu ersterem: 

Wie wahrscheinlich nehme ich bei einer Realisation einer 

Irrfahrt der Länge mit Start in “” den Wert “” 

zweimal an, bevor ich den Wert “ ” annehme — wissend 

dass ich die “” überhaupt zweimal und die “ ” einmal 

erreiche? 

Antwort mithilfe R–Skript aus File “session6.r”: ca. 

 



Matthias Kohl 




256

Ausweg 

£ Beispiel zu letzterem: 

Verteilung der Nullstelle von 

für 

 

 

 

– Pseudo–Daten mithilfe Pseudo–Zufallszahlen 

– mit Programmen wie R möglich: sehr viele Zufallszahlen sehr 

schnell erzeugbar 

– Zusammenspiel mit theoretischen Resultaten der Stochastik: 

£ Gesetze der großen Zahlen 

£ Zentrale Grenzwertsätze 

£ Glivenko–Cantelli 

– dadurch: mit hinreichend großer Zahl an 

Versuchswiederholungen im Prinzip (Achtung: nur 

Pseudo–Zufallszahlen) beliebige Genauigkeit der Aussagen 

erreichbar 

 



Matthias Kohl 




257

2.8.2 Daten–Augmentation 

2.8.3 Integration 

– gesucht 

 

 

siehe gesonderter Abschnitt 2.9 

zentrales Problem in der Stochastik/Statistik 

— c.f. allgemeiner Integralbegriff, Erwartungswert, Varianz 

wichtige Anwendung auch in der Numerik / Lösung von 

Differentialgleichungen 

Problemstellung: 

– gegeben eine Funktion , ein Maß auf und 

eine Menge 

 

 



Matthias Kohl 




258

– numerische Strategie: 

£ Approximation von durch Funktionen, deren Integral 

analytisch berechenbar (Polynome) 

£ dazu: Interpolation von durch Vorgabe von Stellen 

£ für niedrige Dimensionen kaum zu schlagen 

£ Problem: in hohen Dimensionen viel zu viele Stützstellen 

– stochastischer Ausweg: 

£ Ziehung der Stützstellen zufällig 

£ Schätzung des Integrals/Erwartungswertes durch 

Auswertung am empirischen Maß also durch das 

arithmetische Mittel 

£ Gesetze der großen Zahlen beliebig genau für 

hinreichend große Zahl an Auswertungsstellen 

£ Paradigma: Die Genauigkeit wächst mit der Rate 

unabhängig von der Dimension !! 

 



Matthias Kohl 




259

Techniken zur stochastischen Integration 

— vgl. Ripley (1987), chapter 5 

generelles Problem: [wie oben] gesucht 

 

ein einfaches Beispielproblem: 

; gesucht 

 

 

 

“Brute–Force”: crude Monte Carlo 

– hier: , also 

 

 

 

 

mit 

– simuliere ZV’s gemäß und schätze durch 

 

– im Beispiel: Xrcauchy(n); p1mean((X>2)) 

 



Matthias Kohl 




260

generell hilfreich: Symmetrie ausnutzen 

– falls , dann sollte man auch die 

negativen Realisationen nutzen 

– im Beispiel: p2mean((abs(X)>2))/2 

– hier: 

, also 

 

– im Beispiel: weiß, dass 

, 

 

Zrunif(n,min=0,max=2); p31/2 2£mean(g(Z)) 

 

 

, also 

– hier: 

. 

oft hilfreich: Variablentransformation 

– im Beispiel: mit der Variablentransformation 

erhalten wir zufällig 

 

 

, 

Z1runif(n,min=0,max=1/2); p4mean(f(Z1))/2 

– hier: 

 

also . 

, 

 



Matthias Kohl 




261

Importance Sampling 

 

– Idee: Masse auf “interessanten” Bereich verschieben 

– Fakt: 

Seien und Maße auf mit Dichten , , so dass 

. 

Gesucht ; aber mit 

; 

 

daher ist schätzbar durch , 

und wird minimal genau dann, wenn . 

– im Beispiel ; 

dies ist Dichte der Variable Z22/runif(n); 

Antithetische Variablen 

– Idee: Ausnützen negativer Korrelationen 

– Fakten 

£ 

; 

 



Matthias Kohl 




262

negatives reduziert die Varianz! 

£ 

 

£ Damit sind dann aber auch die nach verteilten Variablen 

, negativ korreliert 

 



Matthias Kohl 




263

Kontroll/Regressions–Variablen 

– oft können wir uns “billig” Kovariate verschaffen, 

die selbst viel der Variabilität der zu integrierenden Variable 

erklären 

– Genauer ist ein lineares Regressionsmodell in den Variablen 

einzupassen, nämlich mit 

 

– entsprechendes Modell für 

 

 

ergibt 

. 

 

 

 

– im Beispiel , also , , 

 

 

 

 

– hier 

 



Matthias Kohl 




264

2.8.4 globale Optimierung 

gesucht: globales Min[Max]imum einer Funktion 

Problem: unter mehreren lokalen Extrema das globale zu finden 

weitere mögliche Komplikationen: 

– Funktion nicht glatt genug für differenzielle Methoden, 

– Auswertung der Ableitung ist zu “teuer” 

Idee: “gleichberechtigte” Auswahl aller potenzieller 

Auswertungsstellen stochastische Auswahl 

auch Kombination aus globaler (stochastischer) Methode und 

lokaler (numerischer) Methode möglich 

Dilemma: alle Bereiche abdecken Konzentration um die 

potenziellen Extrema 

raffinierte Techniken — hier nur als Schlagworte 

– Simulated Annealing 

– Sintflut Algorithmus 

– MCMC-Methoden / Gibbs–Sampling 

– genetische Algorithmen 

 



Matthias Kohl 




265

2.9 Resampling–Techniken 

2.9.1 Idee 

in realen Datenbeständen oft “zu wenig” Daten 

künstlich simulierte Daten würden ein Modell unterstellen, das 

aber ist nicht bekannt 

Kann man die Information, dass es sich um Daten handelt, 

nutzen, um mehr an Informationen aus der Stichprobe zu holen? 

JA: die Daten hätten ja genauso auch in einer anderen 

Reihenfolge eintreten können 

Resampling–Techniken 

erst relativ kurz bekannt, da i.a. sehr rechenaufwendig 

 



Matthias Kohl 




266

2.9.2 Jack-Knife 

geht zurück auf Quénouille und Tukey 

Ziel: Biasreduktion 

Definition: 

– Seien 

– Dann: 

 

 

 

 

 

– Sei ein linearer Schätzer in in dem Sinn, dass 

mit einer (nicht notwendig linearen) 

 

Funktion 

– Sei 

 

 

– Sei £ ein Pseudo–Summand. 

£ heißt Jackknife–Schätzer zu 

 



Matthias Kohl 




267

Eigenschaften: 

– Varianz: 

 

 

 

 

Name: 

Münchhausen — am eigenen Schopf aus dem Sumpf ziehen 

 

 

£ 

 

– Biasreduktion: Sei 

 

. Dann ist Konfidenzintervalle: 

biasfrei! 

 

– Heuristik (— nicht immer korrekt) 

 

 

– daher –Konfidenzintervall gegeben durch 

 

¦ 

 

2.9.3 Bootstrap 

Literatur: Efron and Tibshirani (1993) — inklusive R–code: 

Windows Linux 

 



Matthias Kohl 




268

Idee: 

alle Wertekombinationen der Realisationen 

der 

Original–Stichprobe — mit Mehrfach–Replikationen 

— sind genauso wahrscheinlich wie das Original 

ergibt Möglichkeiten — viel zu viele schon für kleine 

Umsetzung: 

Ziehe aus den Realisationen der Original–Stichprobe 

mit Zurücklegen Stichproben 

der 

Länge (nicht notwendig ) 

ein –Konfidenzintervall: 

, Auswertung des Schätzers an der 

Bootstrap–Stichprobe . 

Dann ist mit der -t-größten 

Realisation unter den , ein 

Konfidenzintervall. 

 



Matthias Kohl 




269

R–Beispiel 2.9-1 [Konfidenzintervall für den Median]: 

Situation: Wir haben eine Stichprobe 

einem unbekanntem . 

Ziel: Wir wollen den Median von schätzen. 

aber: , bzw. nicht bekannt. 

 

 

mit 

Methode: Schätzung durch den Stichprobenmedian — 

median(X) 

Problem: Wie genau ist die Schätzung? 

asymptotische Theorie: Mit der Dichte von ausgewertet 

im Median von gilt für 

w 

 

 

Beispiel–Datensatz: Eruptionen des Old Faithful, mit Median 

 



Matthias Kohl 




270

Lösung 1: Dichteschätzung 


data ( f a i t h f u l ) 

a t t a c h ( f a i t h f u l ) 

d e n s i t y ( e r u p t i o n s , n=1, from =4, to =4.01 , 

width =0.41) $y 

d e n s i t y ( e r u p t i o n s , n=1, from =4, to =4.01 , 

width =0.63) $y 

#Schaetzung d e r Streuung des Medians 

#durch Dichte Schaetzung 

#f (m) ~ 0.415 

1/ (2 £ s q r t ( l e n g t h ( e r u p t i o n s ) ) £ 0 . 4 1 5 ) 

Lösung 2: Bootstrap 

#Schaetzung d e r Streuung des Medians 

 

#durch 1000 Bootstrap S t i c h p r o b e n 

 



Matthias Kohl 




271

# 

s e t . s e e d ( 1 0 1 ) ;m 1000 

# z u r R e p r o d u z i e r b a r k e i t 

r e s numeric (m) 

f o r ( i i n 1 :m) 

#B i a s : 

r e s [ i ] median ( 

sample ( e r u p t i o n s , r e p l a c e=T) ) 

mean ( r e s median ( e r u p t i o n s ) ) 

#V a r i a n z : 

s q r t ( v a r ( r e s ) ) 

Die Bootstrap–Verteilung ist nicht normal: 

h i s t . FD( r e s , prob=T) 

l i n e s ( d e n s i t y ( r e s , n=200 , width= 

 

bandwidth . nrd ( r e s ) ) ) 

 



Matthias Kohl 




272

#Bandweitenwahl 

c ( ucv ( r e s ) , bcv ( r e s ) ) 

width . SJ ( r e s ) 

# 95% Bootstrap K o n f i d e n z i n t e r v a l l 

q u a n t i l e ( r e s , c ( 0 . 0 2 5 , 0 . 9 7 5 ) ) 

 

Histogramm zum ge–bootstrap–ten Median der Eruptionen des 

Geysirs Faithful 

Density 

0 2 4 6 8 10 

Histogram of x 

3.7 3.8 3.9 4.0 4.1 4.2 

res 

 



Matthias Kohl 




273

2.9.4 Bagging und Boosting 

verfeinerte Versionen des Bootstrap (Methoden zur 

Klassifikation und Regression) 

Situation: Daten , wobei (p 

groß!!) und 

allgemeine Vorgehensweise: Gewichtung der Daten, Ziehen von 

Bootstrap-Stichproben (i.d.R. Ziehen mit Zurücklegen), 

Bestimmung der Schätzer, Aggregation der Schätzer, d.h. 

Berechnung eines gewichteten Mittels über die Schätzer 

Varianten: Bagging (Bootstrap aggregating), Subagging, 

Boosting, AdaBoost, -Boosting, Bag-Boosting, .... 

Bagging und Boosting Verfahren reduzieren Bias und Varianz, 

d.h. erhöhen die Schätzgenauigkeit 

 

Literatur und genauere Informationen unter: www.boosting.org 

 



Matthias Kohl 




274

3 Programmierung 

Quellen: Neben Venables and Ripley (1999), Chapter 4 auch 

R Language Definition 

3.1 Kontrollstrukturen 

3.1.1 Gruppierung von Befehlen: Blöcke 

verschiedene Anweisungen in einer Zeile können durch “;” 

gruppiert werden 

eine Folge von Anweisungen wird durch Klammerung 

mit“{}” zu einem (Anweisungs–)Block 

 

 



Matthias Kohl 




275

3.1.2 Bedingte Ausführung von Blöcken 

3.1.2 (a) if – Befehl 

Syntax 

if () 

 

else 

 

der Teil ab “ else” kann weggelassen werden 

in der Bedingung kann ein beliebiger (skalarwertiger) logischer 

Ausdruck stehen (siehe Abschnitt 1.4.5) 

 

R–Beispiel 3.1-1 [Test auf Symmetrie einer Matrix ]: 

#e x a k t 

i f ( a l l . e q u a l (X, t (X ) ) ) 

 

cat ( " Matrix ␣ symmetrisch " ) 

 



Matthias Kohl 




276

#ohne 

 

#nahezu b i s a u f eps 

i f ( a l l . e q u a l . numeric (X, t (X ) ) ) 

cat ( " Matrix ␣ nahezu ␣ symmetrisch " ) 

beachte Verwendung von all .equal, all .equal.numeric, um bei 

vielen Vergleichen nur einen logischen Wert zurückzubekommen 

3.1.2 (b) Unterscheide: ifelse – Befehl 

Syntax ifelse (,true.value,false.value) 

auch vektorwertig möglich! 

R–Beispiel 3.1-2 [ ]: 

#mit Warnung 

x . l o g x i f e l s e ( x ==0,0, x£ l o g ( abs ( x ) ) ) 

x . l o g x x £ l o g ( abs ( x )+( x==0)) 

 



Matthias Kohl 




277

in solchen Situationen oft noch besser: Indikatorfunktionen, 


3.1.2 (c) switch – Befehl 

zur Vermeidung vieler paralleler if–Alternativen 

Syntax switch (,) 

Ist der Wert von eine ganze Zahl zwischen 

und length(), wird Anweisung(sblock) 

Nummer ausgeführt, sonst Rückgabe von NULL 

Ist der Wert von ein String, so wird das 

Listenelement mit Namen ausgeführt, sonst Rückgabe 

von NULL 

Verwendung einer Default–Anweisung durch Einschluss einer 

Alternative ohne Namen am Ende der Liste 

 

Abkürzungen der Namen mit pmatch 

 



Matthias Kohl 




278

R–Beispiel 3.1-3 [verschiedene Tests]: 

 

# i n t e s t s t e h e d e r Name des 

# auszuwertenden Tests , 

# i n y d i e Daten 

# 

# ( genauer geht e s um T e s t s a u f 

# V a r i a n z g l e i c h h e i t ; a l s 

# A l t e r n a t i v e n s t e h e n 

# Levene , Cochran und B a r t l e t t 

# z u r Auswahl ) 

# 

########################## 

# b r u t a l 

r e s u l t i f ( t e s t==" Levene " ) l e v e n e ( y , f ) 

e l s e 

i f ( t e s t==" Cochran " ) cochran ( y , f ) 

 



Matthias Kohl 




279

# s w i t c h 1 

# 

# s w i t c h 3 : 

e l s e b a r t l e t t ( y , f ) 

r e s u l t s w i t c h ( t e s t , " Levene "=l e v e n e ( y , f ) 

# s w i t c h 2 

" Cochran "=cochran ( y , f ) , 

b a r t l e t t ( y , f ) ) 

# mit mehreren S c h r e i b w e i s e n f u e r e i n e 

# A l t e r n a t i v e 

r e s u l t s w i t c h ( t e s t , Levene =, l e v e n e =, 

" Levene ’ s ␣ t e s t "=l e v e n e ( y , f ) , 

Cochran =, cochran =, 

" Cochran ’ s ␣ t e s t "=cochran ( y , f ) , 

B a r t l e t t =, b a r t l e t t =, 

" B a r t l e t t ’ s ␣ t e s t "=, b a r t l e t t ( y , f ) ) 

 



Matthias Kohl 




280

# mit Abkuerzungen 

r e s u l t s w i t c h ( pmatch ( t e s t , c ( " Levene " , 

3.1.3 Schleifen 

3.1.3 (a) for – Befehl 

" l e v e n e " , " Cochran " , " cochran " , 

" B a r t l e t t=" , " b a r t l e t t " , nomatch="" ) , 

"1"=,"2"=l e v e n e ( y , f ) , 

"3"=,"4"=cochran ( y , f ) , 

b a r t l e t t ( y , f ) ) 

Syntax for (in ) 

 

die Schleifenvariable ( durchläuft mit den 

Schleifendurchgängen die Zahlenfolge — 

meist dargestellt als : oder seq(along=X) 

 



Matthias Kohl 




281

3.1.3 (b) Sprünge: break und next 

mit break kann jederzeit die aktuelle Schleife verlassen werden 

mit next springt man an den Beginn des nächsten 

Schleifendurchlaufs 

3.1.3 (c) while – Befehl 

Syntax while () 

in der Bedingung kann ein beliebiger (skalarwertiger) logischer 

Ausdruck stehen (siehe Abschnitt 1.4.5) 

3.1.3 (d) repeat – Befehl 

Syntax repeat 

Ausstieg nur mit “break” 

 



Matthias Kohl 




282

3.1.3 (e) Beispiel 

R–Beispiel 3.1-4 [Schleifen]: 

# Ausdruck 1 : 1 0 

### FOR 

f o r ( i i n 1 : 1 0 ) p r i n t ( p a s t e ( " Zahl ␣Nr . ␣" , i ) ) 

### WHILE 

i 0 

w h i l e ( i 10) break 

} 

e l s e p r i n t ( p a s t e ( " Zahl ␣Nr . ␣" , i ) ) 

 



Matthias Kohl 




283

3.2 Vermeidung von for-Schleifen 

3.2.1 Schleifen sind langsam! 

3.2.1 (a) S — eine Interpreter–Sprache 

Im Gegensatz zu Programmiersprachen wie FORTRAN, PASCAL, C und 

C++ wird ein Programm vor dem Start nicht compiliert, sondern zur 

Laufzeit interpretiert. 

Das hat zur Folge, dass der Anweisungsblock in einer Schleife immer 

wieder neu übersetzt wird, was sich stark in der Laufzeit bemerkbar 

macht. 

3.2.1 (b) Paradigma: matrixorientierte Programmierung 

Verwendet man aber die vektorwertigen Funktionen aus R, so greifen 

diese auf Indexoperationen zurück, die “ganz unten”, maschinennah 

implementiert sind. Als Nachteil ergibt sich unter Umständen ein 

enormer Speicherbedarf. 

 



Matthias Kohl 




284

3.2.2 ein Beispiel: Blatt 5 Aufgabe 1 

Link aufs File 

############################################# 

# B l a t t 5 Aufgabe 1 v e k t o r w e r t i g 

############################################# 

# F o r m u l i e r u n g mit f o r 

# 

l u e c k e . f o r f u n c t i o n ( n ) 

{X . x r u n i f ( n ) 

X . y r u n i f ( n ) 

d 2 

# zum V e r g l e i c h t r e t e n nur d i e Z e i l e n 

 

# 1 : n 1 an 

 



Matthias Kohl 




285

f o r ( i i n 1 : ( n 1)) 

# 

 

{ # zum V e r g l e i c h t r e t e n nur E i n t r a e g e 

# mit I n d e x >i an 

f o r ( j i n ( i +1): n ) 

} 

{d0 (X . x [ i ] X . x [ j ])^2+ 

} 

(X . y [ i ] X . y [ j ])^2 

d c ( d , s q r t ( d0 ) ) 

r e t u r n ( min ( d ) ) 

} 

# v e k t o r w e r t i g e F o r m u l i e r u n g 

l u e c k e . vec f u n c t i o n ( n ) 

{#e r s t d i e x K o o r d i n a t e 

 



Matthias Kohl 




286

X . x r u n i f ( n ) 

#e r z e u g e e i n e Matrix mit i d e n t i s c h e n S p a l t e n 

X . xx1 X . x%o%(0£X . x+1) 

# M a t r t i x mit i d e n t i s c h e n Z e i l e n 

X . xx2 t (X . xx1 ) 

# Matrix mit E i n t r a e g e n (X_i X_j )^2_{ i , j } 

X . xd (X . xx1 X . xx2 )^2 

# D i a g o n a l e aus Minimumbildung a u s s c h l i e s s e n 

X . xd [ row (X . xd)==c o l (X . xd ) ] 2 

#P l a t z machen 

rm(X . xx1 , X . xx2 ) 

 

#das g l e i c h e f u e r d i e y K o o r d i n a t e 

 



Matthias Kohl 




287

X . y r u n i f ( n ) 

X . yy1 X . y%o%(0£X . y+1) 

X . yy2 t (X . yy1 ) 

X . yd (X . yy1 X . yy2 )^2 

X . yd [ row (X . yd)==c o l (X . yd ) ] 2 

rm(X . yy1 , X . yy2 ) #P l a t z machen 

#A d d i t i o n d e r K o o r d i n a t e n 

X . d X . xd+X . yd 

r e t u r n ( min ( s q r t (X . d ) ) ) 

} 

#Rahmenfunktion 

# 

# 

 

b l a t t 3 . 4 f u n c t i o n (M=500 , f o r . vec =1, 

n=c ( 5 , 2 5 , 1 0 0 , 5 0 0 ) , out =0) 

 



Matthias Kohl 




288

{ 

# Achtung am g e s c h i c k t e s t e n f u e r 

# S p e i c h e r v e r w a l t u n g , s i e h e K a p i t e l 9 

# s t a t i s c h e s D e k l a r i e r e n d e r Matrix , 

# i n d i e d i e E r g e b n i s s e kommen 

# 

d m a t r i x ( 0 ,M, l e n g t h ( n ) ) 

# f u e r j e d e s n f u e h r e d i e 

# M Wiederholungen durch 

f o r ( j i n 1 : l e n g t h ( n ) ) 

{ 

k n [ j ] 

# M Wiederholungen 

f o r ( l 

 

i n 1 :M) 

{ i f ( ( out==1)&&( l%%10==0)) cat ( l , "\n" ) 

i f ( f o r . vec==1) 

 



Matthias Kohl 




289

e l s e 

} 

d [ l , j ] l u e c k e . vec ( k ) 

d [ l , j ] l u e c k e . f o r ( k ) 

i f ( out==1) p r i n t ( d ) 

# Zusammenkleben d e r E r g e b n i s s e 

} 

colnames ( d ) p a s t e ( rep ( p a s t e ( "n␣=" , k ) , l e n g t h ( n ) ) ) 

summary ( as . data . frame ( d ) ) 

b o x p l o t ( as . data . frame ( d ) ) 

r e t u r n ( d ) 

} 

# Z e i t v e r g l e i c h 

p r i n t ( system . time ( b l a t t 3 . 4 (M=40,n=50, f o r . vec =1))) 

 

p r i n t ( system . time ( b l a t t 3 . 4 (M=40,n=50, f o r . vec =0))) 

 



Matthias Kohl 




290

################## 

# f u e r B l a t t 3 

p r i n t ( system . time ( d b l a t t 3 . 4 ( out =1))) 

summary ( d ) 

b o x p l o t ( as . data . frame ( d ) ) 

#Mediane 

a p p l y ( d , 2 , median ) 

#IQR ’ s 

a p p l y ( d , 2 , IQR ) 

par ( new=T) 

p l o t ( d [ , 1 ] ) 

 

par ( mfrow=c ( 2 , 2 ) ) 

 



Matthias Kohl 




291

#Histogramme 

a p p l y ( d , 2 , h i s t ) 

#D i c h t e p l o t 

p l d e f u n c t i o n ( x , . . . ) { p l o t ( d e n s i t y ( x , . . . ) ) } 

a p p l y ( d , 2 , p l d e ) 

 

 



Matthias Kohl 




292

3.2.3 Tricks zur Vermeidung von Schleifen 

3.2.3 (a) Verwedung von Indikatorfunktionen 

anstelle von if – Fallunterscheidungen nach Möglichkeit ifelse – 

Anweisungen verwenden 

noch besser: Arbeit mit logischen Indikatorfunktionen oder pmin, 

pmax z.B. für die Funktion 

 

 

 

 

norm1 pmax ( b/ 2 , norm ( x ) ) 

H x£pmin ( 1 , b/norm1 ) 

 

# k e i n T e i l e n durch 0 ! 

 


 

 



Matthias Kohl 




293

oder 

w x£0+1 

w[ norm ( x)

Lösung: stratifizierte (geschichtete) Stichprobe 

– for–Schleife der Länge N 

– jeder Schleifendurchlauf produziert ein Resultat der 

Genauigkeit einer Stichprobe von Umfang Nmax 

– aus den N Teilergebnissen durch Mittelung (mean) 

Genauigkeit einer Stichprobe von Umfang Nmax * N 

3.2.3 (e) FFT 

in einigen Kontexten keine unmittelbare vektorwertige 

Formulierung möglich, z.B. 

– bei Rekursionen im Zeitreihenkontext 

– bei Faltungen zur Berechnung der Verteilung von Summen 

in beiden Beispielen möglich: Übergang zur Fouriertrafo 

– denn: Fouriertrafo der Faltung ist Produkt der Fouriertrafos 

der Faltungsfaktoren 

 

– dort dann vektorwertiges Kalkül möglich 

 



Matthias Kohl 




295

noch besser: FFT (Fast Fourier Transformation) — Tukey 

– benutzt trigonometrische Rekursionen 

– nur Berechnung der Koeffizienten mit Index der Form 

nötig 

3.3 Schreiben von Funktionen 

3.3.1 Syntax 

3.3.1 (a) Bestandteile einer Funktion 

body: der S-Code 

formal arguments die Argumente 

environment: ein Paar aus einem frame und eine enclosure 

– frame: eine Liste von Paaren aus Symbol-Name und Wert — 

die “lokalen” Variablen und deren Werte 

 

– enclosure: ein Zeiger auf ein umschließendes environment 

 



Matthias Kohl 




296

– für die letzten beiden Begriffe siehe auch Abschnitt 3.6 

3.3.1 (b) Rückgabewert 

durch return oder der letzte ausgewertete 

Ausdruck 

Rückgabe von mehreren Argumenten durch Listenbildung, am 

besten vom Typ 

return( list (=,=,....)) 

bei größeren Rückgabeobjekten: besser noch in der Funktion 

einer Variablen zuweisen “schlankere” Übergabeobjekte 

3.3.1 (c) Argumente 

Zweck: Übergabe von Parametern aus der aufrufenden 

Umgebung 

Setzen von Defaultwerten durch 

= 

c.f. Abschnitt 1.2.4; dann möglich: lazy calling 

 



Matthias Kohl 




297

Fehlende Argumente: 

– Argument X wird nicht mit übergeben 

– Abfangen im Funktionskörper durch missing–Abfrage 

– Beispiel: 

i f ( m i s s i n g (X) ) Y 0 

e l s e Y min (X) 

spezielles Argument “ ... ” 

– steht für beliebig viele weiter mit übergebbare Parameter 

– diese können dann an andere Funktionen, die im 

Funktionenkörper aufgerufen werden, übergeben werden 

– nützlich beim Übergeben von Funktionen als Parameter 

– siehe auch dichte.r 

Übergabe von Funktionen 

 

Um Verwechslungen mit dem Auslassungssymbol auszuschließen, verwenden 

wir für dieses in Zukunft immer “....” 

 



Matthias Kohl 




298

– jederzeit möglich durch Übergabe des Funktionsnamens, 

– siehe auch dichte.r 

 



Matthias Kohl 




299

Matching der Argumente — Reihenfolge 

– erst: exaktes Matching: 

alle Argumente werden belegt, die mit einem exakt 

passenden Namen versehen werden; 

daher notwendig Eindeutigkeit von 

£ Argument–Namen in der Deklaration 

£ Argument–Namen im Aufruf 

– dann: restliche Argumente mit partiellem matching 

£ matching sobald der deklarierte Argument–Namen–Anfang 

eindeutig mit übergebenem Namen übereinstimmt 

£ Bsp: ffunction(fumble,fooey) 

¡ falsch: f(f=1,foo=2) 

¡ korrekt: f(f=1,fooey=2) 

£ bei Argument ... : partielles matching mit allen 

Argumenten davor (in der Deklaration) 

– schließlich positionelles Matching: 

£ der Rest der unbenannten übergebenen Argumente wird in 

 



Matthias Kohl 




300

der Deklarationsreihenfolge den verbleibenden Argumenten 

zugewiesen 

£ bei Argument ... : Sind noch übergebene Argumente 

übrig, so werden diese im Funktionenkörper in der 

Anweisungsreihenfolge noch freien Übergabeparametern 

aufgerufener Funktionen zugewiesen. 

Argumentauswertung: lazy evaluation 

– bei Aufruf einer Funktion wird ein neuer evaluation frame 

erzeugt, vgl. Abschnitt 3.2 

– übergebene und default–Argumente werden unterschiedlich 

behandelt: 

£ übergebene Argumente werden in der aufrufenden 

Umgebung ausgewertet 

£ default–Argumente werden in der lokalen 

Funktions–Umgebung ausgewertet 

£ Übergabe von Argumenten per call–by–value, es wird also 

eine lokale Kopie angelegt, die (bei Bedarf) mit dem Wert 

 



Matthias Kohl 




301

des übergebenen Arguments aus der aufrufenden 

Umgebung initialisiert wird 

– lazy evaluation 

£ bei Aufruf der Funktion werden die Parameter noch nicht 

initialisiert ( “lazy”) 

£ daher passiert die Wertzuweisung foo(x=y) erst, wenn die 

Variable x im Funktionenkörper gebraucht wird 

£ bei Aufruf wird die bei Bedarf auszuführende Initialisierung 

in ausführbarem S–code (Text) in einer sogenannten 

promise abgelegt. 

£ Zugriff auf die promise mit substitute ergibt einen 

Rückgabewert vom Typ expression 

 



Matthias Kohl 




302

£ Umwandlung des von substitute erhaltenen Codes durch 

£ 

deparse 

R–Beispiel 3.3-1 [Plot mit automatischem Titel]: 

myplot f u n c t i o n ( x , y ){ 

l a b deparse ( s u b s t i t u t e ( y ) ) 

. . . . 

t i t l e ( main=p a s t e ( " Ein ␣ P l o t ␣ von ␣" , l a b ) ) 

} 

. . . . 

– globale vs. lokale Variablen 

£ alle Variablen innerhalb des Funktionenkörpers sind lokal; 

£ alle Variablen aus der aufrufenden Umgebung stehen bei 

Bedarf als lokale Kopien zur Verfügung, sofern sie nicht 

durch lokale überladen worden sind; 

£ Zuweisungen im Funktionsaufruf, wie foo(xy) verändern 

 



Matthias Kohl 




303

die Variable x der aufrufenden Umgebung 

£ Zugriff / und Manipulation von globalen Variablen 

innerhalb eines Funktionenkörpers durch 

assign("",,frame=0), c.f. 

Abschnitt 3.6 

3.3.2 Editieren von Funktionen 

am besten speichert man Funktionen als R–Skripten, 

möglicherweise zusammen mit weiterem R–Code 

es gilt das in Abschnitt 1.10.2 gesagte 

weitere Möglichkeiten zur Manipulation von R–Objekten: 

– fix (): dabei wird der Editor aus 

options( editor =«editorname>") verwendet; 

nach Speichern liegt das manipulierte Objekt im Speicher 

– ed(,editor=«editorname>") 

leistet dasselbe 

 



Matthias Kohl 




304

3.3.3 Fehlerbehandlung 

3.3.3 (a) warning 

gibt eine Warnung bei Rückkehr zum session–Modus zurück 

unterbricht das Programm nicht 

3.3.3 (b) stop 

gibt eine Fehlermeldung bei Rückkehr zum session–Modus 

zurück 

unterbricht das Programm 

bricht aber die session nicht ab 

erzwingt Abbruch, falls notwendiger Parameter fehlt, z.B. 

 

rpoisfunction(n,lambda=stop("no␣lambda␣arg")){....} 

 



Matthias Kohl 




305

3.3.3 (c) missing 

vgl. Abschnitt 3.3.1 (c) 

3.3.3 (d) on. exit 

wird erst beim Verlassen der Umgebung ausgeführt 

(egal ob nach korrekter Beendigung oder per Error) 

nützlich zum lokalen Setzen von Optionen, z.B. 

o l d p a r par ( . . . ) 

on . e x i t ( par ( o l d p a r ) ) 

Löschen der momentanen on. exit Anweisung durch on. exit () 

3.3.3 (e) try 

Situation: möchte innerhalb einer Routine eine andere (fremde) 

aufrufen, die je nach Situation mit Fehler abbricht oder den 

richtigen Wert ergibt 

 



Matthias Kohl 




306

Problem: mit stop oder warning entweder ganz heraus oder 

gar nicht; kein individuelles Abbruchhandling möglich, da kein 

Zugriff auf innere Routine 

Ablauf in “Sandkasten” try 

Achtung: 

– funktioniert nur innerhalb von Routinen, nicht im 

Kommando–Prompt 

– man sollte wissen, welche(r) Fehler passieren und warum 

Vorteil: verhindert Abbruch des Programms, man kann steuernd 

eingreifen 

Syntax: try(, first =TRUE) 

Rückgabewert: entweder Ergebnis von Expression oder 

Fehler–Meldung, die weiterzuverarbeiten ist 

durch Setzen von options(show.error .messages=FALSE) vor 

Aufruf von try wird Ausgabe von Fehlermeldung unterdrückt 

 



Matthias Kohl 




307

Achtung: nach Aufruf von try wieder auf TRUE setzen! 

R–Beispiel 3.3-2 [Beispiel try]: 

t r y . t e s t f u n c t i o n ( x ) 

{ 

r e t u r n ( e r g ) 

 

} 

o p t i o n s ( show . e r r o r . messages = FALSE) 

e r g t r y ( s q r t ( x ) ) 

o p t i o n s ( show . e r r o r . messages = TRUE) 

i f ( i s . numeric ( e r g)==F) 

{ 

} 

cat ( " k e i n e ␣ g u e l t i g e ␣ Zahl ␣ e i n g e g e b e n ! \n" ) 

r e t u r n (NA) 

 



Matthias Kohl 




308

e r g t r y . t e s t ( 1 0 ) 

p r i n t ( e r g ) 

e r g t r y . t e s t ( "a" ) 


3.3.4 Hilfe-Files / Dokumentation 

Soll der eigene Code auch von anderen genutzt werden, ist es 

sinnvoll, eine Online–Hilfe zu schreiben — vgl. auch Referat 

erster Schritt: mit Befehl prompt() 

– erzeugt eine Help–Schablone als File ".Rd" im 

aktuellen Verzeichnis 

– siehe auch “Writing R documentation” in “Writing R 

Extensions” und “Guidelines for Rd files”, 

sowie Referat 

 



Matthias Kohl 




309

zweiter Schritt: Editieren der Schablone in einem Editor 

dritter Schritt: Kopieren in 

“$R_HOME/src/library/base/man/” — ohne Endung .Rd 

3.4 Debugging 

zwei unterschiedliche Ausgangssituationen 

– post mortem: das Programm ist bereits abgestürzt 

(Inspektion ausgelöst durch Signal “Error”) 

– Inspektion ausgelöst durch in Code eingefügtes Signal 

weitere Quellen: Writing R Extensions (2006b), Kap. 4, R 

Language Definition (2006c), Kap. 9, Bavington (2003), Peng 

(2002): 

 

 



Matthias Kohl 




310

3.4.1 Exkurs: Exception-Handling in R 

Fehler/Warnings sind Spezialfälle für eine Exception — ein 

Situation außer der Reihe 

Exception-Handling funktioniert nicht, falls der R/S-Plus 

-Prozess wird abgeschossen oder gar das System abstürzt 

sonst bei “regulärer” Exception: Interpreter erhält ein Signal, 

wieder ein S-Objekt!, genauer der Klasse condition 

in Abhängigkeit des Signals wird Ausführung (execution) 

weiteren “Konsequenz”-Codes ausgelöst (eigentliches 

Exception-Handling) 

in diesen “Konsequenz”-Code kann man eigenen S-Code 

einhängen, vgl. ?withRestarts 

ein Signal der condition warning löst per default keinen Abbruch 

aus, kann aber mit options(warn=2) zu Signal der condition error 

gemacht werden, vgl. Tabelle 1.10-2 

 



Matthias Kohl 




311

3.4.2 Post-mortem Analyse 

bei Signal der condition error wird anschließend Code 

abgearbeitet, der in der Option error festgelegt ist; per default: 

NULL 

in jedem Fall gibt traceback den Stapel (stack) der letzten 

Aufrufebenen wieder 

R–Beispiel 3.4-1 [ein einfacher Fehler]: 

Situation: 

– log2( 1) erzeugt NaN und eine Warnung; 

– aber hier: bei Warnung wird Abbruch erzwungen 

Ergebnis 

> options(warn=2) 

> log2(-1) 

Error in log(x, base) : (converted from warning) NaNs produced 

> traceback() 

6: doWithOneRestart(return(expr), restart) 

5: withOneRestart(expr, restarts[[1]]) 

 



Matthias Kohl 




312

4: withRestarts({ 

.Internal(.signalCondition(simpleWarning(msg, call), msg, 

call)) 

.Internal(.dfltWarn(msg, call)) 

}, muffleWarning = function() NULL) 

3: .signalSimpleWarning("NaNs produced", quote(log(x, base))) 

2: log(x, 2) 

1: log2(-1) 

Alternative zu NULL in options(" error "=NULL): 

dump.frames — und nur in S-Plus: dump.calls; Beispiel:; 

– ähnlich wie dump legen dump.calls und dump.frames ein 

Abbild von Teilen des Arbeitsspeichers an — auch auf File, 

falls gewünscht 

– dump.calls speichert den Keller (Stack) der ineinander 

geschachtelten Funktionsaufrufe (siehe 1:–6: in 

Beispiel 3.4-1) 

– dump.frames legt zusätlich noch die entsprechenden Frames 

ab (siehe dazu auch Abschnitt 3.6) 

 

– ein dump von dump.frames ist dann auswertbar dann mit 

debugger 

 



Matthias Kohl 




313

debugger 

 

– umfassendes System zur schrittweisen Rückverfolgung eines 

Fehlers 

– operiert auf zwei Ebenen 

A der Liste der aktuell im Speicher liegenden frames — 

entschieden durch Selection: 

B innerhalb eines aktuell im Speicher liegenden frames: 

kenntlich gemacht durch Prompt Browse[n], die Ebene 

des Calls, für die man sich in Selection: entschieden hat 

– offline, indem ein bereits ge“dump”–ter last.dump analysiert 

wird 

– interaktiv durch Abfragen von Optionen 

– Ebene A: 

£ es werden alle Alternativen durchnummeriert dargestellt 

£ im anschließenden Selection –tag gibt man die 

entsprechende Nummer der gewünschten Alternative an 

£ die Nummer 0 springt eine (frame–)Ebene nach oben, bis 

 



Matthias Kohl 




314

schließlich auf session–Ebene 

– Ebene B — Debugger-Modus: 

£ beliebiger S-Code kann eingegeben werden 

£ insbesondere: Werte von Variablen (innerhalb dieses 

frames) können inspiziert werden 

£ spezielle Befehle, die R speziell interpretiert — siehe 

Tabelle 3.4-2 

Alternative zu dump.frames und debugger: 

options(" error "=recover) 

– im wesentlichen das gleiche — nur ohne Umweg mit einem 

dump (also ohne Variablen zu kopieren) 

– in diesem Sinn nur interaktiv sinnvoll 

 

 



Matthias Kohl 




315

Tabelle 3.4-2 [Sonderbefehle im Debugger-Modus]: 

wichtig für browser, debug, recover, debugger 

RET beim Debuggen gehe zum nächsten Ausdruck 

bzw. beim Browsen führe den ursprünglichen 

Code weiter aus 

c “cont” — führe den ursprünglichen Code weiter 

aus 

n führe den nächsten Ausdruck aus 

where zeige die Hierarchie der aufgerufenen Funktionen 

(call stack) 

Q breche ab und springe zum Top-Level 

Zugriff auf “klassische” Objekte c, n, Q mit get, bzw. mit print 

 

 



Matthias Kohl 




316

3.4.3 Selbst ausgelöste Exceptions 

3.4.3 (a) browser 

ist in eigenen Code als Befehl zu integrieren 

unterbricht den Ablauf des Programms und springt in 

Debugger-Modus 

Ermöglicht Inspektion / Manipulation aller Objekte der 

aktuellen Umgebung 

Rückkehr zum Ablauf mit 0 

3.4.3 (b) debug 

Syntax: debug() markiert eine Funktion zum 

Debuggen 

bei jedem Aufruf von Funktion Sprung in 

Debugger-Modus 

 

Aufheben der Markierung durch undebug 

 



Matthias Kohl 




317

3.4.3 (c) trace 

Syntax: debug(what,tracer,exit,at,print,.... markiert 

eine Funktion zum Debuggen 

– what: Name einer Funktion, die verfolgt werden soll 

– tracer: eine Funktion oder ein nicht ausgwerteter Ausdruck 

(z.B. mit quote/ substitute erreichbar, vgl. 

Abschnitt 3.6.3 (a)) 

tracer wird entweder unmittelbar vor what 

aufgerufen/ausgewertet, oder, sofern tracer eine Funktion 

ist, unmittelbar vor dem in at genannten “Schritt” 

– exit: wie tracer nur wird dies unmittelbar nach what 

aufgerufen/ausgewertet 

– at: (optional) Position an der tracer 

aufgerufen/ausgewertet werden soll 

– print: falls TRUE (default), eine erläuternde Zeile zu jeder 

trace-Auswertung wird ausgegeben 

 



Matthias Kohl 




318

zum Zählen der “Schritte” für Argument at: falls f die in 

tracer übergebene Funktion ist, gibt as. list (body(f)) die 

Schritte als Liste. . . 

Aufheben der Markierung durch untrace 

hiermit bedingtes Debuggen möglich — mit tracer von 

folgendem Typ tracer =quote(if() ) 

 

R–Beispiel 3.4-3 [bedingtes Debugging]: 

(aus Peng (2002)) 

– bei der ML-Schätzung in einem Punktprozess taucht 

Funktion nLL auf 

nLL f u n c t i o n (mu, x ) { 

} 

z mu £ x 

l z l o g ( z ) 

L1 sum ( l z ) 

LL mu/2 sum ( l z ) 

 



Matthias Kohl 




319

– nLL macht Schwierigkeiten, sofern auf negative Werte 

stößt 

 

– Bestimmung der Nummer von “Schritt” lz log(z) 

> a s . l i s t ( b o d y ( nLL ) ) 

[ [ 1 ] ] 

‘ { ‘ 

[ [ 2 ] ] 

z mu £ x 

[ [ 3 ] ] 

l z l o g ( z ) 

[ [ 4 ] ] 

L1 sum ( l z ) 

[ [ 5 ] ] 

LL mu/ 2 sum ( l z ) 

– bedingter Aufruf des Browsers, sofern in lz mindestens ein 

NaN 

t r a c e ( "nLL" , 

quote ( i f ( any ( i s . nan ( l z ) ) ) 

{ browser ( ) } 

) , at =4, p r i n t=F) 

 



Matthias Kohl 




320

3.4.4 Übersicht 

Tabelle 3.4-4 [Tracing und Debugging in R]: 

— aus Venables and Ripley (1999),Tab. 4.1 

print , cat manchmal genügt es, sich die wesentlichen Variablen 

während des Ablaufs ausgeben zu lassen 

traceback gibt die Aufrufe in Ablaufreihenfolge nach einem 

Abbruch aus, der einen dump verursacht 

options(warn=2) erzwingt Abbruch nach jeder Warnung 

options(error=FUN) spezifiziert die dump–Aktion, die durch einen Abbruch 

ausgelöst wird; default in S-Plus FUN=dump.calls, in 

R: NULL; vollständiger: FUN=dump.frames oder 

FUN=recover 

last .dump Objekt im .Data–directory, das alle 

Aufrufe/Umgebungen seit dem letzten dump auflistet 

debugger Funktion, die — offline — last .dump inspiziert 

recover ähnlich wie debugger, interaktives debuggen der 

 

letzten Anweisungen mit options( error =recover) 

 



Matthias Kohl 




321

Tabelle 3.4-4 [Tracing und Debugging in R — Fortsetzg.]: 

browser Funktion, die zur Unterbrechung des Ablaufs eingefügt werden 

kann, und mit der man dann alle aktuellen Objekte inspizieren 

/ modifizieren kann — schon vor Auftreten eines Abbruchs 

trace spezifiziert einen Punkt, ab dem man Informationen verfolgen 

kann — entweder in einem Funktionskopf oder innerhalb eines 

Funktionskörpers; kann verwendet werden, um automatisiert 

browser einfügen zu lassen 

tprint erzeugt ein nummeriertes Listing des Funktionskörpers, das 

man als at Argument in trace verwenden kann 

 

 



Matthias Kohl 




322

3.4.5 in S-Plus: inspect 

In S-Plus gibt es noch zusätzlich den sehr komfortablen Befehl 

inspect, auf den wir hier nicht näher eingehen. Für diesen mache 

man sich unter der S-Plus–Hilfe help( inspect ) schlau 

3.5 Systemaufrufe 

3.5.1 system 

mit dem Befehl system können Systemaufrufe durchgeführt 

werden; hängt natürlich vom Betriebssystem ab; 

Syntax: system(, intern = FALSE, wait = TRUE, 

input = , show.output.on.console = FALSE, minimized 

= FALSE, invisible = FALSE) 

 



Matthias Kohl 




323

Argumente 

– : (string) der auszuführende Systembefehl als 

String, dieser Befehl wird dabei als ein Kommando plus 

durch Leerzeichen getrennte Argumente geparst; falls daher 

der Pfad auf das Kommando Leerzeichen enthält, muss 

dieser in Anführungszeichen stehen 

– intern: (logisch) — entscheidet, ob aus der Ausgabe des 

Systembefehls ein R–Objekt werden soll 

– wait: (logisch) entscheidet, ob der R–Interpreter auf die 

Beendigung des Systembefehls wartet; per default wartet er; 

und er wartet stets, falls intern == T. 

– input: (string) wenn ein Stringvektor mit übergeben wird, 

wird dieser — ein String pro Zeile — auf ein tmp–File 

kopiert, und anschließend stdin für den Systembefehl per 

pipe auf dieses File umgelegt 

 



Matthias Kohl 




324

– show.output.on.console: (logisch) entscheidet ob die 

Ausgabe des Systembefehls auf der R–Konsole erscheinen 

soll; (dies wird nicht unter Rterm genutzt; hier wird die 

Ausgabe unterdrückt, es sei denn wait == F) 

– minimized: (logisch) entscheidet ob das Kommandofenster 

minimiert initialisiert wird 

– invisible: (logisch) entscheidet über die Sichtbarkeit des 

Kommandofensters 

Rückgabewert 

– falls intern == TRUE: ein Stringvektor mit der Ausgabe des 

Kommandos, jeweils eine Zeile pro String; wenn der 

Systembefehl nicht ausgeführt werden kann, wird ein Fehler 

ausgegeben 

– falls intern == FALSE: ein Error Code — siehe Hilfe — es 

sei denn wait == T 

 



Matthias Kohl 




325

– falls intern == FALSE und show.output.on.console == 

TRUE erscheint die Textausgabe eines Befehls, d.h. eine 

Konsolen Anwendung erscheint in der R Konsole (Rgui) oder 

im Fenster, in dem R läuft (Rterm). 

unter Windows 

– der Befehl läuft direkt als ein Windows–Befehl unter dem 

Windows API call CreateProcess: 

– Falls keine Dateierweiterung vorliegt, werden .exe, .com, 

.cmd und .bat in dieser Reihenfolge ausprobiert. 

– Um DOS–Befehle zu nutzen, verwende man unter Windows 

9X/ME den Systembefehl command.com /c 

– Der Suchpfad für die command–Shell hängt vom System ab; 

in jedem Fall enthält er das R–Verzeichnis bin, das 

Arbeitsverzeichnis und die Windows Systemverzeichnisse vor 

dem eigentlichen PATH. 

 



Matthias Kohl 




326

verschiedene Aufrufe von R 

– Was genau der Nutzer vom Systembefehl sieht, hängt davon 

ab, ob Rgui oder Rterm zum Aufruf von R verwendet wird: 

– Mit Rgui wird stets eine neue Konsole genutzt, so dass ein 

Kommandofenster erscheint, solange der Systembefehl 

arbeitet, es sei denn invisible== T 

– Unter Rterm erscheint ein separates Kommandofenster für 

die Konsolenanwendung nur dann, wenn wait == F. 

Caveat: 

– bei Aufruf kein Abbruch durch STRG-D mehr möglich 

– das System kann abstürzen, sofern eine Anwendung 

Tastatureingaben erwartet, wenn wir mit Rgui arbeiten und 

gleichzeitig intern == T und/oder 

show.output.on.console == T setzen. 

 



Matthias Kohl 




327

R–Beispiel 3.5-1 [Systemaufrufe]: 

# A u f r u f e i n e s E d i t o r s + 

# Warten b i s d i e s e r beendet i s t 

system ( " notepad ␣ m y f i l e . t x t " ) 

# A u f r u f e i n e s Windows 9x P r o z e s s m o n i t o r s 

# ( aus den Win9x KernelToys ) 

system ( " wintop " , w a i t = F) 

# A u f r u f e i n e r S h e l l 

system ( "command . com" ) 

system ( p a s t e ( " c : /Programme/ M o z i l l a . org /" , 

w a i t = FALSE) 

"SeaMonkey/ seamonkey . exe " , 

"␣ u r l ␣ c r a n . r p r o j e c t . org " , sep="" ) , 

 



Matthias Kohl 




328

3.5.2 shell 

shell ruft einen Systembefehl auf — gewöhnlich als eine Shell 

Syntax: shell (, shell, flag="/c", 

intern=FALSE, wait=TRUE, 

translate=FALSE, mustWork=FALSE, ...)) 

Argumente 

– : (string) der auszuführende Systembefehl als 

String 

– shell: (string) der Name der zu verwendenden Shell; ist 

dieser String NULL, so wird je nach Betriebssystem eine 

Default–Shell aufgerufen — siehe Hilfe 

– flag: Schalter zum Starten unter Shell; per default "/c", 

bei bash oder tcsh "-c" 

– intern: (logisch) — entscheidet, ob aus der Ausgabe des 

Systembefehls ein R–Objekt werden soll 

 



Matthias Kohl 




329

– wait: (logisch) entscheidet, ob der R–Interpreter auf die 

Beendigung des Systembefehls wartet; per default wartet er; 

und er wartet stets, falls intern == T. 

– translate: (logisch) entscheidet ob / im in 

\übersetzt wird 

– mustWork: Soll bei Misslingen des Starts des Systembefehls 

wird eine Fehlermeldung herausgegeben werden? 

– ...: weitere Parameter 

Rückgabewert : — wie system 

3.5.3 Platformunabhängige Systemzugriffe 

Zeitnahme für die benötigte Zeit eines Codes 

– system.time 

– proc.time 

 

Umgebungsvariablen /-information 

 



Matthias Kohl 




330

– Sys.getenv, Sys.putenv: inspizieren und setzen von 

Umgebungsvariablen 

– Sys. getlocale , Sys. putlocale inspizieren und setzen der 

Lokaldefinition, z.B. 

"LC_COLLATE=English_United␣States.1252;LC_CTYPE=English_United␣States.1252; 

LC_MONETARY=English_United States.1252;LC_NUMERIC=C; 

LC_TIME=English_United States.1252" 

– Sys. localeconv Formatierstandards für Zahlen 

– Sys.time aktuelle Uhrzeit, Sys.timezone Zeitzone 

Filezugriff 

– file . access Zugriff auf Files 

– file .append Files aneinanderhängen 

– file .choose File aus einer Liste auswählen lassen 

– file .copy Files kopieren 

 

– file . create erzeugen oder abschneiden von Files 

– file . exists Test auf Existenz 

 



Matthias Kohl 




331

– file . info verschiedene Informationen zu einem File 

– file .remove Files löschen 

– file .rename Files umbenennen 

– file .show Darstellen eines Textfiles 

– unlink Löschen von Files oder Verzeichnissen 

Umgang Filenamen und Pfaden 

– basename löst den Filenamen aus einem Pfad heraus 

– dirname löst den Ordnernamen aus einem Pfad heraus 

– file .path erzeugen eines Pfads aus Filename und Ordner 

– path.expand vervollständigt ĩn einen Unix Pfad 

3.5.4 Unix–Spezifika 

hier nicht behandelt; bei Fragen wenden Sie sich bitte an uns; 

im Zweifelsfall stellen wir Kontakt zu Experten her 

 



Matthias Kohl 




332

3.6 Rekursionen und Frames 

Rekursionen 

sind in R zulässig — Funktionen dürfen sich selbst aufrufen. 

sind für die Programmierung an sich schon interessant 

liefern in unserem Fall sogar besseres Verständnis für die Art 

und Weise, wie R Berechnungen organisiert 

sind aber oft langsam und speicherintensiv 

 

 



Matthias Kohl 




333

3.6.1 Beispiel: ein adaptives Verfahren zur 

numerischen Integration 

3.6.1 (a) Problemstellung 

gegeben eine Funktion , in R realisiert durch 

f

Idee: 

Verwende für eine ¦ genauen Schätzung folgenden Algorithmus: 

– setze , , , und für : 

– solange wiederhole 

£ 

£ für 

spalte auf in und mit , 

und , 

£ berechne für 

 

Nachteil: keine lokale Adaption 

3.6.1 (c) Adaption durch Rekursion 

 

 

 

 

(aus Venables and Ripley (1999)) 

Idee: Verzweigen in die Tiefe nur dann, wenn (lokal) das 

Abbruchkriterium noch nicht erfüllt ist 

 



Matthias Kohl 




335

R–Beispiel 3.6-1 [numerische Integration rekursiv – I]: 

a r e a 1 f u n c t i o n ( f , a , b ){ 

d ( a+b ) /2 

a1 ( f ( a)+ f ( b ) ) £ ( b a ) /2 

a2 ( f ( a)+4£ f ( d)+ f ( b ) ) £ ( b a ) /6 

i f ( abs ( a1 a2 )

R–Beispiel 3.6-2 [numerische Integration rekursiv – II]: 

a r e a f u n c t i o n ( f , a , b , l i m i t = 1 0 , . . . , 

} 

 

f a=f ( a , . . . ) , f b=f ( b , . . . ) , 

eps =100£ Machine$ double . eps ^.5){ 

h b a ; d ( a+b ) / 2 ; f d f ( d , . . . ) 

a1 ( f a+f b ) £ ( b a ) / 2 ; a2 ( f a+4£ f d+f b ) £h/6 

i f ( abs ( a1 a2)< eps ) r e t u r n ( a2 ) 

i f ( l i m i t ==0) 

{ warning ( p a s t e ( " Maximale ␣ R e k u r s i o n s t i e f e " , 

" e r r e i c h t ␣ nahe ␣x=" , d ) ) ; r e t u r n ( a2 )} 

R e c a l l ( f , a , d , . . . , f a=fa , f b=fd , 

l i m i t=l i m i t 1, eps=eps /2)+ 

R e c a l l ( f , d , b , . . . , f a=fd , f b=fb , 

l i m i t=l i m i t 1, eps=eps / 2) 

a r e a ( s i n , 0 , 2 £ p i ) 

 



Matthias Kohl 




337

3.6.2 Frames 

3.6.2 (a) Definition 

ein Frame oder genauer Evaluation Frame ist eine Liste, in der 

Namen mit Werten verknüpft werden 

im wesentlichen zum gleichen Zweck wie Dictionaries auf der 

Search list 

Dictionaries und Frames werden auch als Databases bezeichnet 

3.6.2 (b) kanonische Frames 

local frame: Wenn innerhalb einer Funktion oder noch 

allgemeiner innerhalb eines Frames ein S–Ausdruck ausgewertet 

werden soll, wird der Wert zu allererst aus dem aktuellen Frame 

bezogen; dieser heißt lokaler Frame 

alle Zuweisungen / Manipulationen geschehen, wenn nicht 

explizit anders verlangt (siehe Abschnitt 3.7.2(c)), im lokalen 

Frame 

 



Matthias Kohl 




338

alle Namen, die ausgewertet werden sollen, und die sich nicht 

im lokalen Frame finden, versucht man zunächst aus dem Frame 

des an höchster Stelle (top level) stehenden Ausdrucks zu 

beziehen; dieser Frame heißt Arbeitsverzeichnis (working 

directory) oder frame 1. Ist die Suche erfolgreich, wird eine 

lokale Kopie des Objekts angelegt. 

Wird innerhalb der Sitzung interaktiv ein Ausdruck ausgewertet, 

so wird zu seiner Auswertung Frame 1 initialisiert. 

Wird innerhalb Frame 1 (Frame ) eine Funktion aufgerufen, so 

wird zu deren Auswertung Frame 2 (Frame ) initialisiert. 

Findet sich der Name, der ausgewertet werden soll, weder im 

lokalen Frame noch in Frame 1, wird versucht, ihn aus dem 

Sitzungs–Frame (session–frame) zu beziehen; dieser Frame heißt 

frame 0. 

Findet sich der Name, der ausgewertet werden soll, weder im 

lokalen Frame noch in Frame 1 noch in Frame 0, so wird in der 

 



Matthias Kohl 




339

Search list und gesucht, und falls dort nichts gefunden wird, eine 

Fehlermeldung ausgegeben. 

3.6.2 (c) Auswertung / Manipulation von Elementen bestimmter 

Frames 

Tabelle 3.6-3 [Zugriffsfkt’s für beliebige Databases]: 

— aus Venables and Ripley (1999),Tab. 4.3 

assign erzeugt ein neues =–Paar in der 

angegebenen Datenbank 

exists prüft ob ein gewisses Objekt in der angegebenen 

Datenbank zu finden ist 

get gibt eine Kopie des Objekts aus der angegebenen 

Datenbank zurück, falls es existiert; sonst einen 

Fehler 

objects gibt einen Stringvektor mit den Namen der Objekte 

der angegebenen Datenbank zurück 

 

remove löscht ein Objekt aus der angegebenen Datenbank 

 



Matthias Kohl 




340

alle Funktionen haben als Argument envir; 

envir =sys.frame(n) Frame Nummer spezifizieren 

alternativ dazu pos, um eine Position innerhalb der Suchliste 

(Search list) anzugeben 

get und exists durchsuchen per default den gesamten Suchpfad 

die anderen per default den lokalen Frame 

 

 



Matthias Kohl 




341

Tabelle 3.6-4 [weitere Database–Zugriffsfunktionen]: 

macht eine Zuweisung im Arbeitsverzeichnis 

sys .parent(n) gibt die Nummer des Ahnen –ter Ordnung des 

lokalen Frames aus 

ähnliches sys . function, sys . call , sys . calls , sys .frame, 

sys .frames, sys .nframe, sys .parent, sys . parents, 

parent.frame, sys .on. exit, sys . status, — 

vgl. Online–Hilfe zu R 

3.6.2 (d) Beispiel für die Kommunikation zwischen Frames 

R–Beispiel 3.6-5 [Plot der Auswertungsstellen von area]: 

# Z i e l : Ausgabe a l l e r A u s w e r t u n g s s t e l l e n 

# von a r e a aus R B e i s p i e l 3.6 2 

# V a r i a b l e 

 

v a l i n frame 0 e r z e u g e n 

area aus R–Beispiel 3.6-2 

 



Matthias Kohl 




342

a s s i g n ( " v a l " ,NULL , e n v i r=s y s . frame ( 0 ) ) 

# Erzeugung d e r u r s p r g l . Funktion 

f b e t a f u n c t i o n ( x , alpha , beta ){ 

x ^( alpha 1)£(1 x )^( beta 1)} 

# Erzeugung d e r Funktion , d i e 

# i h r e A u s w e r t u n g s s t e l l e n p r o t o k o l l i e r t 

f b e t a . tmp f u n c t i o n ( x , alpha , beta ){ 

a s s i g n ( " v a l " , c ( v a l , x ) , e n v i r=s y s . frame ( 0 ) ) 

x ^( alpha 1)£(1 x )^( beta 1)} 

# A u s i n t e g r i e r e n mit a r e a 

b0 a r e a ( f b e t a . tmp , a=0,b=1, l i m i t =12, 

b0 

a l p h a =3.5 , beta =1.5 , eps =10^( 3)) 

# p l o t e n d e r Funktion an den 

# m i t p r o t o k o l l i e r t e n A u s w e r t u n g s s t e l l e n 

 

p l o t ( v a l , f b e t a ( v a l , 3 . 5 , 1 . 5 ) ) 

 



Matthias Kohl 




343

fbeta(val, 3.5, 1.5) 

 

0.00 0.10 0.20 

Auswertungsstellen in area 

● 

● 

●●●●● ● 

● ● ● 

● 

● 

● 

● 

● 

● 

● 

● 

●● 

● ● 

● 

● 

● 

● 

● 

● ●●● 

● 

● ● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

●● 

0.0 0.2 0.4 0.6 0.8 1.0 

val 

 



Matthias Kohl 




344

3.6.3 Programmieroperationen auf der Sprache 

vgl. R Language Definition (2006c), Kapitel 6 

3.6.3 (a) Calls und Expressions 

ein Call ist so etwas wie ein schon syntaktisch aufgelöster, aber 

noch nicht ausgewerteter Ausdruck 

eine Expression umfasst einen oder mehrere geparste aber 

unausgewertete Ausdrücke, wobei 

ein Ausdruck eine syntaktisch korrekte Tokenkette ist und 

eine Tokenkette eine Anreihung von Tokens und 

ein Token ein (terminales) Schlüsselwort der Sprache S ist 

z.B. erhält man mit uquote(plot(x, sin (tan(y )), u,v)) einen Call; 

– ist im wesentlichen eine Liste (Umwandlung hin und her mit 

as. list , call möglich 

 



Matthias Kohl 




345

– erstes Listenelement: Name der zu äußerst stehende Funktion 

– weitere Listenelemente: die Argumente dieser Funktion 

– ein weiteres Parsing in Unterausdrücke findet nicht statt — 

sin (tan(y)) wird nicht aufgelöst 

– die entsprechende Expression wäre weiter aufgelöst 

Expressions und Calls werden mit eval ausgewertet 

3.6.3 (b) Parsing und Deparsing 

um einen Call/eine Expression zu parsen ohne dass ausgewertet 

wird, verwendet man quote oder substitute 

um von einem Call/einer Expression wieder zum Klartext zu 

kommen, verwendet man deparse 

 

 



Matthias Kohl 




346

3.6.3 (c) Anwendungen 

im Zusammenhang mit Lazy evaluation, vgl. Abschnitt 3.3.1 (c) 

nützlich: 

– am Beginn der Standardplotfunktion: 

xlabel if (!missing(x)) deparse( substitute (x)) 

– x ist noch nicht ausgewertet; substitute verhindert die 

Auswertung und deparse rekonstruiert den Klartext von 

Argument x; damit erhält man eine schöne 

Achsenbeschriftung 

mehrfach verwendeter Code-Block wird zweimal verwendet 

– Vorteil: Code ist nur an einer Stelle zu pflegen 

– Unterschied zu einer Funktion: kein environment wird 

angelegt 

 



Matthias Kohl 




347

– 

 

R–Beispiel 3.6-6 [Code-Block als Call in Variable]: 

£ als Call: 

f u f u n c t i o n ( x , y ) 

{A=quote ({ # H i e r f a e n g t e i n mehrfach 

} 

e v a l (A) 

# r e p l i z i e r t e r Code an 

f=s i n ( x ) ; m=cos ( y ) ; z=min ( x , f ,m) 

mi=abs ( round (10 £m, 0 ) ) 

p r i n t ( mi ) 

mm=matrix ( z £rnorm ( mi£ 3 , 0 , 2 ) , mi , 3 ) 

p r i n t (mm) 

}) 

p r i n t ( c (mode(A) , environment (A ) ) ) 

# . . . . 

#h i e r kaeme nun i r g e n d w a s 

e v a l (A) 

 



Matthias Kohl 




348

£ als Funktion ohne Argumente (geht wegen Lexical 

Scoping): 

##s u b t i l a n d e r s a l s 

f u 2 f u n c t i o n ( x , y ) 

{A=f u n c t i o n ( ) { 

# H i e r f a e n g t e i n mehrfach 

# r e p l i z i e r t e r Code an 

} 

A( ) 

f=s i n ( x ) ; m=cos ( y ) ; z=min ( x , f ,m) 

mi=abs ( round (10 £m, 0 ) ) 

p r i n t ( mi ) 

mm=matrix ( z £rnorm ( mi£ 3 , 0 , 2 ) , mi , 3 ) 

p r i n t (mm) 

p r i n t ( c (mode(A) , environment (A ) ) ) 

# . . . . 

#h i e r kaeme nun i r g e n d w a s 

A( ) 

 



Matthias Kohl 




349

} 

£ der Vergleich 

> f u ( 3 , 4 ) 

[ 1 ] 7 

[ , 1 ] [ , 2 ] [ , 3 ] 

[ 1 , ] 1.1563608 0 . 5 7 7 9 2 3 1 0.01568853 

. . . . . 

[ 7 , ] 0 . 8 9 1 8 1 2 1 0 . 8 0 0 3 1 4 3 1.27947251 

[ 1 ] " c a l l " 

[ 1 ] 7 

[ , 1 ] [ , 2 ] [ , 3 ] 

[ 1 , ] 0.74909778 1.11834236 2.5217689 

. . . . . 

[ 7 , ] 0 . 3 1 1 0 2 5 2 4 3 . 1 2 4 6 2 1 8 0 0 . 1 3 1 9 5 2 8 

> f u 2 ( 3 , 4 ) 

[ 1 ] 7 

[ , 1 ] [ , 2 ] [ , 3 ] 

[ 1 , ] 1.707287320 1 . 5 5 0 3 8 8 9 0.4610366 

. . . . . 

[ 7 , ] 1 . 0 3 4 5 1 4 2 4 1 0 . 7 7 3 3 1 9 9 0 . 6 8 4 4 4 6 3 

[ [ 1 ] ] 

[ 1 ] " f u n c t i o n " 

[ [ 2 ] ] 

 

[ 1 ] 7 

[ , 1 ] [ , 2 ] [ , 3 ] 

 



Matthias Kohl 




350

[ 1 , ] 1 . 2 1 1 4 2 8 7 1 . 0 6 1 7 8 5 0 2 . 6 4 4 1 7 9 3 

. . . . . 

[ 7 , ] 0.8499366 0.1239640 0.4150593 

 



Matthias Kohl 




351

4 Graphiken 

4.1 Ausgabegeräte 

Vor der Anfertigung von Grafiken müssen wir erst einmal 

spezifizieren, auf welchem Gerät bzw. in welchem Format wir die 

Grafik erzeugen wollen; Ausgabegerät oder Devices 

Angabe aller verfügbaren Devices durch ?Devices 

4.1.1 Betriebssystem–Treiber 

je nach Betriebssystem wird ein Grafikfenster mit unterschiedlichen 

Befehlen erzeugt; 

Tabelle 4.1-1 [Grafik–Devices für Betriebssysteme]: 

windows unter Windows 

X11 unter Unix 

macintosh unter Macintosh 

 



Matthias Kohl 




352

hier: nur Windows–Welt 

windows startet ein neues Grafikfenster und lenkt alle folgenden 

Grafikausgaben auf dieses Fenster 

win.graph, x11, X11 sind (unter Windows) Synonyme — aus 

Kompatibilitätsgründen! 

Syntax: windows(width=7, height=7, pointsize=12, 

record = getOption("graphics.record"), rescale = 

c("R", "fit", "fixed"), xpinch, ypinch, canvas = 

"white", gamma = getOption("gamma")) 

Argumente 

– width, height: (nominale) Breite / Höhe des Grafikfensters 

in Zoll 

– pointsize: die default–Schriftgröße in Punkt 

– record: (logisch): setzt den Anfangszustand der Flagge, die 

das Aufzeichnen von Plots regelt — siehe Online–Hilfe 

– rescale: kontrolliert, was bei Umskalierungen von Plots 

passieren soll — siehe Online–Hilfe 

 



Matthias Kohl 




353

– xpinch, ypinch: Pixel pro Zoll, horizontal und vertikal 

– canvas: (color) Farbe des Hintergrundes, falls keine 

Hintergrundfarbe explizit angegeben ist 

– gamma: Gamma–Korrekturfaktor 

Details 

– die Fenstergröße wird per default aus oft unzuverlässigen 

Windows–Angaben über das Display bestimmt; 

stattdessen auch möglich: Angabe von xpinch und ypinch 

– bei Aufruf: Grafikfenster nicht größer als der Höhe oder 

Breite des Bildschirms; 

Höhe und Breite werden bei Bedarf proportional umskaliert; 

nachträglich: interaktiv Größe des Grafikfensters noch 

vergrößerbar; 

– nach Umskalierungen wird Grafikfenster per default neu 

gezeichnet; 

Option "fit": Plot wird auf die neue Größe des 

Grafikfensters umskaliert; 

 



Matthias Kohl 




354

Option "fixed": Dimensionen der Grafik unverändert; 

Rollbalken hinzugefügt 

– Fläche außerhalb des Grafikfensters in Windows 

application background colour; 

Gebiet des Grafikfensters in Farbe aus canvas, es sei denn 

Hintergrundfarbe angegeben 

– Unterschied zwischen canvas und background colour: 

erstere wird beim Kopieren nicht mitkopiert, letztere schon 

– aufgenommene plot histories sind von der Klasse 

"SavedPlots"; sie haben eine print– und eine 

subset–Methode; 

– einzelne aufgenommene Plots sind aus Klasse 

"recordedplot" können durch print neu ausgegeben 

werden; 

 

Rückgabewert: keiner; es wird ein Fenster geöffnet 

 



Matthias Kohl 




355

4.1.2 Ausdruck mit postscript 

4.1.2 (a) postscript 

startet einen Grafiktreiber zur Erzeugung von Postscript–Files 

und lenkt alle Grafikausgaben auf diesen Treiber 

Syntax: postscript (file = ifelse(onefile, "Rplots.ps", 

"Rplot%03d.ps"), onefile = TRUE, paper, family, 

encoding, bg, fg, width, height, horizontal, 

pointsize, pagecentre, print.it, command) 

Argumente 

– file: (string): Name des zu erzeugenden Postscript–Files 

– onefile: (logisch): Sollen mehrere Seiten in ein File 

geschrieben werden? 

– paper: Papierformat im Drucker; zur Auswahl stehen: "a4", 

"letter", "legal" und "executive"; auch: "special", 

sofern width und height das Papierformat spezifizieren 

 



Matthias Kohl 




356

– family: Schriftenfamilie; genaueres siehe Online–Hilfe 

– encoding: Schriftenkodierungsfile; per default 

"R_HOME/afm/WinAnsi.enc"; genaueres siehe Online–Hilfe 

– bg, fg: (color) — default–Werte für die Vorder– (fg) und 

Hinter–(bg)grundfarbe 

– width, height, pointsize: wie bei windows 

– horizontal: (logisch) TRUE quer, FALSE hochkant 

– pagecenter: (logisch) Soll die Seite auf dem Papier zentriert 

werden? 

– print.it: (logisch) Soll das File anschließend gleich an den 

Drucker gesandt werden? 

– command: (string): auszuführender Befehl zum Ausdruck des 

Postscript–Files 

 

 



Matthias Kohl 




357

4.1.2 (b) ps. options 

setzt die Optionen des Postscript–Treibers 

Syntax: ps.options(paper, horizontal, width, height, 

family, encoding, pointsize, onefile = TRUE, 

print.it = FALSE, bg, fg, append = FALSE, 

reset = FALSE, override.check = FALSE) 

Ausgabe mit . PostScript .Options 

Argumente 

– paper, horizontal, width, height,family, encoding, 

pointsize, bg, fg, onefile, print.it wie bei postscript 

– append: (logisch): nur aus Kompatibilitätsgründen 

– reset,override.check: (logisch) werden an check.options 

weitergeleitet — siehe Online–Hilfe 

 



Matthias Kohl 




358

4.1.3 andere Ausgabeformate 

Neben dem postscript – und den systemabhängigen 

Grafikfensterbefehlen gibt es noch weitere Formate auf die man in R 

Grafik schreiben kann 

Tabelle 4.1-2 [weitere Grafik–Treiber]: 

pdf schreibt PDF–Format auf ein File 

pictex schreibt LATEX/PicTEX–Format auf ein File 

windows neben Bildschirmtreiber auch WMF–Format auf File erzeugbar 

png schreibt PNG–Format auf ein File 

jpeg schreibt JPEG–Format auf ein File 

bmp schreibt BMP–Format auf ein File 

xfig schreibt XFIG–Format auf ein File 


Schließen aller (oder einzelner) Graphikfenster / –Files mit 

 

graphics . off 

 



Matthias Kohl 




359

4.2 der plot und der par Befehl 

nach einem Referat von Matthias Brandl vom 03.06.2002 

4.2.1 Die par – Funktion 

setzt diverse Graphikoptionen fest, so dass alle nachfolgenden 

Graphikbefehle diese Optionen verwenden 

Um die verschiedenen Optionen, die mit par gesetzt werden 

können, zu sehen, tippe man am Prompt ein 

> par() 

– Optionen für par 

– Hier sieht man auch, wie diese Optionen voreingestellt sind 

(So werden sie auch nach einem Neustart von R wieder 

verwendet!). 

 

– für eine detailliertere Beschreibung >?par 

 



Matthias Kohl 




360

häufigste Parameter/Argumente — mit Voreinstellungen 

 

fig Koordinaten der gesamten 

Einzelabbildung 

fin=c(m,n) Größe der Einzelabbildung in Inch. 

Breite, Höhe 

pin=c(m,n) Größe der Graphik in Inch. s.o. 

mar=c(5,4,4,2)+0.1 Alle Ränder in Zeilenanzahl 

mai=c(1.4,1.1,1.1,0.6) Alle Ränder in Inch 

oma=c(0,0,0,0) Äußere Randlinien 

omi=c(0,0,0,0) Dicke der äußeren Ränder in Inch 

plt=c(0.1,0.9,0.2,0.9) Koordinaten der Plotregion als ein 

Teil der Einzelabbildung 

usr Minimum und Maximum für x- und 

y-Achse 

 



Matthias Kohl 




361

mfrow=c(m,n) Multiples Abbildungslayout; zeilenweises 

Plotten, erzeugt eine -Matrix von 

Einzelabbildungen 

mfcol=c(m,n) s.o.; spaltenweise 

4.2.2 Befehle zur Aufteilung des Graphsheets 

layout(mat, teilt das Graphsheet in so viele 

widths=rep(1,dim(mat)[2]), Zeilen und Spalten wie die Matrix 

heights=rep(1,dim(mat)[1])) 

mat Zeilen und Spalten hat 

widths legt die Breite der einzelnen 

Zellen, heights deren Höhe fest 

split .screen(figs = c(m,n)) Teilt das Graphsheet in verschiedene 

Screens auf (vgl. mfrow) 

screen(n) Aktiviert den Screen Nummer n 

 



Matthias Kohl 




362

4.2.3 Die plot–Funktion 

ist die elementarste Funktion, um eine Abbildung zu erzeugen 

Syntax: plot(x,y, ) 

mit type= kann man die Art des Datenauftrags verändern: 

type="p" Punkte (Voreinstellung) 

type="l" die Daten sind durch Strecken verbunden 

type="b" beides (Punkte mit Strecken) 

type="h" vertikale Stäbe 

type="o" Strecken mit darüberliegenden Punkten 

type="s" Treppenstufen 

type="n" nichts 

 

 



Matthias Kohl 




363

Modifizierende Optionen (viele auch in par() einstellbar): 

 

axes (logisch) mit / ohne Achsen 

main (String) Titel 

sub (String) Untertitel 

xlab Beschriftung der x-Achse 

ylab Beschriftung der y-Achse 

xlim=c(xmin,xmax) linke und rechte Grenze der x-Achse 

ylim=c(ymin,ymax) untere und obere Grenze der y-Achse 

 



Matthias Kohl 




364

Zeichentypus 

 

pch = "*" spezielles Plotzeichen; auch als Vektor der 

Länge von x übergebbar 

lwd = 1 Linienbreite; auch als Vektor der Länge von x 

übergebbar 

lty = 1 Linientyp ( durchgezogen, gestrichelt, 

....); auch als Vektor der Länge von x 

übergebbar 

col = 1 Farbe (systemabhängig); in R unter Windows: 

auch (englische) Farbnamen als String 

übergebbar; auch als Vektor der Länge von x 

von Farbcodes/–namen übergebbar 

box (logisch) zeige oder verberge den Rahmen um 

die Abbildung 

 



Matthias Kohl 




365

Befehle, um Linien zu einem Graph hinzuzufügen: 

 

abline(a,b) Fügt eine Gerade mit y-Abschnitt a und 

Steigung b hinzu 

abline(h) Fügt eine horizontale Gerade auf der 

Höhe h hinzu 

abline(v) das Analogon für vertikale Geraden 

arrows(x1,y1,x2,y2) Fügt einen Pfeil von (x1,y1) nach 

(x2,y2) hinzu 

box() Fügt den äußeren Rahmen hinzu 

lines (x,y) Fügt eine Gerade hinzu 

points(x,y) Fügt einen Punkt hinzu 

segments(x1,y1,x2,y2) Fügt eine Strecke von (x1,y1) nach 

(x2,y2) hinzu 

 



Matthias Kohl 




366

Befehle, um Text zu einem Graph hinzuzufügen — der Befehl 

text 

 

– Syntax: text(xpos,ypos,,adj=0.5,cex=1, 

col=1,crt=0,srt=0,font=1) 

– Fügt Text an einer definierten Stelle hinzu 

– Argumente 

xpos,ypos x- und y-Koordinate des Textes im Bild 

adj=0.5 Textausrichtung; linksbündig, zentriert, 

rechtsbündig 

cex=1 Fontgröße 

col=1 Farbe 

crt=0 Rotation eines Zeichens in Grad (im Uhrzeigersinn von 

der Horizontalen weg) 

srt=0 Rotation der Zeichenkette 

font=1 Font (systemabhängig) 

 



Matthias Kohl 




367

weitere Modifikatoren als separate Befehle 

 

mtext(....) Text in einem Rand der Abbildung 

title ("Titel", 

"Untertitel") 

Fügt Titel und/oder Untertitel hinzu 

axes() Fügt x- und y-Achse hinzu 

Achsenspezifikation: der Befehl axis 

– Syntax: 

axis(side=n,at=x,labels=s,pos=y,las=m,mgp=c(3,1,0), 

xaxt="....",yaxt="....",tck=-0.02,lty=1,lwd=1) 

– Fügt eine spezielle Achse hinzu 

– Argumente 

side=n : x-Achse, : y-Achse,.... 

at=x,labels=s schreibt die Beschriftung s an die Stelle x 

pos=y verschiebt die Achse bis sie durch die 

Koordinate y geht 

 



Matthias Kohl 




368

las=m fügt die Beschriftung parallel, 

horizontal und um Grad gedreht zur 

Achse hinzu 

mgp=c(3,1,0) Randlinie, an der Achsentitel, Beschriftung und 

die Linie selbst angebracht werden 

xaxt="...." x-Achsen-Typ (vgl. type="...") 

yaxt="...." y-Achsen-Typ 

tck=-0.02 Länge der Markierungsstriche 

lty=1 Linientyp (s.o.) 

lwd=1 Linienbreite 

4.2.4 alternatives Paket zu plot: grid 

Paul Murrell hat alternativ zu der bisher dargestellten Graphik ein eigenes 

Paket grid zur Verfügung gestellt, das weitaus leistungsfähiger ist als die 

hier dargestellten Befehle; näheres siehe library (grid , help) 

 



Matthias Kohl 




369

4.2.5 ein Beispiel 

data ( g e y s e r , package=KernSmooth ) 

a t t a c h ( g e y s e r ) 

g e y s e r . both c b i n d ( w a i t i n g , d u r a t i o n ) 

l a y o u t ( mat=m a t r i x ( c ( 1 , 2 , 4 , 3 ) , n c o l =2) , 

w i d t h s=c ( 0 . 7 , 0 . 3 ) , h e i g h t s=c ( 0 . 3 , 0 . 7 ) ) 

par ( mar=c ( 2 , 4 , 2 , 2 ) , cex =0.7) 

h i s t ( g e y s e r $ w a i t i n g ) 

par ( mar=c ( 4 , 4 , 2 , 2 ) , cex =0.7) 

p l o t ( g e y s e r $ w a i t i n g , g e y s e r $ d u r a t i o n , pch="£" , 

x l a b=" W a r t e z e i t " , y l a b=" Dauer ␣ d e r ␣ E r u p t i o n " ) 

t i t l e ( "\ nOld ␣ F a i t h f u l ␣ G e yser ␣Data␣ Set " , cex =0.5) 

par ( mar=c ( 4 , 3 , 2 , 2 ) , cex =0.7) 

b o x p l o t ( g e y s e r $ d u r a t i o n ) 

zum Abschluß demo(graphics) 

 



Matthias Kohl 




370

4.3 einige Tabellen 

4.3.1 Symbole für pch 

 

Angabe einer Zahl für pch 


Bei Angabe numerischer Codes für pch Steuerung der Größe durch 

mkh 

4.3.2 Farben 

Angabe einer Zahl für col 

 



Matthias Kohl 




371

Auflistung aller (englischer) Farbnamen, die statt numerischer Werte 

verwendbar sind, mit colors () — zur Zeit Namen! 

mit palette kann man eine neue Palette an Farben definieren, die die 

numerischen Werte überschreibt 

vordefinierte Skalen / “Topologien” 

– rgb: Farbkoordinaten im rgb–Raum (rot, grün, blau), 

codiert in 

– hsv: Farbkoordinaten im HSV–Raum (hue, saturation, value), 

codiert in 

– gray (Synonyom: grey): Grauskala, codiert in , 

schwarz, weiß 

– weitere: rainbow , heat. colors , topo. colors , terrain . colors , 

cm.colors (siehe Online–Hilfe) 

Umsetzung der Farbnamen / –nummern (einer Palette) / –skalen in 

rgb–Koordinaten durch col2rgb 

konzeptionelle Wahl der Farben: vgl. http://colorbrewer.org/; 

in R umgesetzt im Paket RColorBrewer von Erich Neuwirth 

 



Matthias Kohl 




372

4.3.3 Linientypen 

genauer: 

eine der drei Möglichkeiten 

– Zahl (wie oben) 

Angabe einer Zahl für lty 

– Name (character string) aus "blank", "solid", 

"dashed", "dotted", "dotdash", "longdash", "twodash" 

– eine Zeichenkette geradzahliger Länge mit bis zu Zeichen 

aus c (1:9, "A":"F") (hexadezimal codiert) — abwechselnd 

Zahl der gezeichnet und der nicht gezeichneten Einheiten, 

z.B. ergibt A24C33 Muster 10+2-4+12-3+3- (+ zeichnen, 

- nicht zeichnen) 

 



Matthias Kohl 




373

4.3.4 Linienbreiten 

 

Angabe einer Zahl für lwd 


Referenz zu graphischer Visualisierung von Daten: Cleveland (1985) 

 



Matthias Kohl 




374

4.4 weitere grundlegende Plot–Befehle 

4.4.1 eine Übersicht 

Tabelle 4.4-1 [grundlegende Grafikbefehle]: 

— aus Venables and Ripley (1999), Tab. 3.1 

Befehl c.f. Zweck 

abline 4.2 fügt eine Linie in die aktuelle Grafik 

barplot 4.4.2 (b) Säulendiagramm 

biplot 4.4.3 (c) gemeinsame Darstellung von Zeilen– und 

Spaltenraum einer multivariaten Variable in 

einem Plot 

brush, spin 4.4.3 (c) dynamische Grafik 

contour 4.4.6 Niveaulinien–Plot 

coplot 

 

4.6 plotten einer Variablen gegen eine andere zu 

gegebenen Wertbereichen oder Niveaus einer 

der beiden Variablen 

¡ nur in S-Plus 

 



Matthias Kohl 




375



dotchart 4.4.2 (c) erzeugt ein Punkt–Diagramm 

faces 4.4.3 (c) Darstellung multivariater Daten in 

Chernoff–Gesichtern 

frame 4.5.1 (a) weitergehen zur nächsten 

Abbildungs–Region 

hist 2.5.1 Histogramm (verwendet barplot) 

hist2d 4.4.3 (c) zweidim. Histogramm 

identify , locator 4.5.3 Interaktion mit existierendem Plot 

image 4.4.6 “High–Density”–Plot 

legend 4.5.2 (c) fügt eine Legende hinzu 

matplot 

 

4.4.3 (c) simultanes Plotten mehrerer Kurven: jedem 

x-Wert wird für jede Spalte einer Matrix 

ein Punkt als y–Wert abgetragen 

 



Matthias Kohl 




376



mtext 4.2 fügt Text in den Rand ein 

pairs 4.4.3 (a) eine Ansammlung aller paarweisen Plots 

einer multivariaten Variable 

par 4.2 setzen / inspizieren von Graphikparametern 

persp, perspp 4.4.6 D–Plot–Befehle 

pie 4.4.2 (d) Tortendiagramm 

plot 4.2 generischer (vgl. Abschnitt 8.1.5 (b)) 

Plotbefehl 

polygon 4.2 fügt ein Polygon in ein bestehendes 

Diagramm ein 

points, lines 4.2 fügt Punkte oder Linien in ein bestehendes 

Diagramm ein 

qqplot, qqnorm 5.1.8 Quantil–Quantil–Plot und normaler 

Q-Q–Plot 

segments 4.2 fügt Liniensegmente oder Pfeile in ein 

arrows bestehendes Diagramm ein 

 



Matthias Kohl 




377



stars 4.4.3 (c) Darstellung multivariater Daten in Star–Plots 

symbols 4.4.3 (c) fügt Symbole von variierender Größe in ein 

bestehendes Diagramm ein 

text 4.2 fügt Text in ein bestehendes Diagramm ein 

title 4.2 fügt einen Titel in ein bestehendes Diagramm 

ein 

4.4.2 Univariate Graphiken 

4.4.2 (a) Histogramme, emp. Verteilungsfunktion, Boxplots 

siehe Abschnitte 2.5.1, 2.5.2 

 

 



Matthias Kohl 




378

4.4.2 (b) Säulendiagramme — barplot 

Syntax: 

 

barplot(height, width = 1, space = NULL, names.arg = NULL, 

Argumente 

legend.text = NULL, beside = FALSE, horiz = FALSE, 

density = NULL, angle = 45, col = heat.colors(NR), 

border = par("fg"), main = NULL, sub = NULL, 

xlab = NULL, ylab = NULL, xlim = NULL, ylim = NULL, 

xpd = TRUE, axes = TRUE, axisnames = TRUE, 

cex.axis = par("cex.axis"), cex.names = 

par("cex.axis"), inside = TRUE, plot = TRUE, ...) 

– height: entweder ein Vektor oder eine Matrix von Werten, die die 

Säulen aus dem Plot beschreiben. 

£ falls height ein Vektor ist: 

eine Folge rechteckiger Säulen mit Höhen entsprechend height 

wird geplottet 

£ falls height eine Matrix und beside FALSE ist: 

Jede Säule besteht aus Teilsäulen, entsprechend den Werten in 

 



Matthias Kohl 




379

den Spalten von height 

£ falls height eine Matrix und beside TRUE ist: 

Die einzelnen Spaltenelemente werden nebeneinander geklebt. 

– width: optionaler Vektor mit Säulenbreiten. Angabe eines 

einzelnen Wertes wirkt sich nur aus, sofern xlim spezifiziert ist. 

– space: leerer Zwischenraum links vor einer Säule, gemessen als 

Anteil der durchschnittlichen Säulenbreite; 

angebbar als einzelner Wert oder je ein Wert / Säule; 

falls height als Matrix vorliegt und beside TRUE ist, kann space 

als jeweils zwei Werte angegeben werden; der erste ist dann der 

Zwischenraum zwischen zwei Säulen einer Spalte, der zweite dann 

zwischen den Spalten; in diesem Fall ist der default c(0,1) sonst 

0.2. 

– names.arg: ein Stringvektor mit Namen, die unter die 

Säulen(gruppen) geplottet werden; per default werden hier die 

(Spalten)Namen vom names–Attribut von height übernommen; 

– legend.text: ein Stringvektor, um eine Legende für den Plot zu 

erstellen, oder ein logischer Wert, der bestimmt, ob eine Legende 

 



Matthias Kohl 




380

eingeschlossen werden soll; oft nützlich wenn height eine Matrix 

ist; in diesem Fall entsprechen die Zeilen von height den in der 

Legende aufgeführten Labels; falls legend.text TRUE ist werden 

per default die Zeilennamen von height verwendet. 

– beside: (logisch) siehe height 

– horiz: (logisch) per default FALSE; sollen die Säulen horizontal 

statt vertikal geplottet werden? 

– density: ein Vektor der die Dichte der Schraffur der 

Säulen(komponenten) in Linien/Zoll angibt, per default NULL; 

dann keine Schraffur 

– angle: Neigung der Schraffur als Winkel im Gegenuhrzeigersinn 

– col: (Vektor)(color) Farben der Säulen(komponenten) 

– border: Randfarbe der Säulen. 

– main, sub, item xlab, ylab, xlim, ylim, axes, axisnames, : wie 

bei plot 

– xpd: (logisch) dürfen Säulen aus dem Bild ragen? 

 

– cex.axis, cex.names: (cex character expansion) 

 



Matthias Kohl 




381

Vergrößerungsfaktor für die Achsenbeschriftung / Namen. 

– inside: (logisch) sollen Linien, die zwei aneinander angrenzende 

Säulen trennen, mitgezeichnet werden? 

– plot: (logisch) soll überhaupt etwas geplottet werden — oder ist 

man nur auf den Rückgabewert aus? 

– ...: weitere Graphikparameter (par), die an plot .window(), 

title () und axis weitergeleitet werden. 

Rückgabewert 

– ein numerischer Vektor (oder Matrix), sofern beside = TRUE, 

ergibt die x–Koordinaten aller Säulenmitten — nützlich um in 

diesen Plot weitere Information zu plotten. 

 



Matthias Kohl 




382

R–Beispiel 4.4-2 [Tote in GB durch Lungenkrankheiten]: 

#E i n l a d e n n o t w e n d i g e r B i b l i o t h e k e n 


l i b r a r y ( l a t t i c e ) 

l i b r a r y ( t s ) 

#B e r e i t s t e l l e n d e r D a t e n s a e t z e 

data ( mdeaths ) ; data ( f d e a t h s ) ; 

# (M a e nner und F rauen ) 

l u n g e n . t o t e aggregate ( 

t s . union ( mdeaths , f d e a t h s ) , 1) 

# A g g r e g i e r e n d e r Daten i n e i n e Matrix 

# mit S p a l t e n m / w und Z e i l e n Jahr 

# 1 . Saeulendiagramm 

b a r p l o t ( t ( l u n g e n . t o t e ) , names = 

dimnames ( l u n g e n . t o t e ) [ [ 1 ] ] , 

 

main = " Tote ␣ i n ␣GB␣ durch ␣ L u n g e n k r a n k h e i t e n " ) 

 



Matthias Kohl 




383

# i n t e r a k t i v e s F e s t l e g e n d e r P o s i t i o n 

# d e r Legende 

i f ( i n t e r a c t i v e ( ) ) 

 

l e g e n d ( l o c a t o r ( 1 ) , c ( " Maenner " , " Frauen " ) , 

f i l l = c ( 2 , 3 ) ) 

# 2 . Sauelendiagramm 

# a b l e g e n d e r x P o s i t i o n e n i n l o c 

l o c b a r p l o t ( t ( l u n g e n . t o t e ) , names = 

dimnames ( l u n g e n . t o t e ) [ [ 1 ] ] , a n g l e = c (45 , 135) , 

d e n s i t y = 10 , c o l = 1) 

 



Matthias Kohl 




384

# Berechnung d e r a b s o l u t e n Zahlen d e r 

# Lungentoten f u e r j e d e s Jahr 

t o t a l rowSums ( l u n g . d e a t h s ) 

# B e s c h r i f t u n g des S a e u l e n mit d i e s e n 

# Zahlen o b e r h a l b d e r S a e u l e n 

# mit entsprechendem Abstand 

t e x t ( l o c , t o t a l + par ( " cxy " ) [ 2 ] , t o t a l , 

 

cex = 0 . 7 , xpd = T) 

 



Matthias Kohl 




385



Matthias Kohl 




386

4.4.2 (c) Punktdiagramme — dotchart 

Alternative zu Säulendiagrammen; erstellt zwei Varianten von 

Dot–Plots wie sie sich in Cleveland (1985) finden 

auch für gruppierte Variablen — siehe Beispiel in session8.r 

Syntax: 

dotchart(x, labels = NULL, groups = NULL, gdata = NULL, 

Argumente 

bg = par("bg"), cex = par("cex"), pch = 21, 

gpch = 21, color = par("fg"), gcolor = par("fg"), 

lcolor="gray",main=NULL,xlab=NULL,ylab=NULL,...) 

– labels: String–Vektor mit Namen für jeden Punkt 

– groups: Gruppeneinteilung 

– gdata: Gruppen–Daten; normalerweise summary–Werte 

 

– gpch: Symbol(e) für die Gruppenvariablen 

 



Matthias Kohl 




387

– gcolor, lcolor: Gruppen–/ Labelfarbe 

– Rest wie barplot 

4.4.2 (d) Tortendiagramme — pie 

in R: pie 

Zitat aus der R–Hilfe 

Pie charts are a very bad way of displaying 

information. The eye is good at judging linear measures 

and bad at judging relative areas. A bar chart or dot chart 

is a preferable way of displaying this type of data. 

daher hier nicht ausführlich behandelt 

siehe Beispiel in session8.r 

 

 



Matthias Kohl 




388

4.4.3 multivariate Diagramme 

bisher maximal Paare von Zufallsvariablen auf einmal betrachtet 

Wie visualisiert man multivariate Daten? 

4.4.3 (a) Scatterplots 

in einem matrix–artigen Schema wird jede Variable gegen jede 

abgetragen 

in R: pairs 

R–Beispiel 4.4-3 [Fertilität und soz.ök. Faktoren in CH]: 


l i b r a r y (MASS ) ; l i b r a r y ( modreg ) ; data ( s w i s s ) 

#I n f o 

 

u e b e r Datensatz 

h e l p ( s w i s s ) 

 



Matthias Kohl 




389

#Wandeln i n Data . frame 

s w i s s . d f data . frame ( 

F e r t i l i t y =s w i s s [ , 1 ] , s w i s s [ , 1]) 

#Funktion zum s i m u l t a n e n P l o t t e n d e r Punkte 

# und e i n e r l o k a l e n r o b u s t e n R e g r e s s i o n 

p o i n t s . l i n e s f u n c t i o n ( x , y , . . . ) 

{ p o i n t s ( x , y , . . . ) ; 

l i n e s ( l o e s s . smooth ( x , y ) , . . . ) } 

#Erzeugen des S c a t t e r p l o t s 

p a i r s ( s w i s s . df , p a n e l=p o i n t s . l i n e s , pch =3, 

mkh=0.03 , cex =0.4) 

4.4.3 (b) matplot 

plottet die Spalten einer Matrix x gegen die einer anderen y; 

genauer: 

– x[,1] wird gegen y[,1], x[,2] gegen y[,2] u.s.w. 

geplottet. 

 



Matthias Kohl 




390

– Hat eine der beiden Matrizen weniger Spalten als die andere, 

werden die Spalten wie üblich zyklisch aufgefüllt; 

– insbesondere: x oder y kann ein Vektor sein, gegen den dann 

alle Koordinaten von y resp. x geplottet werden; 

Syntax: 

matplot(x, y, type = "p", lty = 1:5, lwd = 1, pch = NULL, 

Argumente 

– wie bei plot 

col = 1:6, cex = NULL, xlab = NULL, ylab = NULL, 

xlim = NULL, ylim = NULL,..., add = FALSE, 

verbose = getOption("verbose")) 

entsprechend zu points, lines : matpoints, matlines 

 

 



Matthias Kohl 




391

4.4.3 (c) weitere Methoden in R / S-Plus 

Star/Radar–Plots: stars — Darstellung als Sterne/Spinnen 

Symbol–Plots: symbols — Darstellung als Kreise, Quadrate, 

Rechtecke, Sterne, Thermometer oder Boxplots 

nur in S-Plus: 

2D–Histogramme : hist2d 

Bi-Plots : biplots — gemeinsame Darstellung von Zeilen– und 

Spaltenraum einer multivariaten Variable in einem Plot 

Chernoff–Gesichter : faces — Darstellung als Gesichter; in R in 

Paket aplpack 

brush and spin 

 

: brush — interaktives Betrachten der Daten 

durch Rotation und Markierung von Teilmengen 

nicht in R hier nur eine Demo, siehe auch session8.r 

 



Matthias Kohl 




392

4.4.4 Interaktive Graphik 

ist eigentlich kein Ziel von R 

delegiert an andere Pakete Interfaces 

4.4.4 (a) Zusatzpaket für interaktive Graphik: TclTk 

basiert auf Tcl ( T ool Command Language), siehe auch 

http://www.msen.com/~clif/TclTutor.html und dem dafür 

plattformübergreifend zur Verfügung stehenden Toolkit (Tk) für 

GUIs [lies “tickeltikej”] 

Interface von R zu tcltk 

– Autor ist Peter Dalgaard 

– wird bei der Standardinstallation automatisch mitinstalliert 

 

zum Anfangen 

 



Matthias Kohl 




393

– Artikel “A Primer on the R-Tcl/Tk package” und “Changes 

to the R-Tcl/Tk package” von Peter Dalgaard 

– Beispiele tkdensity und tkttest im Paket tcltk — 

abzurufen mit demo(tkdensity), demo(tkttest) 

– Beispiele von James Wettenhall auf 

http://bioinf.wehi.edu.au/~wettenhall/RTclTkExamples/ 

auf dieser Basis: die plattformunabhängige GUI (graphische 

Benutzeroberfläche) von J. Fox: R-Commander (Paket Rcmdr) 

4.4.4 (b) Zusatzpaket für interaktive Graphik: XGobi/GGobi 

entwickelt bei ATT von Swayne, Cook, Buja 

zunächst für X–Server geschrieben — frei verfügbar unter 

http://www.research.att.com/areas/stat/xgobi/ 

fortentwickelt auf Basis von Gtk zu GGobi 

 

ausführliches Manual unter http://www.ggobi.org/manual.pdf 

 



Matthias Kohl 




394

Interfaces gibt auch für R xgobi für Windows und Unix 

Interfaces von R zu X/GGobi 

– für XGobi: Paket xgobi 

– interaktiv 

£ genauer steht dieses Interface in Version 1.2-5 unter dem 

angegebenen Link zur Verfügung 

£ Autoren sind Martin Maechler und Kurt Hornik 

– für GGobi: Paket Rggobi 

£ Autor ist Duncan Temple Lang 

Ziel: Visualisierung hochdimensionaler Daten 

Ideen: 

– Daten in mehreren Perspektiven simultan in verschiedenen 

Fenstern anschauen 

£ Projektionen auf zwei Koordinaten 

£ Verwendung “paralleler” Koordinaten 

 



Matthias Kohl 




395

£ Beobachtungen identifizieren Labelling 

£ Untergruppen in anderer Farbe einfärben 

(transient/permanent) Brushing 

– dabei stets entsprechende Reaktion der anderen Fenster — 

einfärben, labeln 

Demo mit 

l i b r a r y ( Rggobi ) 

? g g o b i 

g g o b i ( system . f i l e ( " data " , " f l e a . xml " , 

package=" Rggobi " ) , c ( " n o i n i t " , " xml " ) ) 

 



Matthias Kohl 




396

4.4.5 Filme 

Abschnitt beruht auf Hinweisen von Matthias Templ 

benötigt: entweder R-Paket rgl+ImageMagick, vgl. 

http://magick.imagemagick.org/script/index.php 

oder R-Paket caTools 

Vorgehen bei rgl+ImageMagick 

– Erzeugen einer Sequenz von png’s mit rgl .snapshot 

– unter Windows: mit DOS-Kommando 

convert -delay 10 *.png -loop 0 pic.gif 

wird ein Film-gif erzeugt 

– unter Linux: komfortabler — Sequenz markieren und auf 

convert "werfen" 

Vorgehen bei caTools 

 

– Abspeichern der Folge von 2dim Graphiken als 3dim -Graphik 

mit der dritten Achse als Zeitachse 

 



Matthias Kohl 




397

– Erzeugen des .gif-Files mit write.gif 

Beispiel von Matthias Templ: demorgl.R und mandelbrot2.R 

 



Matthias Kohl 




398

4.4.6 Flächendiagramme 

Für univariate Funktionen in zwei Variablen (z.B. ) kann 

man 3D–Plotfunktionen verwenden 

in R zur Verfügung stehende Methoden 

 

– perspektivischer 3D–Plot: persp 

– Plot der Niveaulinien: contour 

– farbkodierter Niveaulinienplot: image 

hier keine ausführliche Beschreibung der Funktionsweise 

siehe Demonstration und session8.r 

 



Matthias Kohl 




399

4.5 Grafikaufbereitung 

4.5.1 mehrere Plots in einem Diagramm 

4.5.1 (a) mehrere Plots nebeneinander in einem/mehreren Fenster(n) 

erste Methode: (ein Fenster) 

 

– par(mfrow=c(,)), 

– par(mfcol=c(,)) 

zweite Methode: (mehrere Fenster) 

– mit windows() oder x11() neues Fenster öffnen 

– split .screen(fig=c(,)), 

– interaktiv mit split .screen(prompt.screen()), 

– ungleiche Größen mit 

split .screen(fig=(matrix(,,4)), 

wobei jede Zeile der Matrix von der Form 

(,,,) ist und alle 

Koordinaten in sind; 

 



Matthias Kohl 




400

– Zugriff mit screen(), 

– Schließen einzelner / aller Figuren/Screens mit 

close .screen(), bzw. (all=T) 

dritte Methode: (ein Fenster) 

layout — siehe auch Referat Matthias Brandl, Abschnitt 4.2 

Weiterschalten von verschiedenen Figuren: frame 

4.5.1 (b) mehrere Plots übereinander in einer Figur 

um dafür zu sorgen, dass in dieselbe Figur geplottet wird: 

par(new=T) ab dem zweiten überlagerndem Plot 

um für eine einheitliche Skalierung zu sorgen: Verwendung von 

xlim, ylim 

um für eine einheitliche Beschriftung zu sorgen: 

– Setzen von xlab="", ylab="" in allen bis auf dem letzten Plot 

 

– Beschriftung durch xlab, ylab, title , sub erst im letzten Plot 

 



Matthias Kohl 




401

neue Linien / Punkte in bestehenden Plot ohne weiteren Aufruf 

von plot (): line (), points(), matline(), matpoints() abline (),....; 

 

R–Beispiel 4.5-1 [Überlagern mit untersch. Gittern]: 

x1 seq ( 3.3 ,3 , l e n g t h =100) 

y1 3£ s i n (2 £ x1 ) 

x2 seq ( 4 ,3.7 , l e n g t h =200) 

y2 2£ s i n (3 £ x2 ) 

par ( new=T) 

#b e a c h t e : u n t e r s c h i e d l i c h e G i t t e r ! 

xg c ( min ( c ( x1 , x2 )) 0.1 , 

max( c ( x1 , x2 ) )+0.1) 

yg c ( min ( c ( y1 , y2 )) 0.1 , 

max( c ( y1 , y2 ) )+0.1) 

p l o t ( x1 , y1 , t y p e=" l " , c o l=" r e d " , x l i m=xg , 

y l i m=yg , x l a b="" , y l a b="" ) 

 



Matthias Kohl 




402

p l o t ( x2 , y2 , t y p e=" l " , c o l=" b l u e " , x l i m=xg , 

y l i m=yg , x l a b="x" , y l a b="y" ) 

t i t l e ( p a s t e ( " zwei ␣ v e r s c h i e d e n e ␣ Funktionen " , 

" f1 , f 2 ␣ i n ␣ einem ␣ P l o t " ) ) 

 



Matthias Kohl 




403

y 

−3 −2 −1 0 1 2 3 

zwei verschiedene Funktionen f1,f2 in einem Plot 

−4 −2 0 2 4 

x 

 



Matthias Kohl 




404

4.5.2 Hinzufügen von Information 

4.5.2 (a) Einfügen von Linien, Punkten etc. 

Befehle: abline, polygon,points, lines , segments, arrows, text 

Beachte die Verwendung von Expressions wie in 

Abschnitt 4.5.4 zum Erzeugen mathematischer Formeln / 

Symbole 

siehe auch Referat Matthias Brandl, Abschnitt 4.2 

4.5.2 (b) zusätzliche Achsen und Gitter 

manchmal sinnvoll: mehrere Achsen parallel — z.B. Celsius und 

Fahrenheit 

 

gelöst durch den Befehl axis 

 



Matthias Kohl 




405

Syntax: 

axis(side, at = NULL, labels = TRUE, tick = TRUE, line = 0, 

Argumente: 

pos = NA, outer = FALSE, font = NA, vfont = NULL, ...) 

– side: Zahl zwischen und — unten, links, oben, 

rechts, 

– at: Vektor von Punkten, an denen Achsen–Ticks gezeichnet 

werden sollen 

– labels: 

£ entweder (logisch) — numerische Beschriftung der 

Achsen–Ticks? 

£ oder ein Stringvektor dessen Elemente an die 

Achsen–Ticks geschrieben werden sollen 

– tick: (logisch) sollen Achsen–Ticks gezeichnet werden? 

– line: Abstand mit der die Achse zur Originalachse gezogen 

wird; setzt den Wert des par–Parameters mgp[3] außer Kraft; 

 



Matthias Kohl 




406

die relative Position der Achsen–Ticks bleibt unverändert 

– pos: Position der (neuen) Achse in der anderen Koordinate; 

setzt die Werte von line und mgp[3] außer Kraft. 

– outer: (logisch) Soll die Achse in den äußeren Rand statt in 

den “normalen” Rand geschrieben werden? 

– font: Schrifttyp für den Text 

– vfont: Vektor–Schrifttyp (TT für den Text 

– tck: Länge der Achsen–Ticks (zwischen und ) 

– ...: weitere Graphikparameter 

4.5.2 (c) Legenden 

mit der Funktion legend können Legenden eingefügt werden 

Syntax: 

legend(x, y, legend, fill, col = "black", lty, lwd, pch, 

 

angle = NULL, density = NULL, bty = "o", 

bg = par("bg"), pt.bg = NA, cex = 1, 

 



Matthias Kohl 




407

Argumente 

xjust = 0, yjust = 1, x.intersp = 1, 

y.intersp = 1, adj = 0, text.width = NULL, 

merge = do.lines && has.pch, trace = FALSE, ncol = 1, 

horiz = FALSE) 

– x, y: x– und y–Koordinaten der Legende 

– legend: ein Stringvektor oder eine Expression wie in 

Abschnitt 4.5.4 der Länge mit dem Inhalt der Legende 

– fill: falls spezifiziert werden Boxen mit der Farbe gefüllt 

– col, lty, lwd, pch, cex: Parameter für Linien, Punkte, 

Symbole in der Legende — wie in plot 

– angle, density: Schraffurparameter wie in barplot 

– bg: Hintergrundfarbe der Legenden–Box 

– pt.bg: Hintergrundfarbe der Punkte 

– xjust, yjust: wie die Legenden–Box ausgerichtet wird; 

links/unten zentriert und rechts/oben. 

 



Matthias Kohl 




408

– x.intersp, y.intersp: Zeichenabständen 

(horizontal/vertikal) 

– adj: die Stringausrichtung des Legendentextes; nützlich bei 

Verwendung von Expressions wie in Abschnitt 4.5.4 

– text.width: Breite des Legendentextes in 

Benutzerkoordinaten; 

– merge: (logisch) Sollen Punkte und Linien vereinigt werden? 

– trace: (logisch) Sollen die Berechnungen von legend 

transparent sein? 

– ncol: Zahl der Spalten, in die die Legende aufgeteilt werden 

soll 

– horiz:( logisch) soll die Legende horizontal statt vertikal 

gesetzt werden? — setzt ncol außer Kraft. 

Rückgabewert: eine (unsichtbare) Liste von 

– rect: eine Liste mit Komponenten 

£ w, h (positive Zahlen: die Breite und Höhe der 

 



Matthias Kohl 




409

Legenden–Box) 

£ left, top x– und y–Koordinaten der linken oberen 

Eckpunktes der Box 

– text: eine Liste mit Komponenten: x,y — numerische 

Vektoren in der Länge der Legende, mit den x– und 

y–Koordinaten des Legendentexts 

4.5.2 (d) Titel, Randbeschriftungen 

die Befehle title , mtext 

siehe Referat Matthias Brandl, Abschnitt 4.2 

man beachte auch die Verwendung von Expressions wie in 

Abschnitt 4.5.4 zum Erzeugen mathematischer Formeln / 

Symbole 

 

 



Matthias Kohl 




410

4.5.3 interaktives Bearbeiten 

manchmal sinnvoll: Punkte interaktiv identifizieren, Objekte 

interaktiv platzieren 

Identifizieren von Punkten / Beobachtungen durch identify 

Syntax: identify (x, ...) oder 

identify (x, y = NULL, labels = seq(along = x), 

pos = FALSE, n = length(x), plot = TRUE, 

offset = 0.5, ...) 

Argumente 

– x, y: Koordinaten der Punkte eines Scatterplots oder 

alternativ irgendein Objekt das Koordinaten definiert (z.B. 

eine Plot–Struktur eine Zeitreihe etc.); Übergabe auch als x 

allein möglich (y dann undefiniert). 

 



Matthias Kohl 




411

– labels: ein optionaler Stringvektor der Länge von (x,y), 

mit Namen/Labeln für die Punkte. 

– pos: (logisch) — soll eine zusätzliche Komponente zum 

Rückgabewert hinzugefügt werden, der angibt, wohin der 

Name in Bezug auf das zu identifierende Objekt geplottet 

werden soll — ( unten, links, oben, 

rechts). 

– n: Maximalzahl an zu identifizierenden Objekten 

– plot: (logisch) sollen die Label an die Punkte geschrieben 

werden? 

– offset: der Abstand (in Zeichenweite) in dem die Label zum 

Objekt geschrieben werden; 

– ...: weitere Argumente an par. 

Details: 

– ist plot TRUE, so wird der identifizierte Punkt mit einem 

Label versehen; 

 



Matthias Kohl 




412

– dieser Label wird je nach Klickposition (in Bezug auf den 

identifizierten Punkt) unten, links, oben oder rechts gesetzt; 

– der Identifikations–Prozess wird durch Klicken mit der 

rechten Maustaste und anschliessender Auswahl des 

Menupunktes ‘Stop’ im Grafikfenster abgeschlossen 

– wird das Grafikfenster vor Abschluss des 

Identifikations–Prozesses umskaliert und anschließend das 

Fenster neu gezeichnet, verschwinden alle bis dahin 

identfizierten Label; sie werden erneut erscheinen, sobald der 

Identifikations–Prozess abgeschlossen ist und das Fenster 

neugezeichnet wird. 

Rückgabewert 

– ist pos FALSE, wird ein Integer–Vektor zurückgegeben mit 

den Indizes der identifizierten Punkte. 

– sonst wird dieser Vektor als Komponente ind mit einem 

weiteren Integer–Vektor — dieser als pos — zu einer Liste 

 



Matthias Kohl 




413

zusammengefasst, in dem dann der Code für die relative 

Position des Labels steht 

identify wird im allgemeinen zusammen mit locator benutzt; 

locator liest die aktuelle Cursor–Position bei Klicken der linken 

Maustaste; 

Syntax: locator(n = 512, type = "n", ...) 

Argumente 

– n: wie bei identify 

– type: Punkt/Linientyp wie bei plot 

– ...: weitere Graphikargumente, die genutzt werden, sofern 

type nicht "n" ist 

Beispiel: vergleiche 0.7 

 

 



Matthias Kohl 




414

4.5.4 Mathematik in Labels 

vor allem im mathematischen Kontext, aber auch sonst, ist es 

oft nötig Formelzeichen wie Integrale, Brüche u.s.w. exakt 

darzustellen — sei es in Überschriften, in Legenden, in 

Achsenbeschriftungen 

in der mathematischen Fachliteratur hat sich hierzu TEX / L ATEX 

durchgesetzt 

in R ist so etwas ähnliches möglich, indem der in 

“Mathematik–Modus” zu plottende Text als expression 

deklariert wird 

 

R–Beispiel 4.5-2 [mathem. Ausdrücke in Überschrift]: 

x seq ( 4 , 4 , l e n = 101) 

y c b i n d ( s i n ( x ) , cos ( x ) ) 

 

matplot ( x , y , t y p e= " l " , x a x t= "n" , 

 



Matthias Kohl 




415

main= e x p r e s s i o n ( p a s t e ( p l a i n ( s i n ) £ phi , 

"␣␣and␣␣" , p l a i n ( cos ) £ p h i ) ) , 

y l a b= e x p r e s s i o n ( " s i n " £ phi , " cos " £ p h i ) , 

# o n l y 1 s t i s taken 

x l a b= e x p r e s s i o n ( p a s t e ( " P h a s e n w i n k e l ␣" , p h i ) ) , 

c o l . main= " b l u e " ) 

a x i s ( 1 , at= c( pi , p i / 2 , 0 , p i / 2 , p i ) , 

l a b= e x p r e s s i o n ( pi , p i / 2 , 0 , p i / 2 , p i ) ) 

weitere Beispiele siehe help(plotmath) bzw. in session8.r 

 



Matthias Kohl 




416

sinφ 

−1.0 −0.5 0.0 0.5 1.0 

sinφ and cosφ 

− π − π 2 0 π 2 π 

Phasenwinkel φ 

 



Matthias Kohl 




417

4.6 Bedingte Plots 

Situation: drei abhängige Variablen , und 

Ziel: graphische Darstellung der Relation gegeben 

oder für vorgebene Werte oder Regionen 

in R: durch coplot — Berechnung der Regionen durch 

 

co. intervals 

Spezifikation des “Ziels” durch Eingabe einer Formel — siehe 

auch Abschnitt 7.1.1 (b) — vom Typ X~Y|Z 

Literatur: Cleveland (1993) 

Syntax: co. intervals (x, number = 6, overlap = 0.5) und 

coplot(formula, data, given.values, panel = points, rows, 

columns, show.given = TRUE, col = par("fg"), 

pch = par("pch"), bar.bg = c(num = gray(0.8), 

fac = gray(0.95)), subscripts = FALSE, 

 



Matthias Kohl 




418

xlab = c(x.name, paste("Given :", a.name)), 

ylab = c(y.name, paste("Given :", b.name)), 

axlabels = function(f) abbreviate(levels(f)), 

number = 6, overlap = 0.5, xlim, ylim, ...) 

co. intervals (., number, .) gibt eine number ¢ –Matrix ci 

zurück, wobei ci[k,] das –te Bedingungsintervall an 

x–Werten ist 

Argumente 

– x: ein numerischer Vektor 

– formula: (Formel) die Formel die den Co-Plot definiert; zu 

deren Syntax siehe Abschnitt 7.1.1 (b) zwei Typen: y ~ x | a 

und y ~ x| a £ b; bei letzterer wird nach den gemeinsamen 

Werten von (a,b) bedingt 

– data: ein Data–Frame, der alle Beobachtungen in den 

Variablen (x,y,a[,b]) enthält 

 

– panel: (Funktion vom Typ function(x, y, col , pch, ...) ): 

 



Matthias Kohl 




419

gibt an, welche Aktion in jedem der Panels des Fensters 

durchgeführt werden soll; per default: points 

– rows, columns: die Panels werden in einer Tabelle abgelegt; 

rows gibt die Zeilenanzahl der Tabelle an, columns die 

Spaltenzahl 

– given.values: Bedingungswerte: 

£ ein Objekt (oder eine Liste von zwei Objekten), die die 

Bedingungswerte für a (und b) festlegt; 

£ liegt nur a vor: 

¡ gewöhnlich eine Matrix mit zwei Spalten, deren Zeilen 

die Bedingungs–Intervalle angeben 

¡ auch ein einzelner Werte–Vektor ist möglich 

¡ oder eine Menge von Faktor–Niveaus (sofern die 

bedingende Variable ein Faktor ist) 

¡ das Resultat von co. intervals kann direkt als Argument 

für given.values verwendet werden 

– show.given: (logisch) (möglicherweise der Dimension ¢ ) 

 



Matthias Kohl 




420

sollen die bedingten Plots der entsprechenden bedingenden 

Variable ausgegeben werden? 

– col, pch: siehe plot 

– bar.bg: ein Vektor mit Komponentennamen "num" und 

"fac" der die Hintergrundfarben der Säulen für die 

numerischen bzw. Faktor–wertigen Variablen angibt 

– xlab, ylab: (String) Beschriftung für die x–Achse und die 

erste bedingende Variable (y–Achse und die zweite 

bedingende Variable). Ist nur ein Label angegeben, wird er 

für die x(y)–Achse verwendet und die default–Beschriftung 

für die bedingende Variable. 

– subscripts: (logisch) Soll der Panel–Funktion ein 

zusätzliches (drittes) Argument subscripts übergeben 

werden, das die übergebenen Beobachtungen auf die in 

subscripts angegeben einschränkt? 

 

– axlabels: (Funktion): erzeugt die 

 



Matthias Kohl 




421

Achsen–Tick–Beschriftungen sofern x oder y Faktoren sind 

– number: (Integer) Zahl der Bedingungsintervalle für a, b — 

möglicherweise der Länge . Wird nur benutzt, wenn die 

entsprechende bedingende Variable kein Faktor ist 

– overlap: (numerisch), ; der Anteil an Überlappung der 

Bedingungsintervalle; möglicherweise der Länge für x und y 

– Richtung. Ist overlap < 0, werden Lücken zwischen die 

Intervalle gelegt. 

– xlim, ylim: der Plotbereich für die x(y)–Achse. 

– ...: weitere Argumente für die Panel–Funktion 

 



Matthias Kohl 




422

R–Beispiel 4.6-1 [Bedingte Plots]: 


l i b r a r y (MASS ) ; l i b r a r y ( modreg ) 

#I n f o u e b e r Datensatz 

data ( s w i s s ) ; h e l p ( s w i s s ) 

#Wandeln i n Data . frame 

s w i s s . d f data . frame ( 

F e r t i l i t y =s w i s s [ , 1 ] , s w i s s [ , 1]) 

#S c h r e i b e n e i n e r Funktion zum s i m u l t a n e n P l o t t e n 

#d e r Punkte und e i n e r l o k a l e n r o b u s t e n R e g r e s s i o n 

p o i n t s . l i n e s f u n c t i o n ( x , y , . . . ) 

{ p o i n t s ( x , y , . . . ) ; 

l i n e s ( l o e s s . smooth ( x , y ) , . . . ) } 

#Erzeugen des Co P l o t s 

c o p l o t ( F e r t i l i t y ~E d ucation 

 

| C a t h o l i c , 

data=s w i s s . df , p a n e l=p o i n t s . l i n e s ) 

 



Matthias Kohl 




423

Fertility 

40 50 60 70 80 90 

0 10 20 30 40 50 

● 

● 

● 

● 

● 

● 

● 

● 

● ● 

● 

● 

●● 

● 

● ●● 

● 

● 

● 

● 

● 

● 

● 

● 

Given : Catholic 

20 40 60 80 100 

● ● 

● 

●● 

● 

● ● 

● 

● 

● ● 

● 

● 

● 

● 

● ●● 

● 

● 

● 

● 

0 10 20 30 40 50 

Education 

● 

0 10 20 30 40 50 

●● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● ● 

● 

● 

● 

● 

● 

40 50 60 70 80 90 

 



Matthias Kohl 




424

4.7 Export von Daten und Graphik 

nach einem Referat von Matthias Kohl vom 10.06.2002 

Hinweis: Nicht (explizit) betrachtet werden hier die 

Exportmöglichkeiten via Verbindungen (connections) zu anderen 

Programmen wie etwa SPSS, SAS, SQL-Datenbanken, ... 

(Diese Verbindungen sind auch in erster Linie für den Import von 

Daten vorgesehen) 

4.7.1 Export von Daten 

4.7.1 (a) Export–Funktionen 

cat(..., file="", sep=" ", append=FALSE, ...): 

Schreibt die angegeben Objekte in ein File. 

file="": Ausgabe erfolgt auf die Konsole. 

 



Matthias Kohl 




425

write(x, file="data", ncolumns=if(is.character(x)) 

1 else 5, append=FALSE): 

Schreibt die Daten aus x in ein file (default: ein File mit 

Namen data). 

ncolumns: Anzahl der Spalten, in die die Daten geschrieben 

werden 

write.table(x, file="", append=FALSE, quote=TRUE, 

sep="", dec=".", row.names=TRUE, col.names=TRUE, 

...): 

Schreibt die Daten aus dem Objekt x, in der Regel ein 

Dataframe, in eine Datei. 

quote=TRUE: es werden Anführungszeichen gesetzt 

write.matrix(x, file="", sep=" ", blocksize): 

Bestandteil der library MASS 

Schreibt eine Matrix oder einen Dataframe in eine Datei 

Generiert eine “spaltenorientierte” Ausgabe 

 



Matthias Kohl 




426

locksize >= 0: das Object x wird in Blöcken mit jeweils 

blocksize Zeilen ausgegeben 

(effiziente Speichernutzung, es können auch sehr große Matrizen 

ausgegeben werden, möglicherweise die Blöcke leicht 

unterschiedlich formatiert). 

save(..., list=character(0), file="", 

envir=parent.frame(), ...) 

Speichert die Objekte, die mit ihren Namen oder mit Hilfe eines 

character Vektors angegeben werden können. 

Zur Portierung von Objekten zwischen verschiedenen 

Plattformen/Rechnern 

envir: Frame, in dem nach dem Objekt gesucht wird. 

Zum Laden gespeicherter Objekte: load() 

 

 



Matthias Kohl 




427

4.7.1 (b) Beispiel für den Export nach Excel 

Vorgehensweise: 

Erzeuge einen Dataframe bzw. ein in einen Dataframe 

umwandelbares Objekt 

Exportiere in eine Datei: 

write.table(X, file="a:export.txt", dec=",", 

row.names=FALSE) 

Start von Excel und öffnen einer Textdatei 

Hinweis: Es gibt auch die Möglichkeit R unter Excel aufzurufen und 

via einer DCOM-Verbindung zwischen R und Excel Daten 

auszutauschen (vgl. auch Abschnitt 1.3.4). Die notwendige Software 

findet man unter: 

http://cran.r-project.org/other-software.html 

 

 



Matthias Kohl 




428

4.7.2 Export von Graphik 

4.7.2 (a) Graphik Devices 

Mit Hilfe von ?Devices Ausgabe der vorhanden Grafik Devices. 

Diese sind (unter Windows): 

windows(...): Öffnet auf dem aktuellen Display ein neues 

Grafik Fenster 

x11(...): Öffnet ein auf einem X Window System ein neues 

Grafik Fenster 

postscript(...): vgl. Vorlesung 

pdf(...): pdf-Dateien 

pictex(...): tex-Dateien zur Verwendung in TEX bzw. L ATEX 

win.metafile(...): wmf-Dateien 

 

win.print(...): Ausgabe auf Drucker 

 



Matthias Kohl 




429

jpeg(...): jpeg-Dateien 

png(...): png-Dateien, besser als jpeg für die Darstellung 

von Linien geeignet 

bmp(...): bmp-Dateien 

xfig(...): fig-Dateien zur Verwendung in XFig (version 3.2) 

bitmap(...): verschiedene Grafik Formate (z.B. jpeg, png, 

tiff, ...), benötigt eine Version von ghostscript! 

dev.off(): Schließen der Grafik Device 

4.7.2 (b) Beispiel für den Export nach PowerPoint 

Starten der Grafik Device: win.metafile() 

Erzeugen der Plots 

Schließen der Grafik Device: dev.off() 

 



Matthias Kohl 




430



Matthias Kohl 




431

5 Schätzen und Testen 

5.1 klassische univariate Tests 

5.1.1 Abriss Testtheorie 


Entscheidung zwischen Alternativen ist zu treffen 

zur Verfügung stehen Beobachtungen 

Voraussetzung: die Beobachtungen sind entweder gemäß 

(einem Element) der Hypothese (Nullhypothese) oder 

(einem Element) der Hypothese (Alternative) verteilt 

5.1.1 (b) Typen von Tests 

Zahl d. Elemente in Hypothese: einfach zusammengesetzt 

 

Art der Hypothese: parametrisch nichtparametrisch 

 



Matthias Kohl 




432

“Richtung” der Hypothese: einseitig zweiseitig 

bei diskreten Verteilungen: randomisiert nicht–randomisiert 

nach Stichprobenumfang: exakt asymptotisch 

nach Art der Beobachtungen: Ein– Zwei–Stichprobentest 

5.1.1 (c) Güte von Tests 

Fehlertypen: Fehler erster und zweiter Art (– und –Fehler) 

Verlustfunktion: Kombination — 

unter Schranke an den Fehler erster Art 

(Signifikanzniveau; ausgewertet über ganz ) 

Fehler zweiter Art minimieren 

(bzw. Macht maximieren; ausgewertet über ganz ) 

bei zwei– oder mehrseitigen Tests: Unverfälschtheit, 

i.e. Fehler zweiter Art nie über 

 

– und –Fehler simultan durch größere Stichprobe verringerbar 

 



Matthias Kohl 




433

5.1.1 (d) optimale Tests 

naheliegend: Finde diejenige Menge, auf der sich die 

unterstellten Maße gemäß bzw. maximal unterscheiden. 

interessant: Verteilung der Dichtequotienten (DQ) 

Neyman–Pearson–Lemma für einfach gegen einfach 

Test vom Neyman–Pearson–Typ: 

mit Teststatistik/Prüfgröße ergibt sich 

(ohne Randomisierung) 

 

 

 

 

falls ablehnen 

falls nicht ablehnen 

mit dem kritischen Wert — natürlich je nach Kontext auch 

mit “ ” 

 



Matthias Kohl 




434

Ist die Realisation von , so heißt die ZV 

p-value und gibt das Signifikanzniveau an, zu dem der Test 

gerade noch ablehnen würde. 

bei monotonen DQ’s: Übertragung der Optimalitätsaussage auf 

einseitige / unter Unverfälschtheit zweiseitige Tests 

i.a. nur asymptotische Aussagen möglich ( ZGWS, 

Normalverteilung und abgeleitete Verteilungen) 

um Signifikanzniveau voll auszuschöpfen: bei diskreter 

Prüfgrößenverteilung Verbesserung der Macht durch 

randomisierte Entscheidung 

weitere Prinzipien (Stochastik II): Suffizienz, Invarianz 

 

 



Matthias Kohl 




435

5.1.2 Gaußtest–Einstichprobenfall 

Modell: 

unbekannt 

 

, , bekannt, 

Hypothesen: (analoges auch mit “” “”) 

– 

– 

– 

Prüfgröße: , , (einseit. ) bzw. (zweiseit. ) 

Kritischer Wert: 

Zweistichprobenfall analog — ebenfalls mit Gaußscher 

Prüfgrößenverteilung 

Umsetzung in R: so nicht implementiert; 

Ausweg: explizite Berechnung von als 

 

ccrit qnorm(alpha,mean=mu0,sd=sigma/sqrt(n)) 

 



Matthias Kohl 




436

5.1.3 -Test für Mittelwert 

Modell: 

 

 

, , 

– Einstichprobenfall: unbekannt, unbekannt, 

– Zweistichprobenfall: dazu sto. unabh. 

, unbekannt 

Hypothesen: (analoges auch mit “”“”) 

– 

– 

– 

Prüfgrößen: 

– Einstichprobenfall: 

£ einseitiges : 

 

 

 

mit 

 

 

, 

 

 

, 

 



Matthias Kohl 




437

£ zweiseitiges : 

– Zweistichprobenfall: 

£ einseitiges : 

 

 

 

 

 

 

mit , den entspr. an bzw. ausgewerteten 

Statistiken, 

£ zweiseitiges : 

Kritischer Wert: bzw. 

Umsetzung in R: in Paket ctest: ( classical tests) als t . test 

bzw. pairwise . t . test 

 



Matthias Kohl 




438

5.1.4 -Test für Varianzen 

 

Modell: , , unbekannt, 

bekannt oder unbekannt 


– 

– 

– 

Prüfgröße: 

– bekannt mit 

 

 

, 

– unbekannt , 

Kritischer Wert: , bzw. oberer und unterer Wert im 

zweiseitigen Fall; 

Umsetzung in R: so nicht implementiert; Ausweg: explizite 

Berechnung von für als ccrit qchisq(alpha,df=m) 

 



Matthias Kohl 




439

5.1.5 -Test für Varianzen 

 

Modell: , , dazu unabhängig, 

 

, , unbekannt, bekannt 

oder unbekannt (hier unbekannt) 


– 

– 

Prüfgröße: 

, 

Kritischer Wert: , bzw. oberer und unterer 

Wert im zweiseitigen Fall; 

Umsetzung in R: in Paket ctest: als var . test 

 



Matthias Kohl 




440

5.1.6 Binomialtest — Einstichprobenfall 

Modell: 

 

, , unbekannt 


– 

– 

Prüfgröße: Treffer, 

Kritischer Wert: , bzw. oberer und unterer 

Wert im zweiseitigen Fall; 

Umsetzung in R: in Paket ctest: als binom.test 

asymptotisch auch in R: in Paket ctest: als prop. test 

 

 



Matthias Kohl 




441

5.1.7 exakter Test von Fisher — 

Zweistichprobenfall 

Modell: , , dazu unabhängig, 

 

, , unbekannt 

 

 


– 

– 

Prüfgröße: Treffer in Treffer in , 

 

Kritischer Wert: , bzw. oberer und 

unterer Wert im zweiseitigen Fall; 

Umsetzung in R: (mit entsprechenden Identifikationen) in Paket 

ctest: als fisher . test 

 

asymptotisch auch in R: in Paket ctest: als prop. test 

 



Matthias Kohl 




442

5.1.8 graphische Anpassungstests 

Modell: 

Hypothese: 

 

, 

 

bzw. 

 

graphische Überprüfung durch Plotten der Funktion 

 


gute Anpassung 

Umsetzung in R: qqnorm bzw. qqplot; Einzeichnen der 

Winkelhalbierenden durch qqline 

 

 



Matthias Kohl 




443

R–Beispiel 5.1-1 [Graph. Test mit synthetischen Daten]: 

# 200 Daten aus t5 

y r t (200 , df = 5) 

# V e r g l e i c h mit N o r m a l v e r t e i l u n g 

qqnorm ( y ) 

# z u s a e t z l i c h d i e L i n i e t| >t e i n g e t r a g e n 

q q l i n e ( y , c o l = 2) 

 

 



Matthias Kohl 




444



Matthias Kohl 




445

5.1.9 Shapiro–Wilk Normalverteilungstest 

— siehe auch 

http://www.itl.nist.gov/div898/handbook/prc/section2/prc213.htm 

Modell: 

 

 

, 

Hypothese: 

 


, liegt tabelliert vor 

Kritischer Wert: liegt tabelliert vor; 

Umsetzung in R: in Paket ctest: als shapiro . test 

 



Matthias Kohl 




446

5.1.10 Kolmogoroff(–Smirnoff)–Test 

 

Modell: , , unbekannt, bekannt 

oder dazu unabhängig, 

und unbekannt , 

 

, 

Hypothese: 

(as.) Prüfgröße: 

– bekannt : 

 

 

 

 

 

 

 

, liegt tabelliert vor; 

– unbekannt : 

 

 

 

 

 


 

Umsetzung in R: in Paket ctest: als ks. test 

 



Matthias Kohl 




447

5.1.11 –Anpassungstest 

 

Modell: , , 

unbekannt, Kategorien “”, ,“” 

Bemerkung: entsteht auch durch Diskretisierung einer beliebigen 

Verteilungsfunktion , indem wir die Realisationen von 

klassieren 

Hypothese: 

 

 


 

– 

Kritischer Wert: 

 

 

¨ “” in © 

 

 

Umsetzung in R: in Paket ctest: als chisq . test 

 

, 

 



Matthias Kohl 




448

5.1.12 Wilcoxon–Rangtest 

Modell: , , unbekannt, 

oder dazu unabhängig, 

und unbekannt 

 

, , o.E. , 

Hypothesen: 

 

– ist sym. um ist nicht sym. um 

– bei Paarung : 

ist symmetrisch um 

ist nicht symmetrisch um 

– haben selbes “Zentrum” 

haben nicht selbes “Zentrum” 

Prüfgröße: 

– positive negative , liegt 

tabelliert vor; 

 



Matthias Kohl 




449

– positive negative , 

liegt tabelliert vor; 

 

– in , liegt 

tabelliert vor; 


Umsetzung in R: in Paket ctest: als wilcox . test 

5.1.13 Korrelationstest 

Modell: 

, , 

Hypothese mit 

einem geeignetem Korrelationskoeffizienten, z.B. 

– klassischer Korrelationskoeffizient : 

 

 

 

 

 



Matthias Kohl 




450

– Kendall’s : 

 

 


 

 

 

 

Sei . Dann ist 

 

 

 

 

– Spearman’s : 

mit in, in gilt: 

 

 

 

 

 


, liegt tabelliert vor; 

Umsetzung in R: in Paket ctest: als cor. test 

 



Matthias Kohl 




451

5.2 Schätzen eines Parameters 

5.2.1 Abriss der klassischen Schätztheorie 


parametrisches Modell: 

eine Familie von W-Maßen auf bzw. 

parametrisiert durch Parameter aus einer offenen Menge 

¢ : ¢ 

, 

zur Verfügung stehen Beobachtungen 

 

 

Aufgabe: Schätzung von , einer Funktion ¢ 

 

durch 

messbare Funktionen 

 



Matthias Kohl 




452

5.2.1 (b) Typen von Schätzern 

Angabe einer möglichst “genauen” (zufälligen!) Näherung für 

Punktschätzung 

Angabe einer möglichst “kleinen” (zufälligen!) 

Intervalls/Bereichs der mit gegebener WS einfängt 

Intervall–/Bereichsschätzung resp. Konfidenzintervalle 

Bayes–Schätzung 

– Bewertung der Wahrscheinlichkeit der verschiedenen ’s vor 

Kenntnis der à priori Verteilung, 

– Auffassen von als bedingte Wahrscheinlichkeit gegeben , 

– mit erstellen der à posteriori Verteilung für 

gegeben 

– Schätzung von durch Erwartungswert dieser à posteriori 

Verteilung 

 



Matthias Kohl 




453

5.2.1 (c) Schätz–Methoden für Punktschätzer 

Momentenmethode 

Maximum–Likelihood–Prinzip 

M–Schätzer (Nullstellen einer M–Gleichung) 

L–Schätzer (Linearkombinationen von Ordnungsstatistiken) 

R–Schätzer (Schätzer basierend auf Rängen) 

Schätzer durch Bootstrap 

5.2.1 (d) Schätz–Methoden für Bereichsschätzer 

exakte Konfidenzintervalle mit Quantilsfunktion 

approximative Konfidenzintervalle mit 

Tschebyscheff–Ungleichung 

 

approximative Konfidenzintervalle durch Normalapproximation 

 



Matthias Kohl 




454

5.2.1 (e) Güte von Schätzern 

Konsistenz: Gilt stochastisch / fast sicher? 

Unverzerrtheit: Gilt für alle ? 

Bemessung der Abweichung von zu durch 

Verlustfunktion, z.B. ¡ 

Gütekriterium: Risiko, i.e. erwarteter Verlust, z.B. MSE, ist zu 

minimieren Effizienz 

Konzentration der vorhandenden Information Suffizienz 

Wahrung von Invarianzeigenschaften des Modells Äquivarianz 

5.2.1 (f) optimale Schätzer 

Cramér–Rao–Schranke für die Varianz 

oft: Maximum Likelihood Schätzer (MLE) erreicht Schranke 

(zumindest asymptotisch) 

bei Beschränkung auf unverzerrte Schätzer: Prinzip “UMVU” 

 

bei Beschränkung auf lineare, unverzerrte Schätzer: Prinzip 

“BLUE” 

 



Matthias Kohl 




455

5.2.2 Schätzen eines Parameters in R 

5.2.2 (a) “direkte Programmierung” 

Situation: MLE explizit analytisch zu ermitteln und auch 

Verteilung ist bekannt 

dann: einfaches Verwenden der Routinen in R, z.B. mean, IQR, 

bzw. zur Genauigkeit pbinom, qnorm, .... 

Beispiel — vgl. auch Blatt 8, Aufgabe A.8.1 

– 

– Lösung: , also mean 

mit 

 

 

 

, bekannt, gesucht 

– Angabe von –Konfidenzintervallen durch 

¦ qnorm 

Beispiel in R — Schätzung von in , falls unbekannt 

 

und 

 

gilt 

 

 

 



Matthias Kohl 




456

R–Beispiel 5.2-1 [“direkte Programmierung”]: 

X rnorm ( 2 0 ) 

# ML S c h a e t z e r : mean (X) , v a r (X) 

mmean (X ) ; V v a r (X) 

# G e n a u i g k e i t ? 

n l e n g t h (X) 

sn1 ( n/ ( n 1)£V)^0.5 

t1 qt ( 0 . 9 7 5 , df=n 1)/ s q r t ( n ) £ sn1 

cat ( " M i t t e l w e r t ␣ d e r ␣ e r s t e n ␣ S t i c h p r o b e ␣ w i r d ␣ mit " , 

Xbo s o r t (Xb) 

"95%␣Ws␣ e i n g e f a n g e n ␣ durch ␣ [ " , 

# mit B o o t s t r a p 

Xb numeric (1000) 

f o r ( i i n 1 : 1 0 0 0 ) 

m1 t1 , " , " ,m1+t1 , " ] \ n" ) 

Xb [ i ] mean ( sample (X, r e p l a c e=T) ) 

 



Matthias Kohl 




457

# 

cat ( " M i t t e l w e r t ␣ d e r ␣ e r s t e n ␣ S t i c h p r o b e ␣ w i r d ␣ mit " , 


Xbo [ 2 5 ] , " , " , Xbo [ 9 7 5 ] , " ] \ n" ) 

5.2.2 (b) numerische Optimierung 

Angabe der Likelihood als Funktion in ¢ möglich, 

aber: 

– Likelihood nicht glatt in 

– keine analytische Angabe des (globalen) Maximums möglich 

Auswertung auf Gitter und Nutzung von which.max 

– Beispiel: Blatt 8, Aufgabe A.8.2, sowie: 

Schätzung der Freiheitsgrade einer -Verteilung durch ML 

R–Beispiel 5.2-2 [Gittersuche]: 

y r c h i s q (20 , df =4) 

 



Matthias Kohl 




458

d f t r y 1 : 4 0 # G i t t e r p u n k t e 

l i k e l i h o o d numeric ( 1 : 4 0 ) 

f o r ( i i n 1 : 4 0 ) 

l i k e l i h o o d [ i ] prod ( d c h i s q ( y , df=d f t r y [ i ] ) ) 

d f e d f t r y [ which . max( l i k e l i h o o d ) ] 

#G e n a u i g k e i t mit B o o t s t r a p 

d f e b numeric (1000) 

f o r ( i i n 1 : 1 0 0 0 ) 

{ yb sample ( y , r e p l a c e=T) 

f o r ( j i n 1 : 4 0 ) 

l i k e l i h o o d [ j ] prod ( d c h i s q ( yb , df=d f t r y [ j ] ) ) 

d f e b [ i ] d f t r y [ which . max( l i k e l i h o o d ) ] } 

dfebo s o r t ( d f e b ) 

cat ( " wahre ␣ Zahl ␣ d e r ␣ F r e i h e h e i t s g r a d e ␣ w i r d ␣ mit " , 


dfebo [ 2 5 ] , " , " , dfebo [ 9 7 5 ] , " ] \ n" ) 

 



Matthias Kohl 




459

oder aber: 

– Parameter ist mehrdimensional 

– Nutzung der R–Funktionen optim oder optimize 

5.2.2 (c) numerisches Lösen von Gleichungen 

wie im vorigen Abschnitt, nur Likelihood glatt in und 

Finden des Maximums mit differentiellen Methoden als Nullstelle 

allgemeiner: bei Verwendung von M–Schätzern stößt man 

meistens auf nicht explizit lösbare Nullstellenprobleme 

Lösung von £ bzw. in 

mit R–Funktion uniroot 

Beispiel: Blatt 8, Aufgabe A.8.3 (a), sowie: 

numerisches Lösen der ML-Gleichung im Fall 

 

 

Es gilt £ £ und £ 

 



Matthias Kohl 




460

R–Beispiel 5.2-3 [Maximierung mit uniroot]: 

x c ( 2 . 9 4 2 , 2 . 7 6 4 , 2 . 0 0 7 , 1 . 1 9 2 , 4.989 , 1 . 8 1 2 , 

2 . 8 9 4 , 1 . 1 7 9 , 2 . 5 5 9 , 1 . 4 7 8 , 54.0169 , 

1 . 3 8 2 ) 

Lambda f u n c t i o n ( theta , y ) 

{sum ( ( y t h e t a ) /(1+(y t h e t a )^2))} 

h e l p ( u n i r o o t ) 

u n i r o o t ( Lambda , low= 20,up=20, 

f o r ( i 

 

i n 1 : 1 0 0 0 ) 

t o l =1e 10, y=x , m a x i t e r =20) 

#Z u g r i f f a u f NS mit $ r o o t 

u n i r o o t ( Lambda , low= 20,up=20, t o l =1e 10, 

y=x , m a x i t e r =20)$ r o o t 

#G e n a u i g k e i t mit B o o t s t r a p 

thb numeric (1000) 

{ xb sample ( x , r e p l a c e=T) 

 



Matthias Kohl 




461

thb [ i ] u n i r o o t ( Lambda , low= 20, 

thbo s o r t ( thb ) 

Bestimmung durch Bootstrap 

up=20, t o l =1e 10, y=xb , 

m a x i t e r =20)$ r o o t } 

cat ( " wahrer ␣ Parameter ␣ t h e t a ␣ w i r d ␣ mit " , 


thbo [ 2 5 ] , " , " , thbo [ 9 7 5 ] , " ] \ n" ) 

5.2.2 (d) Schätzgenauigkeit / Konfidenzintervall 

direkte Bestimmung (wie in Abschnitt 5.1.2.(a)) 

theoretische Bestimmung mit Normalapproximation 

 



Matthias Kohl 




462

5.2.3 Robuste Parameterschätzung in R 

5.2.3 (a) ein einführendes Beispiel 

Schätzung der Lokation unter Ausreißern 

Situation: –dimensionale Beobachtungen 

(ideales) Modell: , unbekannt, 

 

Kontaminations–Situation: , 

unbekanntes und unkontrollierbares Maß 

 

konkret: , , ¦, ¦ , bekannt, unbekannt 

klassisch optimales Verfahren: 

unter Ausreißern: unbeschränkte Auslenkung! 

 

 

typische Anwender–Strategie: Verwerfe alle Beobachtungen 

mit “groß” (Hard Rejection) 

 



Matthias Kohl 




463

Problem: Auch in den verworfenen Beobachtungen steckt 

Information über ! 

Alternative: ; verwertet alle 

Beobachtungen, viel stabiler als , aber auch viel mehr 

Beobachtungen nötig, um gleiche Effizienz zu erhalten 

(asympt.) Optimierungsproblem: finde ein Verfahren, das für 

den mittleren quadratischen Fehler (MSE), also 

für alle Situationen, auch die kontaminierten, 

minimiert 

Lösung hier: One–Step–Konstruktion 

 

 

 

dabei werden und aus impliziten Gleichungen berechnet 

(vgl. Übung) 

Interpretation als Pseudobeobachtungen: 

 

 

 

 



Matthias Kohl 




464

Interpretation der folgenden Grafik: 

– , , , M–Schätzer, 

 

– Ziffern: Beobachtungsindex 

– in grün: ideale Original–Beobachtungen, 

– in rot: kontaminierende Original–Beobachtungen, 

– in blau: Pseudobeobachtungen, 

– Kreise/Ellipsen: der äußere ist das Bild des inneren unter ; 

Punkte auf dem inneren Kreis werden längs gestrichelter Linien 

abgebildet 

– — falls nur ein “Transport”, sonst zuerst “Transport” mit 

dann Projektion auf Kreis mit Radius um 

 



Matthias Kohl 




465

0 1 2 3 4 5 

9 

9 

4 

2 

1 

4 3 

5 2 

1 

8 

10 13 14 

10 13 14 

7 

7 

511 

36 

6 

11 

15 

m MO 

C 

m 

W 

12 

12 

−2 −1 0 1 2 3 4 

15 

8 

 



Matthias Kohl 




466

5.2.3 (b) Begriffe der robusten Statistik 

qualitative Robustheit 

– Sind die Verfahren (gleichmäßig) stetig in der schwachen 

Topologie? 

d.h. konvergiert mein Schätzer stochastisch (ist konsistent) 

nicht nur für eine ideale Verteilung, sondern für alle 

Verteilungen, die in der “Nähe” dieser idealen Verteilung 

liegen? 

– dabei ist “nah” genau in dem Sinn zu verstehen, wie man 

sagt, dass im Zentralen Grenzwertsatz für – 

Beobachtungen die Verteilung von 

 

 

immer näher an liegt. 

– ist in diesem Sinn unstetig, der Median stetig, sofern er 

eindeutig ist 

 



Matthias Kohl 




467

Ausreißer, Kontamination, Umgebungen um ideales Modell 

Nachbarschaften um ein ideales Modell: 

– Abstand zu nicht größer als 

Abstandsbegriffe (Auswahl): 

£ Kolmogoroffabstand , 

£ Totalvariationsabstand , 

£ Hellingerabstand 

 

– Konvexkontaminationsumgbg / Gross Error Model: 

zu werden alle Maße von der Form 

simultan betrachtet, ein kontaminierendes Maß 

– Interpretation: mit Wahrscheinlichkeit wird die 

Zufallsvariable mit Maß ersetzt durch einen Ausreißer mit 

Verteilung/Maß 

– Radius steuert Grad der Robustheit 

 

– feststehende schrumpfende Umgebungen 

 



Matthias Kohl 




468

Bruchpunkt: 

 

– bei wieviel Prozent Kontamination kann der Schätzer 

zusammenbrechen? anschaulich: wieviele Beobachtungen 

können beliebig manipuliert werden, ohne dass der Schätzer 

gegen ¦ (bzw. Rand des Wertebereichs) getrieben werden 

kann 

– z.B. hat Bruchpunkt , Bruchpunkt 

 



Matthias Kohl 




469

Influenzkurve 

 

– Ableitungsbegriff für Schätzer / Funktionale 

– als Differentialquotient für ein Funktional 

 

– als mögliche Linearisierung: 

ein Schätzer (in einem glatten Modell) heißt asymptotisch 

linear in , falls es ein mit (5.2.1) und (5.2.2) 

gibt, so dass 

– Eigenschaften (5.2.1) und (5.2.2): 

(5.2.1) 

£ (5.2.2) 

dabei ist £ die –Ableitung von , die sich bei Glattheit 

bestimmt als 

; ein solches heißt Influenzkurve für 

in 

 



Matthias Kohl 




470

elative Effizienz 

– bei Verwendung von robusten Verfahren wird man im 

allgemeinen gegenüber dem klassisch optimalen Verfahren — 

oft durch Maximum Likelihood zu bestimmen — im idealen 

Modell asymptotisch einen Verlust an Effizienz eingehen, 

indem die (Spur der) Varianz größer sein wird als beim 

optimalen Verfahren 

– Anscombe: Betrachte diesen Effizienzverlust als 

Versicherungsprämie, der für einen Schutz gegen Ausreißer 

zu bezahlen ist 

– Beispiel: 

– Interpretation: um mit dem Median im idealen Modell die 

gleiche Genauigkeit wie mit dem arithmetischen Mittel zu 

erreichen, brauche ich mehr Beobachtungen 

 

 



Matthias Kohl 




471

5.2.3 (c) robuste Schätzer in einigen Beispielen 

Lokation — 

 

– klassisch optimal: 

 

, gesucht 

– am robustesten : (Bruchpunkt ) 

– minimiert maximalen MSE in einer 

–Kontaminationsumgebung für : 

, 

, 

, – auch erreichbar durch 

£ M–Schätzer: Nullstelle von 

 

£ L–Schätzer: getrimmtes Mittel mit 

£ R–Schätzer: auf Rängen basierender Schätzer 

 



Matthias Kohl 




472

IC IC IC IC IC 

−3 −3 −3 −3 −3 −2 −1 0 1 2 3 

1−Dim. Lokation: Influenzkurvenvergleich 

optimal robuste IC 

IC des Median 

IC des Mittelwertes 

−3 −2 −1 0 1 2 3 

u 

 



Matthias Kohl 




473

Skala — 

 

 

– klassisch optimal: 

, gesucht 

– am robustesten : MAD — ¨ © 

(Bruchpunkt ) 

– lokale asymptotisch nicht zu unterscheiden vom IQR, aber 

dieser hat Bruchpunkt 

– minimiert maximalen MSE in einer 

–Kontaminationsumgebung für : 

, , 

 

 

 

 

 

 



Matthias Kohl 




474

IC IC IC IC IC 

−1 0 1 2 3 4 

1−Dimensionale Skala: Influenzkurvenvergleich 

optimal robuste IC 

IC des MAD 

klassisch optimale IC 

−3 −2 −1 0 1 2 3 

u 

 



Matthias Kohl 




475

5.2.3 (d) robuste Verfahren in R 

Lokation/Skala: in Bibliothek MASS: huber, hubers 

Regression: in Bibliotheken MASS und lqs: rlm; verwendete / 

implementierte Verfahren: 

– Startschätzer: LTS (Least trimmed squares), S–Schätzer 

– –Funktionen: Huber–, Hampel– und Bisquare 

viel mehr (extra Bibliothek) in S-Plus 

5.2.3 (e) Literatur 

Einstieg: Huber (1977) 

weitergehend: Huber (1981), Hampel et al. (1986), Rieder 

(1994) 

 



Matthias Kohl 




476

6 numerische Algorithmen in 

S-Plus/R 

6.1 Interpolation 

6.1.1 Problemstellung 

gegeben eine Funktion auf einem –Gitter 

 

gesucht der Funktionswert an einer Stelle 

 

6.1.2 Methoden 

Polynominterpolation 

 

– Idee: Funktion verhält sich lokal wie ein Polynom 

 



Matthias Kohl 




477

– Tatsache: auf Kompakta liegen die Polynome dicht im 

, irgendein endliches Maß auf und 

– einfachstes Beispiel: lineare Interpolation 

gegeben , , ; 

Schätzung für durch 

 

– allgemein: Lagrange–Polynome 

für Stützstellen verwendet man die 

Lagrange–Polynome mit für 

und und erhält als interpolierendes Polynom 

— genaueres siehe Stoer (1999) 

rationale Interpolation 

– Idee: statt Polynomen zur Interpolation werden rationale 

Funktionen, i.e. Quotienten von Polynomen zur Interpolation 

verwendet 

 

– oft auch zur Modellierung einer Asymptotik für , 

 



Matthias Kohl 




478

falls diese vom Typ für ein 

Spline–Interpolation 

– möchte möglichst “glatt” durch die Interpolations–Punkte 

– “Glattheit” Größe der zweiten Ableitung Idee: minimiere 

 

unter allen interpolierenden Funktionen 

– Lösung: kubische Splines 

nicht -ige Datentreue 

– sind die Meßwerte nicht vollständig zuverlässig, kann man 

auch zu gunsten einer “einfacheren” (oder glatteren) 

Interpolationsfunktion zulassen, dass 

– führt auf kombinierte Datentreue / Glattheit (niedrige 

Ordnung) — Kriterien 

– Glättungskurven, Glättungssplines 

 



Matthias Kohl 




479

6.1.3 Gütekriterien 

generell Datentreue (zum Beispiel gemessen in ) 

bei Polynominterpolation: Einfachheit, also möglichst geringer 

Grad des interpolierenden Polynoms 

bei Splines: Glattheit gemessen in 

 

6.1.4 Vor– und Nachteile 

+ oft einfach zu bestimmen, einfacher als tatsächliche Funktion 

– prinzipiell schlecht bei Extrapolation 

? Behandlung von Bindungen — also mehrere Auswertungen an 

einer –Stelle 

 



Matthias Kohl 




480


Lineare / Konstante Interpolation: die Funktionen approx und 

 

approxfun 

– Syntax: 

approx(x, y, xout, method="linear", n=50, 

yleft, yright, rule = 1, f=0, 

ties = mean) 

approxfun(x, y, method="linear", 

yleft, yright, rule = 1, f=0, 

ties = mean) 

– Argumente 

£ x,y: Interpolationsgitter 

£ xout: (optional) Vektor mit Auswertungsstellen 

£ method: Interpolationsmethode — " linear " oder 

"constant" 

 



Matthias Kohl 




481

£ n: falls keine Auswertungsstellen in xout spezifiziert 

werden, wird auf einem äquidistanten Gitter von n im 

Intervall min(x),max(x) interpoliert 

£ yleft,yright: Wert der zurückgegeben wird, falls die 

Auswertungsstelle x kleiner (größer) als min(x) (max(x)) 

ist; per default durch das Argument rule festgelegt 

£ rule: legt fest, was als Extrapolationsverfahren verwendet 

werden soll; 1 NAs werden zurückgegeben, 2 wird der 

Gitterwert an der Gitterstelle zurückgegeben, die am 

nächsten zur Auswertungsstelle liegt. 

£ f: Falls method="constant" eine Zahl aus , die einen 

Kompromiss zwischen links– und rechtsstetiger 

Treppenfunktion angibt. Sind die Gitterwerte links und 

rechts der Auswertungsstelle y0 und y1, so wird 

y0£(1 f)+y1£f zurückgegeben. 

£ ties: Behandlung von Bindungen (nicht hier!) 

 



Matthias Kohl 




482

– Details 

£ Es werden nur vollständige Paare (x, y) zur Interpolation 

verwendet 

– Rückgabewert 

£ approx gibt eine Liste mit Komponenten x und y, zurück — 

die n Interpolationspunkte 

£ approxfun gibt eine Funktion zurück, die dann lineare / 

konstante Interpolation durchführt; zu einem gegebenen 

x–Vektor als Argument gibt diese (zurückgegebene) 

Funktion die entsprechenden Interpolationswerte zurück 

 



Matthias Kohl 




483

– 

 

R–Beispiel 6.1-1 [lineare/konstante Interpolation]: 

# G i t t e r d e r Fkt werte 

x 1 : 1 0 ; y rnorm ( 1 0 ) 

#P l o t d e r G i t t e r p u n k t e 

par ( mfrow = c ( 2 , 1 ) ) 

p l o t ( x , y , 

main = " approx ( . ) ␣and␣ a p p r o x f u n ( . ) " ) 

p o i n t s ( approx ( x , y ) , c o l = 2 , pch = "£" ) 

p o i n t s ( approx ( x , y , method = " c o n s t a n t " ) , 

c o l = 4 , pch = "£" ) 

# i n t e r p o l i e r e n d e Kurve / Konstante 

f approxfun ( x , y ) 

c u r v e ( f ( x ) , 0 , 10 , c o l = " g r e e n " ) 

p o i n t s ( x , y ) 

i s . f u n c t i o n ( f c approxfun ( x , y , 

method = " c o n s t " ) ) # TRUE 

 



Matthias Kohl 




484

c u r v e ( f c ( x ) , 0 , 10 , c o l = " d a r k b l u e " , 

add = TRUE) 

(kubische) Spline–Interpolation: die Funktionen spline und 

splinefun 

– Syntax: 

spline (x, y = NULL, n = 3*length(x), 

method = "fmm", xmin = min(x) 

xmax = max(x)) 

splinefun (x, y = NULL, method = "fmm") 

– Argumente 

£ x,y: Interpolationsgitter 

£ xout: (optional) Vektor mit Auswertungsstellen 

£ n: es wird auf einem äquidistanten Gitter von n im 

Intervall min(x),max(x) interpoliert 

£ method: Spline–Interpolationsmethode — "fmm", 

"natural" oder " periodic " 

 



Matthias Kohl 




485

#G i t t e r 

 

£ xmin,xmax: linker und rechter Endpunkt des 

Interpolationsbereichs 

– siehe auch 

£ Package splines 

£ Funktion smooth.spline im Package modreg 

£ Contributed Packages akima, cobs, gss, pspline 

– Rückgabewert 

£ spline gibt eine Liste mit Komponenten x und y, zurück — 

die n Interpolationspunkte 

£ splinefun ergibt wie approxfun eine Funktion 

– R–Beispiel 6.1-2 [kubische Spline–Interpolation]: 

#G r a p h i k v o r b e r e i t u n g 

op par ( mfrow = c ( 2 , 1 ) , mgp = c ( 2 , . 8 , 0 ) , 

mar = .1+ c ( 3 , 3 , 3 , 1 ) ) 

n 9 ; x 1 : n ; y rnorm ( n ) 

 



Matthias Kohl 




486

p l o t ( x , y , main = 

p a s t e ( " s p l i n e [ fun ] ( . ) ␣ through " , 

n , " p o i n t s " ) ) 

l i n e s ( s p l i n e ( x , y ) ) 

l i n e s ( s p l i n e ( x , y , n = 201) , c o l = 2) 

#e i n e g l a e t t e r e Funktion 

y ( x 6)^2 

p l o t ( x , y , main = " s p l i n e ( . ) ␣ ␣3␣ methods " ) 

l i n e s ( s p l i n e ( x , y , n = 201) , c o l = 2) 

l i n e s ( s p l i n e ( x , y , n = 201 , 

method = " n a t u r a l " ) , c o l = 3) 

l i n e s ( s p l i n e ( x , y , n = 201 , 

method = " p e r i o d i c " ) , c o l = 4) 

l e gend ( 6 , 2 5 , c ( "fmm" , " n a t u r a l " , " p e r i o d i c " ) , 

c o l =2:4 , l t y =1) 

f s p l i n e f u n ( x , y ) 

 



Matthias Kohl 




487

l s ( e n v i r = environment ( f ) ) 

s p l i n e c o e f e v a l ( e x p r e s s i o n ( z ) , 

e n v i r = environment ( f ) ) 

c u r v e ( f ( x ) , 1 , 10 , c o l = " g r e e n " , lwd = 1 . 5 ) 

p o i n t s ( s p l i n e c o e f , c o l = " p u r p l e " , cex = 2) 

par ( op ) 

6.2 numerische Invertierung 


gegeben eine monotone Funktion auf einem 

–Gitter 

zu einem vorgegebenen Funktionswert , 

ist die Stelle gesucht, so dass 

 

6.2.2 Methode 

vertausche und und verwende Interpolationsmethode 

 



Matthias Kohl 




488

6.3 Integration 


gegeben eine Funktion und ein Intervall 

gesucht 

 

 

 


Trapezverfahren, Simpsonverfahren 

Schrittweitenwahl 

Gaußintegration 

Extrapolationsverfahren 

 



Matthias Kohl 




489


die Funktion integrate 

 

– Syntax 

integrate (f, lower, upper,subdivisions=100, 

rel.tol = .Machine$double.epsˆ0.25, 

abs.tol = rel.tol, stop.on.error = T, 

keep.xy = FALSE, aux = NULL, ...) 

– Argumente 

£ f: eine R–Funktion , die als erstes Argument die 

Integrationsvariable x hat und als Rückgabewert einen 

Vektor derselben Länge wie x; bei Rückgabe von ¦ 

Fehler 

£ lower, upper: Integrationsgrenzen; 

dürfen unendlich sein 

£ subdivisions: Maximalzahl an Gitterpunkten 

£ rel.tol, abs.tol: relative / absolute geforderte 

Genauigkeit 

 



Matthias Kohl 




490

£ stop.on.error: (logisch) soll bei Fehlern abgebrochen 

werden (default) oder eine Warnmeldung herausgegeben 

werden? 

£ keep.xy, aux: nicht benutzt aus Kompatibilitätsgründen 

mit S 

£ ...: weitere Argumente für f 

– Details 

£ ist mindestens eine der beiden Grenzen unendlich, wird das 

unbegrenzte Intervall auf ein begrenztes abgebildet 

£ implementiert ist ein global adapitives (Schrittweitenwahl!) 

Verfahren zusammen mit einer Extrapolationstechnik 

£ basiert auf QUADPACK–Routinen dqags und dqagi von R. 

Piessens und E. deDoncker-Kapenga, aus der 

Netlib–Bibliothek 

£ rel . tol kann nicht weniger als 

max(50£.Machine$double.eps, 0.5e 28) sein, sofern 

abs. tol

– Rückgabewert: eine Liste vom Typ/Klasse "integrate" mit 

Attributen 

£ value: numerische Näherung für das Integral 

£ abs.error: Abschätzung für den Betrag des absoluten 

Fehlers 

£ subdivisions: tatsächliche Zahl an Stützstellen 

£ message: "OK" oder eine Warnmeldung 

£ call: der Funktionsaufruf 

 



Matthias Kohl 




492

die Funktion adapt aus dem CRAN–Paket adapt 

– integriert eine Funktion über ein -dimensionales 

Rechteck , also ´, wobei ; 

– unbeschränkte Intervalle sind nicht erlaubt 

– Syntax 

adapt(ndim, lower, upper, minpts = 100, 

maxpts = NULL, functn, eps = 0.01, ...) 

– Argumente 

– Details 

£ ndim: – die Dimension des Integrationsbereichs 

£ lower, upper: Vektoren der Länge ndim mit den unteren 

(oberen) Integrationsgrenzen 

£ minpts, maxpts: minimale / maximale Zahl an 

Stützstellen; maxpts per default NULL 

£ functn: Integrand; siehe Parameter f in integrate 

£ eps: gewünschte Genauigkeit für den relativen Fehler 

£ ...: weitere Übergabeparameter für functn 

 



Matthias Kohl 




493

£ modifizierter Code von Mike Meyer’s S Code; rufen eine 

FORTRAN subroutine von A.C. Genz auf 

£ die Original FORTRAN Funktion ist zur Kompatibilität mit 

R auf doppelte Genauigkeit modifiziert 

£ arbeitet nur für oder mehr Dimensionen, in einer 

Dimension wird integrate aufgerufen 

£ indem man maxpts auf NULL setzt, verdoppelt adapt 

beginnend mit max(minpts,500, r(ndim)) in jedem 

Schritt maxpts, bis die gewünschte Präzision erreicht ist 

oder der Speicher nicht mehr ausreicht; 

 



Matthias Kohl 




494

– man beachte, dass die Zahl der nötigen Gitterpunkte 

typischerweise exponentiell mit der Dimension ndim wächst 

und der zugrundeliegende Code mindestens maxpts >= 

r(ndim) verlangt, wobei 

– Rückgabewert: eine Liste vom Typ/Klasse "integration" 

mit Attributen 

£ value: numerische Näherung für das Integral 

£ relerr: Abschätzung für den relativen Fehler; 

£ minpts: tatsächliche Zahl der Stützstellen 

£ ifail: Fehlerindikator; fall ifail nicht 0 ist, gibt es einer 

Warnung 

 



Matthias Kohl 




495

6.4 Lösen von Gleichungssystemen II 


Gegeben Gleichungen (über ) in Unbekannten 

und vorgegebene rechte Seite 

gesucht mit 


Spezialfall: linear gegeben als ; 

in R x0solve(A,b) 

– im allgemeinen mit QR oder SVD–Zerlegung 

– spezielle Verfahren für strukturiertes 

£ (band–)diagonal 

£ obere Dreiecksmatrix 

£ dünn besetzt 

– in R: das Contributed Package Matrix 

 



Matthias Kohl 




496

stochastische Suche: 

ziehe zufällig zulässige –Werte und wähle das mit 

minimalem 

 

? Frage: mit welcher W-keit? 

+ sehr einfach zu realisieren, keine Struktur nötig 

+ Konsistenz: mit beliebig hoher W–keit komme ich schließlich 

dem wahren (so es existiert) bis auf ein vorgegebenes 

nahe 

– sehr langsam 

– keine determistische Lösung 

– Variante: die Ziehungswahrscheinlichkeit sich um die bisher 

besten Werte konzentrieren lassen 

? mit welcher Rate? 

£ Schlagworte: Sintflut–Algo, Simulated Annealing, 

genetische Algorithmen 

 



Matthias Kohl 




497

ei Monotonie und : Bisektion 

[-1] finde Startintervallgrenzen und 

bestimme Abbruch–, Maxzahl an Iterationen 

[0] setze , 

[1] , , , 

[2] falls steigt: falls , sonst 

falls steigt: falls , sonst 

[3] gehe zu solange und 

+ sehr einfach zu realisieren 

+ geometrische Konvergenz (Intervalllänge wird exponentiell — 

aber mit fester Rate kürzer) 

– lokal gibt es u.U. bessere Verfahren 

– klebt an der Monotonie 

 



Matthias Kohl 




498

ei Glattheit: Newtonverfahren 

[-1] Bestimme ; finde Startwert ; 

bestimme Abbruch–, Maxzahl an Iterationen , — evtl. 

Schrittweiten–Begrenzung 

[0] setze , 

[1] , , , 

 


+ lokal quadratische Konvergenz (unglaublich schnell!) 

– ab wann sind wir “lokal”? 

– unter Umständen sehr instabil (für ) 

– benötigt Ableitung 

 

 



Matthias Kohl 




499

ei Kontraktion: Fixpunktverfahren 

– dazu: 

– gesucht mit 

– falls bzw. im eindimensionalen 

( Kontraktion) in einer Umgebung 

von und Startwert so, dass die Folge der nie diese 

Umgebung verlässt, herrscht Konvergenz — Banachscher 

Fixpunktsatz 

[-1] finde Startwert ; 


[0] setze , 

[1] , , , , 


genügt entsprechende Lipschitzbedingung 

 



Matthias Kohl 




500

! besser als Bisektion, falls 

+ geometrische Konvergenz — sofern in 

bleiben 

+ benötigt keine Monotonie, funktioniert auch mehrdimensional 

+ benötigt keine Ableitung — nur lokale Lipschitzbedingung an 

 

– wann ist das der Fall? 

– u.U. auch langsamer als Bisektion 

– lokal gibt es u.U. viel bessere Verfahren 

6.4.3 Literatur 

Press et al. (1992) 

Stoer (1999) 

 



Matthias Kohl 




501


uniroot 

polyroot 

siehe auch Abschnitt “Zero–Finding”, im Manual “Writing 

R–Extensions”, pp40–41 

Schnittstelle zu den Numerical Recipes (Press et al. (1992)): 

http://lib.stat.cmu.edu/S/recipes 

6.5 Minimierung 


Gegeben eine Funktion 

gesucht mit 

 



Matthias Kohl 




502

6.5.2 Klassen von Problemen 

Definitionsbereich 

– diskret kontinuierlich 

– Dimension 

– Restriktionen: mit oder ohne Nebenbedingungen 

£ Gleichheitsnebenbedingungen 

£ Ungleichheitsnebenbedingungen 

Funktion 

– konvex oder nicht 

– differenzierbar oder nicht 

– unimodal oder nicht 

– speziell: linear oder quadratisch? 

 

 



Matthias Kohl 




503

Optimierungstechniken 

 

– kombinatorische Optimierung 

£ Branch and Bound/Cut 

£ stochastische Techniken 

– Lineare Optimierung 

£ Simplex–Algorithmus 

£ graphentheoretische Algorithmen 

– Quadratische Optimierung 

– glatte, konvexe Optimierung 

£ globale Optimierung 

¡ stochastische Techniken 

¡ gemischt stochastisch – deterministisch 

£ lokale Optimierung 

¡ Differentielle Argumente 

¡ diff–bare Lagrangetechniken 

 



Matthias Kohl 




504


Minimierung auf Gitter 

– “Brute Force” — sehr langsam 

+ sehr leicht durchzuführen 

+ keine Ableitungen nötig 

? wie repräsentativ ist das Gitter? 

stochastische Suche 

– Eigenschaften siehe entsprechender Punkt bei Gleichungen 

bei Bitonie und : 

spezielles “Bisektions”–Verfahren — 

das “Goldener–Schnitt–Verfahren” 

[-1] Setze 

 

und suche Startintervall , 

, so dass ; 


[0] setze , , setze ; 

 



Matthias Kohl 




505

[1] , 

falls setze , 

sonst ; , ; 

 

[2] falls : falls : , , 

, sonst , 

 

falls : falls : , , 

, sonst , 


 

 

 



Matthias Kohl 




506

+ sehr einfach zu realisieren 

+ geometrische Konvergenz (Intervalllänge wird exponentiell — 

aber mit fester Rate kürzer) 

– lokal gibt es u.U. bessere Verfahren 

– klebt an der Bitonie 

im mehrdimensionalen: Trennung in Länge und Richtung 

– Line–Search (siehe oben) 

– Richtungssuche: 

£ steepest Descent (Gradienten–Verfahren) 

£ (modifiziertes) Newtonverfahren 

£ cg–Verfahren 

bei Glattheit: Lösungsverfahren für 

 

aus 

Abschnitt 5.2.2 (c) 

 



Matthias Kohl 




507

6.5.4 Literatur 

Press et al. (1992) 

Fletcher (1987), Luenberger (1969), 1984 

Geiger and Kanzow (1999), 2002 


optim 

nlm 

optimize 

Schnittstelle zu den Numerical Recipes (Press et al. (1992)): 

 

http://lib.stat.cmu.edu/S/recipes. 

 



Matthias Kohl 




508

6.6 sich selbst verändernde Programme 

Idee: lasse während des Ablaufs des Programms durch dieses 

R–code produzieren, der dann später abgearbeitet wird 

R–Beispiel 6.6-1 eval und parse: 

# 

 

Code: hier 

m 10 

n 21 

############################ 

# 

### D i c h t e d e r m+1. O r d n u n g s s t a t i s t i k 

## 

### b e l i e b i g e V e r t e i l u n g , zB : FUN="norm " , " c h i s q " , 

d i c h t e f u n c t i o n (FUN=stop ( " k e i n e ␣ Funktion " ) , 

 



Matthias Kohl 




509

# 

n=stop ( " k e i n ␣n" ) , 

x=stop ( " k e i n ␣ Argument " ) , . . . ) 

#Beachte Funktion kann mit z u s a e t z l i c h e n 

#Parametern wie d f f u e r c h i s q auf 

#g e r u f e n werden ! 

# 

#b e r e c h n e t zu " b e l i b i g e m " F ( aus e i n e r 

#d e r i m p l e m e n t i e r t e n V e r t e i l u n g s k l a s s e n ) 

#f_{ i : n} 

# 

# 

#FUN: S t r i n g mit Funktionsnamen 

#n : Umfang d e r S t i c h p r o b e (=2m+1) 

#x : 

 

A u s w e r t u n g s s t e l l e ( n ) d e r D i c h t e 

# . . . : w e i t e r e Argumente , 

# z . B . d f f u e r c h i s q 

 



Matthias Kohl 




510

# 

#Rueckgabewert f_{m+1:2m+1}(x ) 

# 

{ i f ( n%%2==0) stop ( " nur ␣ u n g e r a d e s ␣n" ) 

m n%/%2+1 

#Berechnung von i ( n choose i ) 

C0m£gamma( n+1)/gamma(m+1)/gamma(m) 

#Berechnung von F( x ) , f ( x ) 

e v a l ( p a r s e ( t e x t= 

p a s t e ( " f 1 p" ,FUN, " ( q=x , . . . ) " , sep="" ) ) ) 


p a s t e ( "d1 d" ,FUN, " ( x=x , . . . ) " , sep="" ) ) ) 

d i C0£ f 1 ^(m 1)£(1 f 1 )^(m 1)£d1 

r e t u r n ( d i ) 

 



Matthias Kohl 




511

} 

# 

### I n t e g r a n d e n f u e r E [ Median ] , 

## Var [ Median ] 

## 

### b e l i e b i g e V e r t e i l u n g , 

## zB : FUN="norm " , " c h i s q " 

# 



#x : A u s w e r t u n g s s t e l l e ( n ) d e r D i c h t e 



# 

#Rueckgabewert 

 

x^ i f_{m+1:2m+1}(x ) , 

#i =1,2 

 



Matthias Kohl 




512

# 

d i x f u n c t i o n ( x ,FUN=stop ( " k e i n e ␣ Funktion " ) , 

n=stop ( " k e i n ␣n" ) , . . . ) 

{ r e t u r n ( x£ d i c h t e ( x=x ,FUN=FUN, n=n , . . . ) ) } 

d i x 2 f u n c t i o n ( x ,FUN=stop ( " k e i n e ␣ Funktion " ) , 

n=stop ( " k e i n ␣n" ) , . . . ) 

{ r e t u r n ( x^2£ d i c h t e ( x=x ,FUN=FUN, n=n , . . . ) ) } 

### V e r g l e i c h von t a t s a e c h l i c h e r D i c h t e und 

### D i c h t e d e r as . NV 

## s o w i e t a t s a e c h l i c h e r und a s y m p t o t i s c h e r 

## V a r i a n z 

## 


## 

 

zB : FUN="norm " , " c h i s q " , . . . 

# 

d v g l f u n c t i o n (FUN=stop ( " k e i n e ␣ Funktion " ) , 

 



Matthias Kohl 




513

# 


 

n=stop ( " k e i n ␣n" ) , 

x=stop ( " k e i n ␣ Argument " ) , . . . ) 



#x : A u s w e r t u n g s s t e l l e ( n ) d e r D i c h t e 



# 

#Rueckgabewert f ^{( asy )}_{m+1:2m+1}(x ) , 

# 

{ #l i n k e r und r e c h t e r I n t e g r a t i o n s Rand 


p a s t e ( " l i q" ,FUN, " ( . 0 0 2 5 , . . . ) " , sep="" ) ) ) 

p a s t e ( " r e q" ,FUN, " ( . 9 9 7 5 , . . . ) " , sep="" ) ) ) 

 



Matthias Kohl 




514

#Median von FUN, Med(F) 


p a s t e ( "q0 q" ,FUN, " ( . 5 , . . . ) " , sep="" ) ) ) 

#D i c h t e an d e r S t e l l e Med(F) 


p a s t e ( "d0 d" ,FUN, " ( q0 , . . . ) " , sep="" ) ) ) 

#a s y m p t o t i s c h e D i c h t e 

d i dnorm ( x , mean=q0 , sd=1/2/d0/ s q r t ( n ) ) 

#e x a k t e D i c h t e 

d i 0 d i c h t e (FUN=FUN, n=n , x=x , . . . ) 

#e x a k t e r 

 

E r w a r t u n g s w e r t von Med_21 

# numerisch i n t e g r i e r t 

me i n t e g r a t e ( dix , l i , re , 

 



Matthias Kohl 




515

#P l o t d e r Dichten 

FUN=FUN, n=n , . . . ) $ v a l u e 

#e x a k t e V a r i a n z von Med_21 

# numerisch i n t e g r i e r t 

va i n t e g r a t e ( dix2 , l i , re , 

FUN=FUN, n=n , . . . ) $ v a l u e me^2 

#A u f s k a l i e r u n g mit n 

van va £n 

#V e r g l e i c h mit n 

va . as (1 /2/d0 )^2 

p r i n t ( p a s t e ( " V a r i a n z e n : ␣" , van , 

" ( e x a k t ) " , va . as , " ( asymptot ) " ) ) 

matplot ( x , c b i n d ( di , d i 0 ) , t y p e=" l " ) 

 



Matthias Kohl 




516

} 

# 

r e t u r n ( d i ) 

### e i n i g e Auswertungen 

# 

x seq ( 3 ,3 ,0.03) 

d1 d i c h t e (FUN="norm" , n=21, x=x ) 

d2 d v g l (FUN="norm" , n=21, x=x ) 

# 

### e x a k t e s K o n f i d e n z i n t e r v a l l 

# m i n i m a l e r Laenge 

## 


 

# zB : FUN="norm " , " c h i s q " , . . . 

# 

 



Matthias Kohl 




517

#r e c h t e r Endpunkt b e i vorgegebenem l i n k e n 

# 

repKI f u n c t i o n (FUN=stop ( " k e i n e ␣ Funktion " ) , 

# 

n=stop ( " k e i n ␣n" ) , l i p = 30, 

itmax =40, d e l =10^( 8), a l p h a =0.05 , 

l l = 100, r r = 1 0 0 , . . . ) 



#l i p : l i n k e r Aufpunkt des KI ’ s 

#itmax : maximale Zahl an I t e r a t i o n e n 

#d e l : Abbruch e p s i l o n 

#a l p h a : 1 Ueberdeckungs WK des KI ’ s 

# l l : 

 

L i n k e r Rand d e r I n t e g r a t i o n 

#r r : R e c h t e r Rand d e r I n t e g r a t i o n 


 



Matthias Kohl 




518


# 

#Rueckgabewert : r e c h t e r Endpunkt des KI ’ s 

# 

{ 

# l i n k e r und r e c h t e r S t a r t p u n k t f u e r 

# B i s e k t i o n f u e r r e c h t e n Endpunkt 

me i n t e g r a t e ( dix , l l , r r , 


va i n t e g r a t e ( dix2 , l l , r r , 

r e l me 

# p r i n t ( c ( r e l , r e p ) ) 


r e r 9£ s q r t ( va)+me 

 



Matthias Kohl 




519

# B i s e k t i o n s a l g o 

i 0 

de d e l +1 

w h i l e ( ( i d e l ) ) 

{ rep0 ( r e l+r e r ) /2 

i i +1 

we i n t e g r a t e ( d i c h t e , l i p , rep0 , 

# p r i n t ( c ( i , we ) ) 


i f ( we

} 

#Test 

# 

repKI (FUN=" exp " , n=21, l l = 30, r r =30) 

#Bestimmung des KI m i n i m a l e r Laenge 

# 

K I l r f u n c t i o n (FUN=stop ( " k e i n e ␣ Funktion " ) , 

# 

n=stop ( " k e i n ␣n" ) , l i p = 30, 

#FUN: 

 

S t r i n g mit Funktionsnamen 

itmax =40, d e l =10^( 8), a l p h a =0.05 , 

s t e p=1/ 10^4 , l l = 100, r r =100 , 

l i r , l i l , . . . ) 


#l i p : S t a r t p u n k t f u e r l i n k e n Aufpunkt 

 



Matthias Kohl 




521

# 

 

# des KI ’ s 

#itmax : maximale Zahl an I t e r a t i o n e n 

#d e l : Abbruch e p s i l o n 

#a l p h a : 1 Ueberdeckungs WK des KI ’ s 

# l l : L i n k e r Rand d e r I n t e g r a t i o n 

#r r : R e c h t e r Rand d e r I n t e g r a t i o n 

# l i l : l i n k e s Ende des 

# L i n k e r Endpunkt G i t t e r s 

# l i r : r e c h t e s Ende des 


#s t e p : S c h r i t t w e i t e des 




#Rueckgabewert : l i n k e r und r e c h t e r 

# Endpunkt des KI ’ s 

 



Matthias Kohl 




522

# 

 

{me i n t e g r a t e ( dix , l l , r r , 


va i n t e g r a t e ( dix2 , l l , r r , 


i f ( ( m i s s i n g ( l i r ) ) | | ( m i s s i n g ( l i l ) ) ) 

{ l i r me 

l i l 6£ s q r t ( va)+me 

} 

p r i n t ( c ( l i l , l i r ) ) 

l a 15£ s q r t ( va ) 

rep0 6£ s q r t ( va ) 

i 0 

f o r ( l i i n seq ( l i l , l i r , s t e p ) ) 

{ r e o rep0 

rep0 repKI (FUN=FUN, n=n , l i p=l i , 

itmax=itmax , d e l=del , 

 



Matthias Kohl 




523

} 

# 

# 

 

} 

i i +1 

a l p h a=alpha , l l =l l , 

r r=r r , . . . ) 

p r i n t ( c ( i , l i , rep0 , la , 

l a o l a 

l a rep0 l i 

i f ( la >l a o ) 

qnorm ( . 9 7 5 ) £2£ s q r t ( va ) ) ) 

break 

r e t u r n ( c ( l i step , r e o ) ) 

### B e i s p i e l Auswertungen 

K I l r (FUN=" c h i s q " , n=21, l l = 30, r r =30, 

s t e p =.1 , df =3) 

 



Matthias Kohl 




524

K I l r (FUN=" exp " , n=21, l l = 30, r r =30) 

# 

Vorgehensweise: 

(a) Zusammensetzen des Befehls-Strings mit Stringbefehlen wie 

paste 

(b) diesen in eine ausführbare expression mit 

parse(text=) wandeln 

(c) die expression auswerten mit eval 

 



Matthias Kohl 




525

7 strukturierte Modelle 

7.1 Regressionsmodelle 

Situation: zwei Variablen und die irgendwie 

zusammenhängen; 

genauer: wird modelliert als Funktion von und weiteren 

unbeobachtbaren Größen 

Problem: Rekonstruiere den Zusammenhang von und 

Regressionsmodell: mit 

– Fehlern 

– Beobachtungen 

– Regressoren 

– Regressionsfunktion 

 

– der Statistiker “sieht” 

 



Matthias Kohl 




526

weitere nötige Spezifikationen 

– Fehlerverteilung — sind diese unabhängig, identisch 

verteilt? 

– stochastische deterministische Regressoren 

– Spezifikation einer Klasse aus der stammt — 

£ parametrische Regression 

¡ lineare Parametrisierung? 

£ nichtparametrische Regression 

¡ Glattheitsklasse 

¡ globale / lokale Bandweite 

7.1.1 Lineare Statistische Modelle 


Beachte: Nur die Parametrisierung ist linear, die Regressoren 

brauchen nicht linear einzugehen! 

 



Matthias Kohl 




527

7.1.1 (a) Modellformulierung 

Matrixform , mit , 

, , , 

mit Indizes 

Dabei ist / sind 

 

, 

die -te Beobachtung (abhängige Variable / Response) 

der Vektor der Regressoren (unabhängigen Variablen, 

Kovariate) zur -ten Beobachtung 

 

 

, 

 

und unabhängig von oder bekannt 

weiter sei bzw. 

 



Matthias Kohl 




528

Beispiel 7.1-2 [ein Regressionsmodell]: 

Wir wollen den hill–Datensatz aus R analysieren; 

Datenbestand: 

– Rekordzeiten zu verschiedenen Bergrennen 

– ¡ Wegstrecke des Rennens in Meilen 

– ¡ zu durchlaufende Höhenmeter 

Modell 

 

Faraway (2002), im WWW verfügbar!, 

 

 

weitere Referenz zu diesem Thema: 

Christensen (1996) 

 

 

 



Matthias Kohl 




529

7.1.1 (b) Formulierung in R 

Syntax: ˜ + .... + mit 

der Response–Variablen und , . . . , den 

Regressoren 

R–Beispiel 7.1-3 [das Modell aus Beispiel 7.1-2]: 


data ( h i l l s ) 

a t t a c h ( h i l l s ) 

h i l l s 

f ormula time~ d i s t+c l i m b 

f ormula 

per default wird ein –Achsenabschnitt mit eingepasst ( 

Regressor ) 

soll kein –Achsenabschnitt mit eingepasst werden, so gibt man 

dies durch Hinzufügen von -1 auf die rechte Seite der Formel an 

 



Matthias Kohl 




530

ei Faktoren (diskreten Regressoren) wird per default für jedes 

Faktorniveau ein neuer Parameter / neuer –Achsenabschnitt 

mit eingepasst 

innerhalb einer Formel: übliche arithmetische Ausdrücke möglich 

— z.B. für das lineare (!) Modell : 

Y˜pmin(X1,X2) 

polynomiale Fits durch poly(,), z.B. 

Y~poly(X,2) für 

um +, * arithmetisch zu interpretieren: verwende I; so fittet 

y~x+I(u^2+z) das Modell mit Regressoren und 

soll nur eine bestehende Formel t modifiziert werden, so kann 

man sowohl die linke als auch die rechte Seite der 

Modelldefinition durch . abkürzen update 

 

 



Matthias Kohl 




531

7.1.1 (c) kategorielle Merkmale und ANOVA 

Situation 

habe kategorielle Merkmale ( Faktoren) als Regressoren 

für lineares Modell sinnvoll: nur Regressoren 

Zahl der Faktoren “–fach–” oder “–Wege–”Design 

sehr viele Parameter: 

Hat man kategorielle Merkmale mit jeweils Ausprägungen, 

ergeben sich 

Parameter im “vollständigen” Design 

 

 



Matthias Kohl 




532

Versuchsplanung 

kann die Versuchsbedingungen beim Versuchs–Design wählen 

um nicht zu viele Regressoren zu erzeugen, selten das 

vollständige Design — Problem multiplikativer Designs 

Planung des Versuchs: Welche Effekte sollen modelliert werden? 

Arbeit mit Faktoren 

Einzel–, Kreuzeffekte und hierarchische Modelle 

– aus obengenanntem Dimensionsproblemen, beschränkt man 

sich darauf nur bestimmte Merkmalskombinationen zu 

betrachten 

– am häufigsten ordnet man jedem Merkmal einen Einzeleffekt 

zu — in R einfach durch Angabe der einzelnen Variablen 

durch + verbunden in der Formel 

– daneben aber auch Kreuz– oder Interaktionseffekte — z.B. 

Variable mit Variable , oder die Variablen ; 

 



Matthias Kohl 




533

dies geschieht in R durch Angabe der Variablengruppe, in der 

die Gruppenelemente durch : getrennt werden, z.B: X1:X4:X6 

– eine Abkürzung für X1+X4+X1:X4 ist X1£X4 

– schließlich ist es auch möglich mit Potenzen zu arbeiten — 

£ so bedeutet die Formel (1+a):(1+b):(1+c) 1 die Formel 

a+b+c+a:b+a:c+b:c+a:b:c 

£ und die Formel (a+b+c)^2 (a+b+c):(a+b+c) 

– sehr wichtige Technik zur Reduktion der Parametervielfalt: 

hierarchische (verschachtelte) Modelle 

£ Beispiel: angenommen eine kategorielle Variable ist 

Geschlecht; demgemäß wird die Population aufgeteilt in 

männlich / weiblich und für jede der Teilpopulationen ein 

separates Modell (mit gleichen weiteren Kovariaten) 

eingepasst 

£ in R realisiert durch a / , mit a der 

Aufteilungs–Variablen und der Formel, die in 

Abhängigkeit der Werte von a eingepasst werden soll 

 



Matthias Kohl 




534

Faktorkodierung 

 

– zur Umsetzung von kategoriellen / ordinalen Merkmalen in 

Kovariate muss man diese erst kodieren 

– normalerweise benötigt man für eine Variable mit 

Merkmalsausprägungnen Indikator– oder 

Dummy–Variablen 

– diese Kodierungen ergeben die Kontrastmatrix: 

so erhält man mit der Treatment–Codierung für eine Variable 

mit Ausprägungen drei Indikator–Variablen , , ; 

trägt man die Wertebelegung matrixwertig ab, so erhält man 

eine Matrix mit Zeilen entsprechend den Ausprägungen und 

Spalten entsprechend den Indikator–Variablen; in unserem 

 



Matthias Kohl 




535

Beispiel 

 

 

 

 

 

 

 

 

 

 

– folgende Kodierungen stehen in R zur Verfügung 

£ default für kategorielle Variablen in R: 

Treatment–Codierung, i.e. ein Null–Niveau wird 

ausgezeichnet und jeder andere erhält genau für einen 

Indikator die , jeder Indikator enthält auch nur genau eine 

— von Venables and Ripley (1999) empfohlen 

in R umgesetzt als contr.treatment 

£ default für kategorielle Variablen in S-Plus: 

Helmert–Codierung, i.e. zusätzlich verlangt man noch, 

dass die Indikatoren auf der Variable für den 

–Achsenabschnitt senkrecht stehen; schwieriger zu 

 

 

 

 

 

 

 

 



Matthias Kohl 




536

interpretieren — in R umgesetzt als contr.helmert 

£ default für ordinale Variablen in R und S-Plus: 

orthogonale Polynome — R umgesetzt als contr.poly 

£ weiterhin implementiert: Summen–Codierung für ordinale 

Variablen, i.e. alle Einträge eines Indikators summieren sich 

auf 

in R umgesetzt als contr.sum 

Formulierung von Designs in R 

als Konstruktionsmehtode sind in R nicht so viele Möglichkeiten 

gegeben wie in S-Plus; 

immerhin gibt es expand.grid 

7.1.1 (d) Modell–Einpassung in R 

Methode: kleinste Quadrate 

 

die Funktion lm 

 



Matthias Kohl 




537

Syntax: 

lm(formula, data, subset, weights, na.action, 

method = "qr", model = TRUE, x = FALSE, 

y = FALSE, qr = TRUE, singular.ok = TRUE, 

contrasts = NULL, offset = NULL, ...) 

Argumente: 

– formula: ein Formelausdruck wie in Abschnitt 7.1.1 (b) 

beschrieben 

– data: (optional) Data–Frame, der die Daten zum Fit des 

Modells enthält; per default werden die Daten der Umgebung 

environment(formula), entnommen 

– subset: (optional) Vektor spezifiziert Teilstichprobe, mit der 

das Modell gefittet werden soll 

– weights: (optional) ein Vektor mit Gewichten, mit denen die 

einzelnen Residuen beim Fit gewichtet werden sollen; falls 

spezifiziert, wird ein gewichteter Kleinste–Quadrate–Fit 

 



Matthias Kohl 




538

produziert; sonst werden gewöhnliche Kleinste Quadrate 

verwendet; 

– na.action: eine Funktion, die bestimmt, wie mit 

Beobachtungen, die Missings (NAs) enthalten, verfahren 

werden soll. default: das Attribut na.action von options 

— falls dieses gesetzt ist, sonst na.fail, also Abbruch mit 

Fehlermeldung; die “Ur”–Einstellung ist na.omit. 

– method: die Methode, die zum Fitten verwendet werden soll; 

z.Z. steht nur method="qr" zur Verfügung; 

method="model.frame" gibt den Modell–Frame zurück 

(das gleiche passiert mit model = TRUE, s.u.) 

– model, x, y, qr: (logisch) falls TRUE, werden die 

entsprechenden Komponenten des Fits (i.e. der 

Modell–Frame, die Modellmatrix, die Beobachtungen, die 

QR–Zerlegung) mit ausgegeben 

– singular.ok: (logisch): soll bei weitergemacht 

werden? — per default TRUE. FALSE noch nicht 

 



Matthias Kohl 




539

implementiert 

– contrasts: (optional) eine Liste mit den Kontrasten (siehe 

Abschnitt zur Arbeit mit Faktoren) 

– offset: Mittelwertkorrektur; kann benützt werden, um eine 

im Vornhinein bekannte Komponente in die lineare 

Vorhersage einzuschließen; kann natürlich auch in die 

Modell–Formel eingeschlossen werden; falls beides angegeben 

ist, wird die Summe der beiden Terme benutzt 

– ...: weitere Argumente, die an weitere aufgerufene 

Regressions–Fit–Funktionen übergeben werden (s.u.) 

Details: 

– die Modelle für lm werden wie in Abschnitt 7.1.1 (b) und im 

Abschnitt zur Arbeit mit Faktoren spezifiziert; typischerweise 

von der Form response ˜ terms 

– der terms–Teil der Formel kann auch als ein linearer 

Prädiktor für response aufgefasst werden 

 



Matthias Kohl 




540

– lm ruft selbst Hilfsfunctionen wie lm.fit, etc. auf , um die 

tatsächlichen Berechnungen durchzuführen 

– für eine ANOVA schätzt man erst das lineare Modell mit lm 

und verwendet dann die generische Funktion anova auf den 

Rückgabewert an 

– stattdessen für ANOVA auch möglich: direkt aov 

Rückgabewert: eine Datenstruktur vom Typ "lm" oder mehrere 

Antworten vom Typ c("mlm", "lm") mit Elementen 

– coefficients: Koeffizientenvektor ( Vektor der 

Parameterschätzungen); die Elemente tragen Namen 

– residuals: die Residuen, i.e. tasächlicher minus gefitteter 

Wert für 

– fitted.values: gefittete Beobachtungen 

– rank: Rang der Beobachtungsmatrix 

– weights: (nur für gewichtete Kleinste Quadrate) die 

angegebenen Gewichte 

 



Matthias Kohl 




541

– df.residual: Zahl der Freihheitsgrade der Residuen 

– call: der Aufruf, mit dem der Fit durchgeführt wurde 

– terms: die verwendete rechte Seite der Formel 

– contrasts: (nur falls relevant) die verwendeten Kontraste 

– xlevels: (nur falls relevant) die Merkmalsausprägungen der 

Faktoren, die zum Fit benützt worden sind 

– y: falls gewünscht, die benützten Beobachtungen 

– x: falls gewünscht, die benützte Modell– (oder 

Daten–)Matrix 

– model: falls gewünscht (per default: ja), der benützte 

Modell–Frame 

generische Methoden für Datenstruktur vom Typ "lm" — auf 

diese anzuwenden! 

– print wiederholt die Modellformel und gibt die 

Parameterschätzwerte aus 

– summary stellt zusammenfassend die Ergebnisse des Fits dar 

 



Matthias Kohl 




542

– plot erstellt diagnostische Plots — siehe Abschnitt 7.1.1 (e) 

– coefficients liefert die Parameterschätzwerte 

– effects liefert die geschätzten Effekte bei einer ANOVA 

– fitted . values liefert die gefitteten –Werte 

– update aktualisiert einen Modellfit — nach Hinzunahme / 

Weglassen eines Regressors oder einer Beobachtung 

– residuals liefert die Residuen 

– deviance liefert die Fehlerquadratsumme (RSS) 

– anova erstellt die ANOVA–Tabelle der Ergebnisse; dessen 

Ergebnis kann auch “schön” print mit ausgegeben werden 

– lm. influence identifiziert Hebelpunkte / einflussreiche 

Beobachtungen 

– predict prognostiziert / liefert einen Schätzwert für einen 

“–Wert”, an dem kein “ ” vorliegt; siehe auch 

Abschnitt 7.1.1 (f) 

Hilfsfunktionen für Datenstruktur vom Typ "lm" — werden von 

 



Matthias Kohl 




543

lm vewerdendet 

– lm. fit führt gewöhnlichen Kleinste–Quadrate Fit durch 

– lm. wfit führt gewichteten Kleinste–Quadrate Fit durch 

R–Beispiel 7.1-4 [ein Regressionsbeispiel]: 

l i b r a r y (MASS ) ; data ( h i l l s } ; a t t a c h ( h i l l s ) 

f o r m u l time~c l i m b+d i s t 

e r g lm ( f o r m u l ) 

p r i n t ( e r g ) ; c o e f f i c i e n t s ( e r g ) 

summary ( e r g ) ; d e v i a n c e ( e r g ) 

s1 o r d e r ( d i s t ) ; s2 o r d e r ( c l i m b ) 

y f f i t t e d . v a l u e s ( e r g ) 

par ( mfrow=c ( 3 , 2 ) ) ; p l o t ( e r g ) 

matplot ( d i s t [ s1 ] , c b i n d ( time , y f ) [ s1 , ] , 

t y p e=" l " , y l a b=" Z e i t " , x l a b=" D i s t " ) 

 



Matthias Kohl 




544

matplot ( c l i m b [ s2 ] , c b i n d ( time , y f ) [ s2 , ] , 

t y p e=" l " , y l a b=" Z e i t " , x l a b=" S t e i g " ) 

par ( mfrow=c ( 1 , 1 ) ) 

new data . frame ( c l i m b =3000 , d i s t =20) 

p r e d i c t ( erg , newdata=new , i n t e r v a l=" c o n f i d e n c e " ) 

p r e d i c t ( erg , newdata=new , i n t e r v a l=" p r e d i c t i o n " ) 

7.1.1 (e) Regressions–Diagnostik 

die Summary: — umfasst 

– Formel, 

– fivenum–Statistik der Residuen, 

– die Koeffizientenschätzungen mit jeweils einer 

Streuungsschätzung und der entsprechenden –Statistik; 

 

letztere gibt an, mit welcher W–keit bei Vorliegen der als 

tatsächlichem Parameter der Schätzwert für diesen Parameter 

 



Matthias Kohl 




545

weiter von der wegliegt, als die vorliegende Schätzung; d.h. 

kleine Werte deuten auf “signifikant von verschieden”, große 

Werte bedeuten, dass die Hypothese, der Parameter sei nicht zu 

einem vernünftigen Niveau abgelehnt werden kann. 

– die Standardabweichung der Residuen mit Angabe der 

Freiheitsgrade — für eine weitere Verwendung in Tests 

– multiples und korrigiertes als Gütemaß für die 

Modellanpassung — siehe Abschnitt 7.1.1 (g) 

– –Statistik als — für eine Verwendung in Tests auf 

Homoskedastizität, s.u. 

Residuenplot — eine der wichtigsten Diagnose–Methoden ist die 

Untersuchung der Residuen: 

– sind die Residuen symmetrisch verteilt? boxplot 

– sind die Residuen (annähernd) normalverteilt? qqnorm, 


 

– bei einem Plot (sofern möglich) : liegt 

 



Matthias Kohl 




546

eine Struktur vor? 

– bei einem Plot Distanzmaß vom Zentrum gegen (Betrag der 

empirischen) Influenzkurve: (s.u.) liegen Hebelpunkte, 

einflußreiche Beobachtungen vor? 

die Hutmatrix 

– die Residuen sind nicht unabhängig; ihre Kovarianz ist 

mit der Hutmatrix; — heißt so, weil sie 

den Beobachtungen einen “Hut” aufsetzt, indem die 

gefittet Werte ergibt 

– hoher Diagonalwert von deutet darauf hin, dass die 

–te Beobachtung ein großer Hebelpunkt ist, wobei “groß” 

ungefähr bis mal ist mit der Zahl der Regressoren 

und der Zahl der Beobachtungen 

– verschiedene Ideen, die Daten auf gleiche Skala zu bringen 

(vgl. Venables and Ripley (1999), p.157) 

 

£ standardisierte Residuen: normiert durch mit 

 



Matthias Kohl 




547

einer Skalenschätzung der Residuen 

£ studentisierte (oder Jackknife) Residuen: 

sei der ohne Beobachtung gefittete Wert für ; dann 

ist 

mit (emp) 

– in R: Zugriff auf die (Diagonale der) Hutmatrix über 

lm. influence zugreifen 

Hebelpunkte 

sind Beobachtungen deren Faktor sehr groß ist — 

ohne dass dabei das Residuum, also die empirische 

Modellabweichung an der Stelle groß sein muss, mit der Folge, 

dass sie einen großen Einfluß auf die Parameterschätzung haben 

lm. influence 

– wird angewendet auf ein Objekt vom Typ "lm" 

– der Rückgabewert besteht aus Komponenten, hat, 

coefficients und sigma 

 

– hat die Diagonale von 

 



Matthias Kohl 




548

– coefficients: eine Matrix, deren -te Zeile aus besteht, wobei der Parameterschätzwert ist, den man ohne 

Beobachtung erhält 

– sigma die 

weitere Maße dfbeta, dffits , covratio, cooks.distance; siehe dazu 

Cook and Weisberg (1982), Belsley et al. (1980) 

Heteroskedastizität 

– die einzelnen Datenpunkte weisen unterschiedliche Varianz 

auf 

– fällt bei Residuenplot auf 

– kann man mit –Statistik prüfen (nicht hier) 

7.1.1 (f) Vorhersage 

Methode: wir verwenden als Prognose 

problematisch falls außerhalb der bisherigen Beobachtungen 

liegt (Extrapolation!) 

 

 



Matthias Kohl 




549

Unterscheide: Prädiktions– und Konfidenzintervall 

– ersteres berücksichtigt die zufällige Schwankung “” bei der 

vorherzusagenden Beobachtung — man würde ja nur eine 

Beobachtung an dieser Stelle machen 

– letzeres gibt an womit man im Durchschnitt bei 

Beobachtung von rechnen muß, wobei sich hier die “” ’s 

schon herausgemittelt haben 

in R: durch predict, angewendet auf ein gefittetes Model von 

Typ "lm" 

Syntax: 

predict (object, newdata, se.fit = FALSE, scale = 

NULL, df = Inf, interval = c("none", 

"confidence", "prediction"), level = 

0.95, type =c("response", "terms"), 

 

terms = NULL, ...) 

 



Matthias Kohl 




550

Argumente 

– object: Objekt vom Typ "lm" 

– newdata: Data–Frame (mit –Werten), für die vorhergesagt 

werden soll 

– se.fit: (logisch) sollen Standardabweichungen mit 

angegeben werden? 

– scale: Skalenparameter zur Berechnung der 

Standardabweichungen 

– df: Freiheitsgrade für den Skalenparameter 

– interval: was für ein Intervall soll angegeben werden — 

Konfidenz– oder Prädiktionsintervall? 

– level: Toleranz / Konfidenz – Niveau 

– type: Art der Vorhersage — eine Beobachtung oder eine 

Modellgröße 

– terms: Falls type="terms", welche Modellgrößen — 

default: alle 

 



Matthias Kohl 




551

– ...: weitere Argumente, die an andere Methoden 

weitergereicht werden 

Rückgabewert 

predict 

 

– eine Matrix mit Spalten fit und evtl. lwr, upr, (falls 

interval spezifiziert ist); dabei sind lwr und upr untere 

und obere Intervallgrenzen des P.– oder K.–Intervalls 

– falls se.fit TRUE wird eine Liste zurückgegeben mit 

Komponenten 

£ fit: wie gerade 

£ se.fit: Standardabweichungen der Vorhersagen 

£ residual.scale: Standardabweichung der Residuen 

£ df: Freiheitsgrade für die Residuen 

Caveat: bei polynomialen Fits mit poly gibt es Probleme mit 

Ausweg: Verwendung von SafePrediction 

 



Matthias Kohl 




552

7.1.1 (g) Modellwahl 

Idee bei geschachtelten Modellen: 

Ist beim Modellfit des höher–dim.-param. Modells ein 

Koeffizient nicht signifikant von verschieden, so können wir die 

entsprechende Variable weglassen 

Signifikanz einer einzelnen Variable wird dabei mit dem –Test 

geprüft 

Problem: obwohl ein Koeffizient nicht signifikant von 

verschieden ist, kann er trotzdem signifikante Auswirkungen auf 

die anderen Koeffizienten haben 

Vergleich im –Test: Fehlerquadratsumme mit und ohne den 

entsprechenden Regressor. 

 

 

und angepasstes ; ist dabei RSSTSS mit RSS der 

Fehlerquadratsumme und TSS der Summe aller 

Beobachtungsquadrate; da höher–dim. parametrisierte Modelle 

 



Matthias Kohl 




553

zu einem höheren führen, wird dies durch einen Strafterm im 

angepassten ausgeglichen. 

ein anderer Ansatz ist Mallow’s , bei dem versucht wird, 

RSS ungefähr auf bekommen, wobei eine 

Schätzung für die Fehlervarianz auf Basis aller Beobachtungen 

AIC und BIC (Akaike Information Criterium, Bayes Information 

Criterium) legen die Loglikelihood der verschieden angepassten 

Modelle zugrunde; diese Kriterien gilt es zu minimieren 

in R realisiert durch leaps, drop1, step, update 

Caveat: Alle diese Verfahren sind mit Vorsicht zu genießen und 

können keine wissenschaftliche Argumentation ersetzen 

 



Matthias Kohl 




554

R–Beispiel 7.1-5 [Modellanpassung]: 

l i b r a r y ( l e a p s ) 

data ( s t a t e ) 

s t a t e d a t a data . frame ( s t a t e . x77 , 

row . names=s t a t e . abb , check . names=T) 

g lm ( L i f e . Exp ~ . , data=s t a t e d a t a ) 

x model . m a t r i x ( g )[ , 1] 

y s t a t e d a t a $ L i f e 

g l e a p s ( x , y ) 

p l o t ( g$ s i z e , g$Cp) 

a b l i n e ( g$ s i z e , g$ s i z e ) 

 

 



Matthias Kohl 




555

7.1.1 (h) Wirkung von Datentransformationen 

sqrt(y) 

log(y) 

y 

exp(y) 

y^2 

 

sqrt(x) 

ein illustratives Beispiel aus Nagel et al. (1994), p. 183 

¡ log(x) ¢ x £ exp(x) x^2 

 



Matthias Kohl 




556

7.1.1 (i) Box-Cox–Transformation 

Idee: in vielen Beispielen stabilisiert eine Transformation der 

Beobachtungen die Varianz und vermeidet so Heteroskedastizität 

ein systematischer Ansatz zum Auffinden einer “guten” 

Transformation ist der Box–Cox Ansatz: — vgl. Faraway (2002), 

Kapitel 8 

bei strikt positiven Beobachtungen wird versucht per Maximum 

Likelihood die Potenz der Datentransformation zu schätzen 

in R realisiert durch boxcox 

Syntax: 

boxcox(object, lambda, plotit, interp, 

eps, xlab, ylab, ...) 

Argumente: 

 

– object: eine Formel oder ein Objekt vom Typ lm oder aov 

 



Matthias Kohl 




557

– lambda: ein –Gitter; default seq( 2, 2,step=0.1) 

– plotit: (logisch) soll das Resultat geplottet werden? 

– interp: (logisch) — soll Spline–Interpolation genutzt 

werden? 

– eps: Toleranz für lambda = 0; defaults 

– xlab, ylab: Achsenbschriftungen; per default "lambda" und 

"log-Likelihood" 

– ...: die üblichen weiteren Parameter 

Rückgabewert — falls kein Plot angefertigt wird: ein Gitter 

 

beim Plotten wird zusätzlich ein Konfidenzintervall um die 

ermittelte Maximalstelle angegeben 

falls interp = TRUE wird Spline–Interpolation zur Erzeugung 

eines glatteren Plots benutzt 

 



Matthias Kohl 




558

7.1.2 Generalisiert Lineare Modelle 

7.1.2 (a) ein einführendes Beispiel 

Modellierung der Kreditwürdigkeit eines Bankkunden 

Datensatz: 

– aus dem Datenarchiv der LMU München, unter Datensätze 

in Fahrmeir, Tutz (1996) “Kreditscoring zur Klassifikation 

von Kreditnehmern” 

– genaue Beschreibung der Daten siehe 

http://www.stat.uni-muenchen.de/service/datenarchiv/ 

kredit/kreditvar.html 

Problem: Response binärwertig 

Ansatz: Nicht die Beobachtungen sind eine lineare Funktion 

der Regressoren, sondern ein Parameter der Verteilung der 

 



Matthias Kohl 




559

Transformation der Beobachtungen durch Link–Funktion 

genauer wird transformiert und ist ein 

Referenzen: Fahrmeir and Tutz (2001) und generell: McCullagh 

and Nelder (1989) 

7.1.2 (b) wichtige Klassen 

Verteilungsfamilien 

Binomial: Parameter , zunächst noch nicht beliebig 

wertig Logit, Probit 

Gamma: Parameter 

Normal: Parameter 

Inverse-Gauss’sch: Parameter 

Poisson: Parameter 

 



Matthias Kohl 




560

Linkfunktionen 

bei binären Variablen 

– Logit–Trafo: 

– Probit–Trafo: ¨ 

– cLog–Trafo: 

– cLoglog–Trafo: 

bei Zählvariablen 

– Log–Trafo: 

bei stetigen, positiven Variablen 

– Log–Trafo: 

– Inverse 

– Identität 

 

– Wurzel–Trafo: 

 



Matthias Kohl 




561

Tabelle 7.1-6 [natürliche Linkfunktionen]: 

Vertlg. Familie kanonische Linkfunktion 

Binomial Logit 

Gamma Inverse 

Gauß’sch Identität 

Invers-Gauß’sch “1/muˆ2” 

Poisson Log 

7.1.2 (c) mögliche Aussagen / Fragestellungen 

Hat die Variable einen Einfluß auf die Kreditwürdigkeit? 

Um wieviel erhöht sich das Risiko, dass der Kunde nicht 

zurückzahlt, wenn er in Kategorie fällt? 

 

 



Matthias Kohl 




562

7.1.2 (d) Modell–Einpassung in R 

der Befehl glm 

Syntax: 

glm(formula, family = gaussian, data, weights = 

NULL, subset = NULL, na.action, start = NULL, 

offset = NULL, control = glm.control(...), 

model = TRUE, method = "glm.fit", x = FALSE, 

y = TRUE, contrasts = NULL, ...) 

Argumente 

– family: Modellfamilie — siehe Abschnitt zu Linkfunktionen 

– weights: (optionaler) Gewichtsvektor, der beim Einpassen 

benutzt wird 

– start: Parameterstartwerte für das iterative Schätzverfahren 

– etastart: Startwert für 

 

– mustart: Startwert für 

 



Matthias Kohl 




563

– control: eine Liste mit Steuerungs/Kontrollgrößen für das 

iterative Schätzverfahren, wie Abbruch–, maximale 

Iterationszahl etc. 

– method: Schätzmethode — z.Z. nur glm.fit implementiert, 

das iterativ gewichtete Kleinste Quadrate (IWLS) benutzt 

– formula, data, subset, na.action, offset, model, x, y, 

contrasts, intercept, ...: wie bei der gewöhnlichen 

linearen Regression 

Rückgabewert ein Objekt vom Typ "glm" mit Elementen wie 

"lm" 

 



Matthias Kohl 




564

zusätzlich: 

– linear.predictors: die lineare Einpassung im Raum der 

Linkfunktion 

– deviance: bis auf eine Konstante mal die maximierte 

Log-likelihood. 

– aic: AIC–Wert zur Bestimmung der Modellordnung 

– null.deviance: Eichwert des AIC an einem Null–Modell, zu 

vergleichen mit der deviance 

– iter: benötigte Zahl an Iterationen beim Fit 

– weights: die zuletzt benutzten the Gewichte 

– prior.weights: Start–Gewichte sofern angegeben 

– df.residual: Freiheitsgrade der Residuen 

– df.null: Freiheitsgrade der Residuen im Nullmodell. 

– converged: (logisch) Hat das Verfahren die ge- 

wünschte Genauigkeit geliefert? 

– boundary: (logisch) liegt der Parameter–Fit auf dem Rand 

 



Matthias Kohl 




565

des Definitionsbereichs? 

– family, control: Parameter aus der Eingabe 

– xlevels: (sofern relevant) eine Aufstellung aller 

Faktor–Niveaus, die zum Fitten benutzt worden sind 

Caveat: Bei Zähl–/ Binomialmodellen muß man als –Vektor 

die absoluten Treffer–/ Fallzahlen angeben! 

7.1.3 ein Beispiel 

R–Beispiel 7.1-7 [das Kreditbeispiel vom Anfang]: 

k r e d i t data . frame ( read . t a b l e ( f i l e = 

"C : /programme/R/ uebung / k r e d i t . t x t " , h e a d e r=T) ) 

a t t a c h ( k r e d i t ) 

f o r m u l k r e d i t ~ l a u f z e i t+hoehe+s p a r k o n t+r a t e 

 

e r g glm ( formula=formul , data=k r e d i t , 

 



Matthias Kohl 




566

summary ( e r g ) 

par ( mfrow=c ( 2 , 2 ) ) 

p l o t ( e r g ) 

par ( mfrow=c ( 1 , 1 ) ) 

b i n o m i a l ( l i n k = " p r o b i t " ) ) 

7.1.3 (a) Modellwahl — die Deviance 

anders als bei klassischen linearen Modellen sind hier nur 

asymptotische Aussagen möglich; 

wichtiges Kriterium ist die Deviance (s.o.) 

in R steht dazu die generische Funktion deviance zur Verfügung 

 

 



Matthias Kohl 




567

7.2 Elemente Multivariater Statistik 

7.2.1 die multivariate Normalverteilung 

Erzeugung einer Verteilung ¦ siehe Übung 

multivariate Normalverteilungstests: Idee 

¦ für alle 

siehe auch Pakete mvtnorm, ellipse 

7.2.2 graphische Methoden 

siehe Kapitel 4 

7.2.3 Allgemeines 

7.2.3 (a) generelle Fragestellungen 

Dimensionsreduktion 

Klassifikation mit / ohne Training 

 

Aufdecken interessanter Strukturen 

 



Matthias Kohl 




568

Wie kann man die Daten gut in einem niedrig–dimensionalen 

Raum repräsentieren? 

Mit welchen Variablen kann man gut klassifizieren? 

Gibt es gut unterscheidbare Teilklassen und wenn ja wieviele? 

7.2.3 (b) allgemeine Pakete zur mult.var. Statistik 

mva, modreg, MASS, multiv 

7.2.3 (c) allgemeine Literatur zur mult.var. Statistik 

Einstieg: Flury and Riedwyl (1983), Flury (1997), Härdle, W. 

and Simar, L. (2003) 

weiterführend: Anderson (1984), Mardia et al. (1979) 

 

 



Matthias Kohl 




569

7.2.4 Hauptkomponenten– und Faktoranalyse 

Fragestellungen 

1. In welchen Richtungen variieren die Daten vorzugsweise? 

2. Gibt es “neue” Variablen, die aus den alten als 

Linearkombinationen hervorgehen, und die Daten besser 

beschreiben als die alten? 

3. “Gute” zweidimensionale Abbildung einer hochdimensionalen 

Punktewolke 

Herangehensweise / Idee: 

– Spektralzerlegung (SVD) der (empirischen) 

Kovarianz–/Korrelationsmatrix der Daten 

– Projektion auf die ersten (größten) Eigenräume 

– bei der Faktoranalyse: nur noch verwenden der ersten 

(größten) Eigenräume — als latente Variablen 

 



Matthias Kohl 




570

Implementation in R — alles in Bibliothek mva 

 

– princomp, prcomp: Hauptkomponentenanalyse 

– factanal , varimax: Faktoranalyse 

– summary (generische Methode) 

– spezielle Plots: plot (generische Methode): erzeugt screeplot, 

biplot : siehe Kapitel 4 

 



Matthias Kohl 




571

7.2.5 Multidimensional Scaling 

Fragestellung: aus einer Abstandsmatrix erzeuge eine niedrig 

()–dimensionale Konfiguration, so dass die Abstände der 

Punkte in der Konfiguration möglichst genau denen in der 

Abstandsmatrix entsprechen 

Verschiedene Abstandsbegriffe, similarities, dissimilarities, 

Ultrametriken 

numerische, iterative Algorithmen 

Implementation in R 

– in mva: cmdscale — klassisches (euklidisches) MDSCAL 

– dazu (ebenfall in mva): dist zur Erzeugung einer 

Abstandsmatrix 

– in MASS: isoMDS, sammon — zwei nicht–metrische 

MDSCAL’s von Venables and Ripley (1999) 

 



Matthias Kohl 




572

7.2.6 Cluster–Analyse 

Fragestellung: finde eine Partition der Stichprobe in homogene 

Teile; 

vorgegebene Zahl an Clustern mit zu bestimmen 

Strategien 

 

– hierarchisches Clustern (agglomerativ, verteilend) 

£ single / complete / average linkage 

£ weitere: Ward, centroid, median, mcquitty 

– –Mittel 

– modellbasiertes Clustern 

£ Modell: habe unterschiedliche Stichproben mit 

vollständig/bis auf endl.-dim. Parameter bekannte 

Verteilung; diese wurden vermischt; 

£ Aufgabe: rekonstruiere die Mixing–Indikatoren 

 



Matthias Kohl 




573


– hierarchisches Clustern — in mva 

£ hclust — erzeugt Aufteilungshierarchie als Objekt vom 

Typ hclust; benötigt eine Abstandsmatrix (erzeugt durch 

dist ) 

£ dazu plot (oder synonym plclust ) — Ausgabe des 

Hierarchie–Baums (Dendrogramm), identify . hclust 

£ cutree zerlegt eine Hierarchie in vorgegebene Zahl an 

Cluster / oder längs vorgegebener Hierarchie–Ebene 

– –Mittel — in mva: kmeans 

– modellbasiertes Clustern: Paket mclust; in S-Plus: mclust, 

mclass, mreloc 

– Extra–Pakete: cluster , cclust 

 

 



Matthias Kohl 




574

7.2.7 Diskriminanzanalyse 

Fragestellung: Gegeben eine Lern–Stichprobe mit bekannter 

Aufteilung in Untergruppen, finde heraus, wie man bei einer 

neuen Beobachtung gut vorhersagen kann, zu welcher Gruppe 

sie gehört 

Methoden 

– Diskriminanzanalyse nach Fisher: versucht, den Quotienten 

aus Intra– und Inter–Gruppenvarianz zu maximieren 

– lineare Diskriminanzanalyse (Hypothese: alle 

Gruppenkovarianzen gleich) 

– bei Normalität: quadratische Diskriminanzanalyse 


– lineare Diskriminanzanalyse in MASS: lda 

– quadratische Diskriminanzanalyse in MASS: qda 

 

– Extra–Paket: mda 

 



Matthias Kohl 




575

7.3 Zeitreihenanalyse 

7.3.1 Einführung 

7.3.1 (a) Grundlagen 

im Unterschied zum –Setup nun abhängige Beobachtungen 

Reihenfolge / Anordnung der Beobachtungen wichtig 

Bezeichnung: das Objekt ¡ heißt stochastischer Prozess, 

eine Realisation heißt Zeitreihe 

um dennoch ähnliche Schlüsse wie im –Setup ziehen zu 

können, sind folgende Begriffe nötig 

– Stationarität: Hätte die beobachtete Zeitreihe von der 

Verteilung her betrachtet auch an einem anderen 

Startzeitpunkt starten können? 

 



Matthias Kohl 




576

– um mit nur einer Realisation (einer Zeitreihe) Inferenz auf 

weitere Beobachtungen möglich zu machen: Vertauschbarkeit 

der Mittelung “über ” mit der “über ” Ergodizität 

7.3.1 (b) Literatur 

Einstieg: Schlittgen and Streitberg (1987), Brockwell and Davis 

(2002), Wei (1990) 

weiterführend: Hamilton (1994), Brockwell and Davis (1991), Harvey 

(1993), Shumway and Stoffer (2000), Durbin and Koopman (2001) 

spezielle Themen: Granger and Newbold (1986), Gouriéroux (1997), 

Rothman (1999) 

7.3.1 (c) wichtige allgemeine Pakete in R 

— zu beziehen auf CRAN 

in der üblichen Distribution mit dabei: ts 

 

allgemein: tseries von Adrian Trapletti, gepflegt von Kurt Hornik, 

 



Matthias Kohl 




577

gerade für multiple Zeitreihen und Zustandsraummodelle: dse, von 

P. Gilbert 

Signalerkennung: Rwave, in S von Rene Carmona, in R portiert und 

gepflegt von Brandon Whitcher 

Erkennen von Strukturbrüchen strucchange, von Achim Zeileis, 

Friedrich Leisch, Bruce Hansen, Kurt Hornik, Christian Kleiber, 

Andrea Peters, gepflegt von Achim Zeileis 

ökonometrische Modelle: sem, von John Fox 

periodische Zeitreihenmodelle: pear, in S von A. I. McLeod, in R 

portiert und gepflegt von Mehmet Balcilar 

nichtparametrische Statistiken für Zeitreihenmodelle: pastecs, von 

Frederic Ibanez, Philippe Grosjean und Michele Etienne, gepflegt von 

Philippe Grosjean 

Hilfspaket zum Umgang mit Zeiteinheiten: chron Original in S von 

 

David James, in R portiert und gepflegt von Kurt Hornik. 

 



Matthias Kohl 




578

7.3.1 (d) spezielle Klassen/Befehle in R zum Umgang mit 

Zeitpunkten 

neben Beobachtungsindex ein weitere Index: der 

Beobachtungszeitpunkt (“Time Stamp”) 

hilfreich zum Konvertieren von verschiedenen 

Datums-/Zeitformaten: Paket chron — siehe 

require (chron); ?chron; ?times; ?dates, 

bei regulärem Gitter ( ) einfache Umrechnung; 

umgesetzt in (S3)-Klasse ts (aus stats Paket) 

sonst: schwieriger; dazu 

– Attribut-Ansatz tframe aus Paket tframe: 

Beobachtungszeitpunkte werden kein Teil der Daten sondern 

ein Attribut des Datenobjekts 

– (S4)-Klasse its aus Paket its: Beobachtungszeitpunkte der 

Klasse POSIXct 

 



Matthias Kohl 




579

– (S3)-Klasse irts aus Paket tseries: 

Beobachtungszeitpunkte der Klasse POSIXct 

– (S3)-Klasse zoo aus Paket zoo — Z.’s Achim Zeileis’ 

ordered objects; hier müssen die Beobachtungszeitpunkte nur 

irgendwelche ordinale Merkmale sein! 

als (S3)/(S4)-Objekte handelt es sich hierbei jeweils um 

Datenstrukturen, bei denen eine Reihen von (generischen) 

Funktionen spezielle Funktionalität erhalten (s.u.) 

Konstruktoren: die Funktionen ts (), its (), irts (), tframe() und zoo() 

ts () erzeugt ein uni– oder multivariates Zeitreihen–Objekt der 

Klasse ts aus Argumenten: 

– data: die Daten; 

– start: Beobachtungstartpunkt 

– end: Beobachtungendpunkt 

 

– frequency: Beobachtungen/Zeiteinheit 

 



Matthias Kohl 




580

– deltat: Zeitabstand zwischen zwei Beobachtungen 

– ts.eps: ab wann gelten zwei Zeitpunkte gleich? 

– class: mts (multiple Zeitreihe); ts (univariate Zeitreihe) 

oder NULL sonst 

– names: Namen der Dimensionen der Zeitreihe 

zoo() erzeugt ein Objekt der Klasse zoo aus Argumenten: 

– x: die Daten; 

– order.by: Index —“Beobachtungzeitpunkte”— anhand 

deren man die Beobachtungen anordnen kann 

– siehe auch zoo-quickref.pdf bzw. zoo.pdf über 

HTML-Hilfe zum Paket und dort overview 

its (), irts (), tframe() erzeugen jeweils Objekte der Klassen its , 

irts , tframe — siehe deren spezielle Hilfe 

 



Matthias Kohl 




581

7.3.1 (e) Methoden aus Paketen ts und zoo 

überladene Methoden 

– Indexoperationen [....] 

– Typumwandlungen as.ts, is.ts, as.zoo, is.zoo, as.its, 

is.its, as.irts, is.irts 

– Ausgaben plot, lines, print 

– Verschmelzen von Zeitreihen (mit unterschiedlichen 

Beobachtungszeitpunkten) cbind ( cbind. ts), ts .union, 

ts . intersect bzw. allgemeiner und leistungsfähiger merge für 

zoo Objekte 

– na.omit.ts: bei Missings wird omit nur an den Enden 

zugelassen 

 

– übliche Arithmetikoperationen 

 



Matthias Kohl 




582

spezielle Methoden 

– aggregate berechnet Zusammenfassungen über disjunkten 

Zeitintervallen 

– diff erzeugt die Zeitreihe 

– end Zeitpunkt der letzten Beobachtung 

– frequency Zahl der Beobachtungen pro Zeiteinheit 

– deltat Zeitabstand zwischen zwei Beobachtungen (ts) 

– time gibt Beobachtungszeitpunkte zurück / ändert sie 

– cycle erzeugt eine Zeitreihe durch Vorgabe der 

Beobachtungszeitpunkte innerhalb eines Zykluses 

– start Zeitpunkt der ersten Beobachtung 

– tsp, tsp Ausgabe/Modifikation der Zeitreihenattribute 

– window Herausfiltern einer Teilzeitreihe innerhalb eines 

Fensters 

 



Matthias Kohl 




583

spezielle apply-artige Funktionen für Auswertungen auf 

gleitenden Fenstern (bei zoo) 

– rapply — wie apply auf Fenster der Länge width 

– speziell: rollmean, rollmax, rollmedian 

Interpolation/Fortschreibung —(Paket zoo) 

– na.approx ersetzt missings durch lineare Approximation der 

umliegenenden beobachteten Werte 

– na.locf ersetzt missings durch letzten beobachteten Wert 

weitere Methoden aus Paket ts 

– lag — mit lag . plot (auch in zoo) 

– ts . plot, month.plot 

 

 



Matthias Kohl 




584

7.3.2 Autokovarianz und Spektrum 

7.3.2 (a) Begriffe 

wesentliches Instrument zur Beschreibung von Abhängigkeiten: 

die Kovarianz — die Autokovarianz 

im stationären Fall ; heißt 

Autokovarianzfunktion oder ACF von 

Satz aus der Fourier–Theorie (Herglotz): 

Autokovarianzfunktionen sind genau die Fouriertransformierten 

von beschränkten Maßen auf , und diese Relation ist 

das entsprechende Maß heißt Spektralmaß; falls das 

Spektralmaß eine (Spektral–)Dichte besitzt, erhält man diese als 

 

 

 

 

 

für (7.3.1) 

 



Matthias Kohl 




585

Idee: Stelle die Zeitreihe als eine Überlagerung von Frequenzen 

dar Argumentation im Frequenzbereich Argumentation im 

Zeitbereich 

7.3.2 (b) Realisation in R 

Autokovarianz — aus Paket ts 

 

– acf berechnet die (empirische) Autokovarianz /–korrelation 

– pacf berechnet die (empirische) partielle Autokovarianz 

/–korrelation 

– zu den letzten beiden: spezielle plot–Funktion 

Spektraldichte /–verteilung — aus Paketen ts / MASS 

– ähnliche Probleme wie bei der Dichteschätzung 

– Methoden: 

£ Bestimmung aus Schätzung der ACF 

£ Bestimmung mit FFT 

£ Tapering 

 



Matthias Kohl 




586

– in R — in ts 

£ Bestimmung aus Schätzung der ACF: spec. ar 

£ Bestimmung mit FFT: spec.pgram 

£ Tapering: spec.taper 

£ weitere Glättung durch gleitende Mittel mit span 

– alle in einer “Hülle” aufrufbar: spectrum 

– dazu spezielle plot–Methode: 

£ Angabe eines –Konfidenzintervalls 

£ Darstellung der Breite des Glättungsfensters 

– auch: empirische Verteilungsfunktion des Spektralmaßes als 

kumulatives Periodogramm — in MASS — cpgram 

 



Matthias Kohl 




587

7.3.3 ARIMA–Modelle 

7.3.3 (a) Modelldefinition 

Modellgleichung für ARMA 

 

 

 

Stationarität und Invertierbarkeit alle Nullstellen über 

 

 

von ¨ bzw. ¤ sind 

 

 

 

(7.3.2) 

mit Beobachtungen ( Anfangswerten) und Innovationen 

Backshift: 

setzen wir und 

¨ 

, ¤ 

, so wird aus (7.3.2) 

¨ ¤ 

Identifizierbar falls ¨ und ¤ keine gemeinsame Nullstellen 

(7.3.3) 

 



Matthias Kohl 




588

“Stationarisierung” durch Differenzenbildung: 

mit ¡ heißt das Modell 

¡ ¨ ¤ 

ARIMA–Modell der Ordnung 


Simulation: arima.sim 

Parameterschätzung: arima, ar 

Vorhersage: predict .Arima 

Bestimmung der Modellordnung — zB mit arima, tsdiag 

7.3.4 Trend– und Saison–Bereinigung 

Zerlegungsmodelle 

(7.3.4) 

– (additive) Zerlegung in Trend, Saison und unstrukturiertes 

Rauschen —in R: StructTS 

 



Matthias Kohl 




589

– saisonale ARIMA–Modelle —auch mit arima 

7.3.5 Multiple Zeitreihen 

7.3.5 (a) Einführung 

in vielen Situationen: Beobachte zu einem Zeitpunkt mehrere 

Phänomene simultan vektorwertige oder multiple Zeitreihen 

entsprechend Autokovarianz– bzw. Autokorrelationsfunktion 

matrixwertig Kreuzkorrelation / –spektrum 

auch “Stationarisierung” durch Bezug auf eine (nicht stationäre) 

Referenzzeitreihe Kointegration 

Modellierung komplexer Wechselwirkungen durch 

Transfer–Functions, c.f. Hamilton (1994) 

 

entsprechend vektorwertige ARIMA–Modelle VARIMA 

 



Matthias Kohl 




590


—in dse 

Simulation: simulate 

Modelldefinition: ARMA (ARMA), SS (Zustandsraummodell) 

Parameterschätzung: est .VARX.ar, est . black .box 

Bestimmung der Modellordnung est . black .box, reduction . Mittnik 

Vorhersage forecast , horizons . forecast 

 

 



Matthias Kohl 




591

7.3.6 Zustandsraummodelle 


Modell in zwei Ebenen: Beobachtungs– und Zustandsebene 

im linearen, zeitdiskreten, Euklidischen Fall: 

(7.3.5) 

(7.3.6) 

interessierende Größe , Beobachtungen: 

je nach Horizont der zur Verfügung stehenden Beobachtungen 

Glättungs–, Filter– oder Vorhersageproblem 

sehr flexibel, extrem weiter Anwendungsbereich 

 

 



Matthias Kohl 




592

7.3.6 (b) der Kalman–Filter 

mithilfe der Methode der kleinsten Qaudrate: rekursives 

Verfahren zur Schätzung der : der Kalman–Filter 

im linearen, zeitdiskreten, Euklidischen Fall: 

heißt Kalman–Gain 

in dse siehe Abschnitt 7.3.5 (b) 

(7.3.7) 

(7.3.8) 

(7.3.9) 

analoge Rekursionen für das Glättungs– und Prognoseproblem 

7.3.6 (c) Realisation in R 

 



Matthias Kohl 




593

in robKalman — eine Bayreuth/Wiener Entwicklung und noch im 

“-Stadium”. . . — verfügbar unter 

http://www.uni-bayreuth.de/departments/math/org/mathe7/robKalman: 

– Paket für robustes Kalman-Filtern; siehe 

require (robKalman);?robKalman 

– (vorläufig) noch keine Verwendung von (S3)/(S4) Klassen 

– Simulation mit simulateState, simulateObs (inklusive 

Kontamination, wenn gewünscht) 

– Filtern mit KalmanFilter, bzw. robuste Alternativen: rLSFilter 

(auch multivariat), ACMfilter (univariat) 

in sspir : 

– Definition des Zustandsraums mit SS 

– sehr flexibel: auch GLM-Bestandteile und nichtlineare 

Übergänge möglich —siehe ?ssm 

– Simulation mit simulate 

– Kalman Filter kfilter 

 



Matthias Kohl 




594

– Kalman Glätter smoother 

R–Beispiel 7.3-1 [Kalman-Filter]: 

data ( mumpsdat ) 

time 1 : nrow ( mumpsdat ) 

m3 ssm ( mumps ~ 1 + t v a r ( p o l y t i m e ( time , 1 ) ) + 

m3 . f i t k f s (m3) 

t v a r ( p o l y t r i g ( time , 1 2 , 1 ) ) , 

f a m i l y=p o i s s o n ( l i n k=l o g ) , time=time , 

data=mumpsdat ) 

### ssm e x t r a h i e r t SS Modell aus d i e s e r Formel 

m3$ s s $ p h i [ " e p s i l o n " ] 0 

m3$ s s $ p h i [ " p o l y t i m e ( time , ␣ 1) time0 " ] 0 

m3$ s s $ p h i [ " p o l y t i m e ( time , ␣ 1) time1 " ] 0.0005 

m3$ s s $ p h i [ " p o l y t r i g ( time , 1 2 , 1 ) " ] 0.0001 

d i a g (m3$ s s $C0 ) 1 

 



Matthias Kohl 




595

7.3.7 (G)ARCH–Modelle 


ein nichtlineares Modell: Variabilität heute ist Funktion hängt ab 

von der Größe der Beobachtung gestern (und der Variabilität 

gestern im Fall von GARCH) 

Modell 

(7.3.10) 

 

Anwendung im Finanzbereich: 

Idee: Variabilität der Kurse hängt ab vom Marktvolumen 

 

 

 

 

 

 

 

 

(7.3.11) 

 



Matthias Kohl 




596

7.3.7 (b) Realisation in R — in tseries 

Simulation — händisch, siehe Beispiel zu ?garch 

Parameterschätzung garch 

Bestimmung der Modellordnung zB. garch, summary(auf ein 

garch-Objekt angewandt) 

Vorhersage predict 

7.3.8 weitere finanzmathematische Modelle 

z.B. CAPM, Sharpe ratio, Maxloss: 

portfolio .optim, sharpe, maxdrawdown 

übrigens auch: get. hist .quote, um historische Kurse von 

Yahoo!Finance herunterladen 

 

siehe Hilfe zu tseries 

 



Matthias Kohl 




597

7.3.9 Tests aus Paket tseries 

7.3.9 (a) U.i.v.-Hypothese 

BDS-Test bds. test 

7.3.9 (b) Normalität 

Jarque-Bera-Test jarque .bera. test 

7.3.9 (c) Zufälligkeit bei binären Merkmalen 

Run-Test runs. test 

7.3.9 (d) Einheitswurzeltests 

Augmented Dickey-Fuller-Test adf. test 

Phillips-Perron-Test pp. test 

Kwiatkowski-Phillips-Schmidt-Shin (KPSS) kpss. test 

7.3.9 (e) Kointegrationstests 

 

Phillips-Ouliaris-Test po. test 

 



Matthias Kohl 




598

7.4 Geostatistik 

7.4.1 Grundlagen 

7.4.1 (a) Situation 

habe Messungen , die abhängen 

– vom Ort der Messung 

– evtl. Messzeitpunkt 

– Zufall 

also , der Ort, die Zeit 

Beispiele: Modellierung von Wetter, Metalleinlagerungen, 

Gewässerverunreinigung 

Schwierigkeit: niedrigdimensionale Modellierung der 

Abhängigkeit 

 



Matthias Kohl 




599

7.4.1 (b) Begriffe der räumlichen Statistik 

entsprechende Umsetzung der Begriffe Stationarität, Ergodizität 

Analogon zur ACF: Variogramm, Korrelogramm 

in R, genauer in spatial : Funktionen correlogram, variogram mit 

Modellierung expcov, gaucov, sphercov 

Caveat: Nugget–Effekt für Kovarianzen zwischen Punkten, die 

sehr nah beieinander liegen 

7.4.1 (c) Literatur 

anwendungsorientiert: 

Davis (1986), Isaaks and Srivastava (1989) 

Einstieg (allgemein): 

Unwin (1981), Cliff and Ord (1981), Ripley (1981), 

weiterführend: Cressie (1991), Ripley (1991) 

 

spezielle Themen: Stoyan et al. (1995) 

 



Matthias Kohl 




600

(zum Teil kommentierte) Literaturlisten: 

– http://www.geo.sbg.ac.at/staff/lorup/lv/geostats/literatur_kommentiert.htm 

– http://www.geo.sbg.ac.at/staff/lorup/lv/geostats2000/literatur_kommentiert.htm 

– http://slc.mathematik.uni-ulm.de/cgi-bin/vorlinfo.pl?lid=MAS020&semester=SS2002 

Links im WWW: 

– http://www.geog.fu-berlin.de/ ˜ jkrywkow/harald/geostatistik/referat.html 

– http://www.geocities.com/Tokyo/Flats/7335/medical_geography.htm 

– http://www.geo.sbg.ac.at/staff/lorup/lv/geostats2000s/links.htm 

– http://www.spatial-statistics.com/spatial_links_index.htm 

– http://www.statistical.org/ 

7.4.1 (d) wichtige allgemeine Pakete in R 

— zu beziehen auf CRAN 

der üblichen Distribution mit dabei: spatial , 

 

allgemeine Bibliotheken: 

 



Matthias Kohl 




601

– geoR von Paulo J. Ribeiro Jr Peter J. Diggle gepflegt von 

Paulo J. Ribeiro Jr 

– geoRglm — GLM’s für Random Fields, von Ole F. Christensen 

und Paulo J. Ribeiro Jr gepflegt von Ole F. Christensen 

– in BT naheliegend — auch für Extremwertstatistik: 

RandomFields von Martin Schlather 

– ein objekt–orientierter Rahmen für geostatistische 

Modellierung: sgeostat, Orignal in S von James J. Majure; 

portiert in R, erweitert und gepflegt von Albrecht Gebhardt 

Raumzeitprozesse: 

– pastecs — siehe Abschnitt 7.3.1 (b), 

– spatstat von Adrian Baddeley und Rolf Turner, gepflegt von 

Adrian Baddeley 

Pakete von Roger Bivand 

 

– Räumliche Abhängigkeit — Gewichtsschemen, Modelle und 

Statistiken: spdep, von Roger Bivand, mit Beiträgen von 

 



Matthias Kohl 




602

Nicholas Lewin-Koh und Michael Tiefelsdorf, gepflegt von 

Roger Bivand 

– Räumliche und raum–zeitliche Analyse von Punktprozessen: 

splancs von Barry Rowlingson und Peter Diggle, adaptiert, in 

ein R–Paket “geschnürt” und gepflegt von Roger Bivand, 

pcp–Funktionen von Giovanni Petris 

Hilfspakete zur Triangulierung: 

– Delaunay Triangulierung und Dirichlet / (Voronoi) 

Tesselation (Pflasterung?): deldir , von Rolf Turner 

– Triangulierung auf einem ungleichmäßigen, –dimensionalen 

Gitter beobachteter Daten: tripack , Fortran Code von R. J. 

Renka, in R portiert und gepflegt von Albrecht Gebhardt mit 

Beiträgen von Stephen Eglen und Sergei Zuyev 

 

 



Matthias Kohl 




603

7.4.2 Interpolation und Kriging 

Problem: Habe Messungen nur auf Gitter Schätzung an 

Nichtgitterpunkten 

Methoden: 

– niedrigdimensionale, polynomiale Interpolation 

– lokale Trendflächen 

– Ausnutzung der Kovariogramm–Struktur: Kriging — 

Vorhersage eines linearen Modells , 

indem man die Prognose nicht auf setzt, sondern auf 

die aus den Residuen hervorgehende Prognose für 

in R — in Paket spatial 

– polynomiale Interpolation: surf . ls zur Bestimmung des 

Polynoms und trmat zur Auswertung auf (neuem) Gitter 

– lokale Trendflächen — in Paket modreg: loess zur 

Bestimmung der lokalen Fläche und predict zur Auswertung 

 



Matthias Kohl 




604

auf (neuem) Gitter 

– Kriging: anstelle von trmat nun prmat zur Auswertung der 

Kriging–Vorhersage, semat zur Auswertung der Vorhersage 

des Residuums auf (neuem) Gitter 

7.4.3 Punktprozesse 

modelliert das (zufällige) Auftreten von Phänomenen auf einer 

“Beobachtungsfläche” (–region, –menge) 

Beispiel: Verbrechen an einem bestimmten Ort, Ausbruch einer 

Krankheit 

Standardprozess: Poisson–Prozess — keine “Gleichzeitigkeit” 

Begriffe: 

– Intensität in Abhängigkeit einer betrachteten Teilmenge: 

erwartete Zahl an Ereignissen in dieser Menge 

– die – bzw. –Funktion: 

Punkte innerhalb eines Abstands , 

 



Matthias Kohl 




605

; 

Schätzung durch Kfn; durchschnittliches mit Kaver, 

maximales/minimales mit Kenvl 

– Einlesen der Daten und setzen des interessierenden Gebiets 

mit ppinit , neu setzen dann durch ppregion 

Alternative zum Poissonprozess: der Strauss–Prozess in spatial 

realisiert durch Strauss (für Simulationen) und pplik zum 

Einpassen der Parameter an reale Daten 

R–Beispiel 7.4-1 [Piniendatensatz aus Schweden]: 

l i b r a r y ( s p a t i a l ) 

# E i n l e s e n : Daten d e r P i n i e n + Def . b e r e i c h s 

p i n e s p p i n i t ( " p i n e s . dat " ) 

par ( mfrow=c ( 2 , 2 ) , pty=" s " ) 

 

 



Matthias Kohl 




606

p l o t ( p i n e s , x l i m=c ( 0 , 1 0 ) , y l i m=c ( 0 , 1 0 ) , 

x l a b="" , y l a b="" , x a x s=" i " , yaxs=" i " ) 

p l o t ( Kfn ( p i n e s , 5 ) , t y p e=" s " , 

x l a b=" d i s t a n c e " , y l a b="L ( t ) " ) 

l i m s Kenvl ( 5 , 100 , Psim ( 7 2 ) ) 

l i n e s ( l i m s $x , l i m s $ l , l t y =2) 

l i n e s ( l i m s $x , l i m s $u , l t y =2) 

p p r e g i o n ( p i n e s ) 

p l o t ( Kfn ( p i n e s , 1 . 5 ) , t y p e=" s " , 

x l a b=" d i s t a n c e " , y l a b="L ( t ) " ) 

l i m s Kenvl ( 1 . 5 , 1 0 0 , S t r a u s s (72 , 0 . 2 , 0 . 7 ) ) 

l i n e s ( l i m s $x , l i m s $a , l t y =2) 

l i n e s ( l i m s $x , l i m s $ l , l t y =2) 

l i n e s ( l i m s $x , 

 

l i m s $u , l t y =2) 

p p l i k ( p i n e s , 0 . 7 ) 

l i n e s ( Kaver ( 1 . 5 , 1 0 0 , S t r a u s s (72 , 0 . 1 5 , 0 . 7 ) ) , l t y =3) 

 



Matthias Kohl 




607

8 fortgeschrittene 

Programmierung 

8.1 R als objektorientierte Sprache 

8.1.1 Paradigmen objektorientierter 

Programmierung (OOP) 

8.1.1 (a) Literatur 

Booch (1995) 

Stroustrup (1987) 

8.1.1 (b) allgemeine Prinzipien in der Programmierung 

prozedurales Programmieren: 

 



Matthias Kohl 




608

– Grundsituation: einzelner Programmierer 

aus Übersichtlichkeitsgründen: Aufteilen der Programmierung 

in einzelne Funktionen/Prozeduren 

– Paradigma: “Entscheide, welche Prozeduren Du willst; 

verwende den besten Algorithmus, den Du kennst.” 

modulares Programmieren 

– Grundsituation: Gruppe von Programmierern 

Aufteilen der Programmierung in einzelne Module von 

unterschiedlichen Autoren 

– Modul Menge von Prozeduren Daten die diese 

manipulieren 

– Paradigma: “Entscheide, welche Module Du brauchst; zerlege 

die Daten so in Module, dass die Daten in Module 

eingekapselt sind.” 

– Transfer von Daten in und aus Modul über 

Schnittstellenfunktionen 

 



Matthias Kohl 




609

Datenabstraktion 

– Anlegen spezifischer, benutzerdefinierter Typen ( abstrakte 

Datentypen) 

viele verschiedene Schnittstellenfunktionen 

– Paradigma: “Entscheide, welche Typen Du willst; stelle eine 

komplette Menge von Operationen zur Manipulation eines 

jeden Typs zur Verfügung.” 

– Problem: statische Typen oft nicht flexibel genug für geringe 

Erweiterungen 

objektorientiertes Programmieren [OOP] 

– Zusammenfassung von Datentyp (Daten: Attribute) und 

zugehörigen Operatoren (Methoden) in einer Struktur 

(Klasse) mit eigenem Typ. 

– Paradigma: “Entscheide, welche Klassen Du brauchst; stelle 

für jede Klasse eine komplette Menge von Operationen zur 

Manipulation zur Verfügung; mache Gemeinsamkeiten mit 

 



Matthias Kohl 




610

anderen Klassen via Vererbung explizit.” 

Teile der folgenden Abschnitte sind einem Referat von Sebastian 

Schmidt vom 17.06.2002 entnommen. 

8.1.2 OOP – Allgemein 

8.1.2 (a) Grundprinzipien der OOP 

Kapselung: Zugriff auf Attribute nur über Methoden der Klasse, 

kein direkter Zugriff auf Attribute erlaubt. 

Vererbung: Die abgeleitete Klasse erbt die Attribute und 

Methoden ihrer Basisklasse(n). Spezialisierung ist dabei möglich 

durch 

– Überschreiben von Methoden und 

 

– Hinzufügen neuer Methoden und Attribute. 

 



Matthias Kohl 




611

8.1.2 (b) Begriffe / Sprechweisen 

Klassen: (benutzerdefinierter) Datentyp; Struktur aus 

– Daten [Members] und 

– Funktionen [Methoden], um diese Daten zu manipulieren 

Member/Elemente/Eigenschaften: typischerweise unter einem 

Obergesichtspunkt gruppierte Daten 

Methoden: Funktionen, um die Members einer Klasse zu 

manipulieren 

abgeleitete Klassen: 

– Erweiterung bestehender Klassen, indem die bisherigen 

Eigenschaften einfach übernommen (vererbt) werden und 

neue hinzugefügt werden. 

– Methoden der ursrpünglichen Klasse können ohne 

Typumwandlung auf die Member der abgeleiteten Klasse 

zugreifen 

 



Matthias Kohl 




612

Instanz / Objekt: Variable vom Typ einer Klasse 

abstrakte Klassen / virtuelle Methoden: 

oft ist es aus Hierarchiegründen sinnvoll eine abstrakte 

“Urvater”-Klasse zu definieren, deren Methoden aber noch nicht 

sinnvoll zu definieren sind und erst bei abgeleiteten Klassen 

sinnvolle Realisierungen besitzen 

Konstruktor: Methode zur Initialisierung eines Objekts vom Typ 

der entsprechenden Klasse 

Destruktor: Methode zur Löschung eines Objekts vom Typ der 

entsprechenden Klasse (mit Speicherfreigabe) 

public/private/friends: 

– um die Kapselung zu erleichtern, können bestimmte 

Methoden und Member, die nur intern gebraucht werden 

(private), vor dem (fremden) Nutzer der Klasse verborgen 

bleiben; 

 



Matthias Kohl 




613

– dieser sieht nur die explizit als ihm zugänglich (public) 

gekennzeichneten Komponenten; 

– sollen bestimmte Komponenten im allgemeinen wie private 

behandelt werden, aber für in der Hierarchie nahestehende 

Klassen zugänglich sein friend–Konzept 

Templates: 

Ebenso wie es sinnvoll sein kann, verschiedene Instanzen ein und 

derselben Klasse in Form von Variablen zu behandeln, ist es 

möglich, verschiedene ganz ähnlich zu realisierende Klassen in 

Form von einem Template zu realisieren; typischerweise können 

so verschiedene Realisierungen der gleichen Klasse, deren 

Member aber unterschiedliche Typen haben, z.B. eine Liste mit 

double–, bzw. char–Einträgen 

 

 



Matthias Kohl 




614

8.1.3 OOP – Realisierung in R 

8.1.3 (a) Exkurs: “Personen–Kult” zu John M. Chambers 

siehe auch seine Homepage: 

http://cm.bell-labs.com/cm/ms/who/jmc/index.html 

die “farbigen” Bücher 

– “Blue Book”: 

Becker et al. (1988), Einführung von S Version 2, 

– “White Book”: 

Chambers and Hastie (1992), Einführung von S Version 3 

— neue Strukturen zur Modellformulierung in S 

– “Green Book”: 

Chambers (1998), Beschreibung von S Version 4 

wichtige Papers: 

“Classes and methods in S.” Teil I/II (Chambers (1993a,b)), 

 



Matthias Kohl 




615

auch im Netz: http://cm.bell-labs.com/stat/doc/93.26.ps und 

http://cm.bell-labs.com/stat/doc/93.27.ps 


Die OOP ist in R historisch bedingt auf zwei verschiedene Weisen 

realisiert: 

S3-Classes: 

basierend auf S Version 3 — einzige Objektorientierung bis 

einschließlich R 1.6.1 

– noch keine Polymorphie (siehe später) 

– keine formale Klassendefinition möglich 

– Feststellung der Klasse eines Objekts durch das Attribut 

class , s.u. 

– kein klarer Vererbungsmechanismus 

– immer noch wichtig: 80% des (Standard-R-)Codes noch mit 

S3-Konzept geschrieben 

 



Matthias Kohl 




616

S4-Classes: 

basierend auf S Version 4 — ab R 1.7.0 zusätzlich zu 

S3-Classes; größere Umstellungen ab R 2.0.0 

– Polymorphie zulässig 

– Grundlage dieser Vorlesung 

8.1.3 (b) Abstrakte Datentypen / Klassen 

eine einfache Idee, Programme lesbarer, modularer und leichter 

modifizierbar zu gestalten 

durch Verwendung eigener Datentypen wird man unabhängig 

von der konkreten (Rechner–)Darstellung / Implementierung der 

Daten, man muss nur wissen, welche Operationen zulässig sind 

Beispiel: lm1 lm(y~x) erzeugt ein Ergebnis vom Typ lm. 

 

– Aufgabe: Ausgabe der Residuen 

 



Matthias Kohl 




617

– Lösungen: 

new; 

 

a lm1$residuals 

b resid (lm1) 

– Ansatz (b) ist vorzuziehen, denn er verlangt nicht, dass lm1 

eine Liste ist 

– Nach Modifikation / Erweiterung des Typs lm ist der 

erweiterte Typ keine Liste mehr! 

– Ansatz (b) funktioniert aber weiter. 

“Nicht die Implementation eines Objekts steht im 

Vordergrund sondern das, was wir mit ihm tun.” 

CAVEAT: unterschiedliche Sprechweise: in S heißen Members 

slots 

Instanzierung/Initialisierung eines Objekts durch Konstruktor 

– Beispiel: xnew("circle",r=3.3) 

 



Matthias Kohl 




618

– generiert ein Objekt x vom Typ / Klasse “circle” 

8.1.3 (c) Methoden 

in den meisten Umsetzungen des OOP–Konzeps, wie C++, ADA, 

MODULA sind die Methoden spezielle Member und als solche über 

die Instanz zugänglich — vgl. z.B. in C++: Sei X eine Instanz der 

Klasse shape, und diese habe die Methode rotate, und die 

Member xcoordlist, ycoordlist. Dann rotieren wir die 

Member von X um durch Aufruf von X.rotate(20); eine 

solche Herangehensweise heißt in der Terminologie von 

Bengtsson (2003) COOP oder class-object-orientated 

programming 

in S dagegen: FOOP (function-object-orientated programming); 

hier sind die Methoden nicht am Objekt, sondern sind 

generischen Funktionen zugeordnet. 

Wie erkennt dann S, welche Methode print bei einem 

konkreten Objekt zu verwenden ist? 

 



Matthias Kohl 




619

Konzepte: generische Funktion und Method Dispatch 

[Methoden–Zuordnung] 

über generische Methoden wird Polymorphismus realisiert 

(mehrere print–Methoden für verschiedene Klassen) 

die Liste der Argumente einer Methode (vgl. args bei 

Funktionen) heißt auch Signatur 

es sei denn man hat gute Gründe: ... als Argument in 

generischer Funktionen, um diese leicht erweiterbar zu halten 

das Method Dispatching erfolgt über die generische Funktion, 

und zwar wie folgt: 

– bei Aufruf einer generischen Funktion werden alle unter 

diesem Namen verfügbaren Methoden gelistet 

– gemäß der Klassenhierarchie werden die Methoden 

angeordnet, und zwar die spezifischste (in der 

Vererbungs–Hierarchie am weitesten unten stehende) zuerst 

und dann die weniger spezifischen 

 



Matthias Kohl 




620

– die spezifischste Methode wird verwendet 

Welche Methode “spezifischer” ist als andere entscheidet S 

anhand der Klasse der Argumente der generischen Methode — 

und mit der damit implizierten Klassenhierarchie 

im S3–Klassenkonzept erfolgt das Dispatching nur anhand des 

ersten Arguments, im S4–Klassenkonzept anhand aller 

Argumente 

im S3–Klassenkonzept ist das Dispatching sehr informell; 

Objekte können ihre Klasse ändern oder auch extern 

umgewandelt werden. 

Im S4–Klassenkonzept ist die Klasse fix! 

 



Matthias Kohl 




621

8.1.3 (d) Klassen und Vererbung im S3–Klassenkonzept 

Jedes R-Objekt speichert seine Klasseninformation in einem 

String-Vektor. Das erste Element ist die Klasse des Objekts, das 

zweite die Vaterklasse, 

Setzen des Klassenvektors: class ()

Konflikt / Zweideutigkeit: foo.bar.baz wird sowohl als Methode 

bar.baz der Klasse foo als auch als Methode baz der Klasse 

 

foo.bar interpretiert 

Methoden können auch direkt aufgerufen werden (ohne 

generische Methode) Check der Argument-Typen notwendig 

 



Matthias Kohl 




623

8.1.3 (e) Klassen und Vererbung im S4–Klassenkonzept 

viel umfassender als S3–Klassenkonzept 

 

– explizite Definition von Klassen und Spezifikation von 

Vererbung 

– generische Methoden führen Buch über spezifische Methoden 

– multiple Zuordnung [multiple dispatch] möglich 

 



Matthias Kohl 




624

8.1.3 (f) weitere Literatur 

Beiträge von Bob Gentleman auf der Homepage des “S 

Programming Workshop” am Department of Statistics an der 

University of Auckland, 13. und 14. Februar 2003, 

http://www.stat.auckland.ac.nz/S-Workshop/ 

– die Slides: 

http://www.stat.auckland.ac.nz/S-Workshop/Gentleman/Methods.pdf 

– eine Kurzzusammenfassung: 

http://www.biostat.harvard.edu/courses/individual/ 

die R–Manuals 

– Writing R Extensions: 

 

/bio271/lectures/L11/S4Objects.pdf 

– R Language Definition: 

http://cran.r-project.org/doc/manuals/R-lang.pdf 

http://cran.r-project.org/doc/manuals/R-exts.pdf 

 



Matthias Kohl 




625

8.1.4 Befehle: Klassen im S4–Klassenkonzept 

8.1.4 (a) Klassendefinition: Syntax und Beispiele 

Verwendung der Bibliothek methods 

mithilfe der Funktion setClass 

diese hat als Argumente (in dieser Reihenfolge) 

– Class: ein Character-String als Name der Klasse 

– representation: Namen und Typen der Slots 

– prototype: normalerweise eine Liste mit 

Default–Slotbelegungen; spezifiziert, wie eine neue Instanz 

dieser Klasse bei der Initialisierung aussehen soll; 

kann auch über eine initialize–Methode für die Klasse 

kontrolliert werden 

 



Matthias Kohl 




626

– validate: eine Funktion, die überprüft, ob es sich bei einer 

Instanz um eine zulässige Wertebelegung der Klasse handelt 

– where: in welchem environment soll die Klassendefinition 

abgelegt werden? 

– contains: welche Klassen sind Ahnen dieser Klasse? 

Reihenfolge relevant für Dispatch. 

– package: optional: welchem Paket (package) soll die Klasse 

zugeordnet werden? 

– formal: Soll eine formale Definition verlangt werden? 

– sealed: Falls TRUE, wird diese Definition gegen 

Überschreiben, i.e. gegen Neuzuordnung dieses 

Klassennamens einer alternativen Klassendefinition per 

setClass , geschützt 

– removeSubclassLinks: Wenn eine Klasse gelöscht wird, 

werden alle Verknüpfungen anderer Klassen zu dieser Klasse 

ungültig. Sofern dieses Argument nicht auf FALSE gesetzt 

 



Matthias Kohl 




627

wird, sucht removeClass alle solchen Verknüpfungen ab und 

löscht diese. Man kann dieses Argument auch weglassen, 

oder auch die Positionen in der Suchliste spezifizieren, die bei 

dieser Suche nach Verknüpfungen durchlaufen werden sollen 

— per default werden alle mit attach in die Suchliste 

aufgenommenen Objekt–tables durchlaufen 

– resetSubclasses: soll resetClass auch alle bekannten 

Unter/Nachfahren–Klassen zurücksetzen? 

normalerweiseTRUE 

Beispiel: eine Struktur für spezifische Messungen der Gestalt 

 

setClass ("track", representation (x="numeric", y="numeric")) 

Beispiel (fortges.): 

eine abgeleitete Klasse, die zusätzlich noch einen Slot smooth hat 

setClass ("trackCurve", representation ("track",smooth="numeric")) 

 

Beispiel (fortges.): eine Klasse, bei der simultan analog zu 

 



Matthias Kohl 




628

matplot mehrere Kurven verarbeitet werden können; hier ist ein 

Prototyping sinnvoll: 

R–Beispiel 8.1-2 [eine trackMultiCurve-Klasse]: 

(aus Chambers (1998)/R-Hilfe) 

s e t C l a s s ( " t r a c k M u l t i C u r v e " , r e p r e s e n t a t i o n ( 

x=" numeric " , y=" m a t r i x " , smooth=" m a t r i x " ) , 

p r o t o t y p e= l i s t ( x=numeric ( ) , 

y=m a t r i x ( 0 , 0 , 0 ) , 

smooth=m a t r i x ( 0 , 0 , 0 ) ) ) 

offenbar ist "trackMultiCurve" kein direkter Nachfahre von 

"trackCurve"; damit aber dennoch die Methoden von 

"trackCurve" für "trackMultiCurve" zur Verfügung stehen, wenn 

die Zahl der Spalten von y und smooth gleich ist, müssen wir 

ein bedingtes Casting definieren: 

 



Matthias Kohl 




629

R–Beispiel 8.1-3 [bedingtes Casting]: 

s e t I s ( " t r a c k M u l t i C u r v e " , " t r a c k C u r v e " , 

t e s t = f u n c t i o n ( o b j )# 

{ n c o l ( s l o t ( obj , "y" ) ) == 1} , 

c o e r c e = f u n c t i o n ( o b j ) { 

}) 

new ( " t r a c k C u r v e " , 

x = s l o t ( obj , "x" ) , 

y = as . numeric ( s l o t ( obj , "y" ) ) , 

smooth = as . numeric ( s l o t ( obj , 

" smooth " ) ) ) 

 



Matthias Kohl 




630

Generierung einer Instanz von "trackCurve": 

R–Beispiel 8.1-4 [Instanzierung]: 

x0 1 : 1 0 

y0 s i n ( 1 : 1 0 ) + 0 . 3 £ rnorm ( 1 0 ) 

ys s p l i n e ( x0 , y0 ) $y 

mycurve new ( " t r a c k C u r v e " , x=x0 , 

y=y0 , smooth=ys ) 

8.1.4 (b) Zugriff auf Slots im S4–Klassenkonzept 

Typen und Namen der Slots eines Objekts bekommt man mit 

getSlots() bzw. slotNames() 

Zugriff auf Slots eines Objekts immer mit @ möglich, z.B. gibt 

mycurve@x den Slot x von mycurve aus, und mycurve@y2£y0 

modifiziert den Slot y von mycurve 

 



Matthias Kohl 




631

ABER: direkter Zugriff auf die Slots ist ein Verstoß gegen das 

Prinzip der Datenabstraktion! — wir hängen nun von der 

konkreten Implementation der Klasse ab! 

Verdeutlichung anhand eines Beispiels: 

– wir betrachten eine Klasse, die das Konzept “Dreieck” 

umsetzt; sei eine Instanz davon 

– ein Dreieck kann man auf verschiedene Arten darstellen: 

£ Position aller drei Ecken im 

£ Position zweier Ecken im und deren Winkel 

£ Längen der Seiten und Angabe des Punktes 

£ 

– es sollen gewisse Berechnungen mit Dreiecken durchgeführt 

werden 

– Wenn wir auf den Flächeninhalt mit x@area zugreifen, muss 

die Klasse mit einem solchen Slot implementiert sein. 

 

– Wenn wir stattdessen area(x) verwenden, können wir die 

 



Matthias Kohl 




632

Methode (mit ein und demselben Namen!) für die 

verschiedenen Darstellungen von Dreiecken implementieren; 

im Beispiel einer Implementierung mit Slot area könnte das 

dann so aussehen: setMethod("area"," triangle ",x@area) 

8.1.4 (c) Virtuelle Klassen 

eine virtuelle Klasse ist eine Klasse, von der keine Instanzen 

gebildet werden können 

Zweck: eine gemeinsame Struktur für verschiedene Klassen zur 

Verfügung stellen, von denen Instanzen gebildet werden können 

Generierung einer virtuellen Klasse: 

– entweder: kein representation–Argument in setClass 

angeben 

– oder: die Klasse VIRTUAL ins representation–Argument 

einschließen 

 



Matthias Kohl 




633

Konsequenzen 

– die Methoden der virtuellen Klasse stehen allen abgeleiteten 

Klassen zur Verfügung 

– ein Slot einer neuen Klasse kann vom Typ der virtuellen 

Klasse sein Polymorphismus, i.e. eine Klasse kann mehrere 

“Väter” haben 

– die Slots der virtuellen Klasse stehen allen abgeleiteten 

Klassen zur Verfügung 

Beispiel: die Klasse "vector" ist virtuell und hat als abgeleitete 

Klassen “getypte” Vektoren, also character, numeric 

siehe auch getClass("vector"), und getMethods("length") zeigt die 

für die virtuelle Klasse definierte Methode und wie diese 

überladen wird 

 

 



Matthias Kohl 




634

8.1.4 (d) Anwendung virtueller Klassen I: rekursiv definierte Klassen 

es soll ein Dendrogramm realisiert werden, also ein Baum mit 

zusätzlichen Attributen 

genauer soll es einen Wurzelknoten wknot, innere Knoten iknot 

und terminale Knoten tknot geben 

der gemeinsame Vorfahre dieser drei Knotentypen sei knot 

Chambers: Rekursivität keine gute Idee, weil die “whole object” Perspektive 

nicht möglich ist kein effizienter vektorwertiger Zugriff auf 

die Knotenelemente eines Baums möglich 

 

 



Matthias Kohl 




635

Realisierung: 

R–Beispiel 8.1-5 [eine Dendrogramm–Klasse]: 

s e t C l a s s ( " knot " ) 

s e t C l a s s ( " wknot " , r e p r e s e n t a t i o n ( l i n k s=" knot " , 

r e c h t s=" knot " , Hoehe=" numeric " ) , 

c o n t a i n s=" knot " ) 

s e t C l a s s ( " i k n o t " , r e p r e s e n t a t i o n ( " wknot " , 

v a t e r=" knot " ) , c o n t a i n s=" wknot " ) 

s e t C l a s s ( " t k n o t " , r e p r e s e n t a t i o n ( l a b e l=" c h a r a c t e r " , 

v a l u e=" numeric " , Hoehe=" numeric " , 

v a t e r=" knot " ) , c o n t a i n s=" knot " ) 

8.1.4 (e) Anwendung virtueller Klassen II: gemeinsame Oberklasse 

oft soll ein Slot je nach Situation entweder leer sein oder eine 

Liste enthalten 

 



Matthias Kohl 




636

Problem: NULL ist selbst keine Liste! — daher so ohne weiteres 

kein gemeinsamer Slot möglich 

Lösung: gemeinsame Oberklasse für NULL und list 

dafür ab R 1.8.0 setClassUnion 

Realisierung: 

 

R–Beispiel 8.1-6 [die listOrNULL–Klasse]: 

—vgl. Chambers (1998) 

s e t C l a s s ( " listOrNULL " ) 

s e t I s ( " l i s t " , " listOrNULL " ) 

s e t I s ( "NULL" , " listOrNULL " ) ; 

# ab R 1 . 8 . 0 k u e r z e r : 

s e t C l a s s U n i o n ( " l i s t O r N u l l " , c ( "NULL" , " l i s t " ) ) 

# damit m o e g l i c h : 

s e t C l a s s ( " c1 " , r e p r e s e n t a t i o n (# 

v a l u e=" listOrNULL " ) ) 

y1 new ( " c1 " , v a l u e=NULL ) ; y1 

 



Matthias Kohl 




637

y2 new ( " c1 " , v a l u e= l i s t ( a =3)); y2 

8.1.4 (f) Initialisierung und Prototyping 

bei der Erzeugung einer Instanz einer Klasse gibt es im Prinzip 

zwei Mechanismen 

– Prototyping: Angabe eines prototype–Arguments, i.e. einer 

Default–Wertebelegung, z.B. 

s e t C l a s s ( " t r a c k M u l t i C u r v e " , r e p r e s e n t a t i o n (# 

x=" numeric " , y=" m a t r i x " , 

smooth=" m a t r i x " ) , 

p r o t o t y p e= l i s t ( x=numeric ( ) , 

und dann Generierung der Instanz per 

y1new("trackMultiCurve") 

y=m a t r i x ( 0 , 0 , 0 ) , 

smooth=m a t r i x ( 0 , 0 , 0 ) ) ) 

 



Matthias Kohl 




638

– Bereitstellung einer Initialisierungsmethode: 

R–Beispiel 8.1-7 [eine Initialisierungsmethode]: 

setMethod ( " i n i t i a l i z e " , " t r a c k M u l t i C u r v e " , 

f u n c t i o n ( . Object , x ){# 

) 

. Object@x x 

. Object@y m a t r i x ( c ( s i n ( x ) , cos ( x ) ) , 

l e n g t h ( x ) , 2 ) 

. Object@smooth m a t r i x ( c ( s i n ( x ) , 

cos ( x ) ) , l e n g t h ( x ) , 2 ) 

. Object } 

mycurve new ( " t r a c k M u l t i C u r v e " , x =0:100) 

 



Matthias Kohl 




639

8.1.5 Befehle: Methoden im S3– und 

S4–Klassenkonzept 

Erinnerung: 

Methoden sind in R Funktionen, die man mit unterschiedlichen 

Argumenttypen aufrufen kann. 

Generic Functions sind Funktionen, die in Abhängigkeit von der 

Klasse ihrer Attribute eine Funktion aufrufen, die die eigentliche 

Arbeit übernimmt. 

Beispiele: plot, print , summary 

8.1.5 (a) Methoden im S3–Klassenkonzept 

Aufruf einer Methode: direkt oder über eine generische Funktion 

methods(class = c) gibt alle S3-Methoden der Klasse c als Liste 

zurück. 

 



Matthias Kohl 




640

Anlegen der generischen Funktion: 

 

– schreibe eine Funktion () 

– in dieser Funktion benutze UseMethod(generic=«name>") 

— Funktionsweise: 

Wird Funktion mit Argument aufgerufen und 

besitzt den Klassenvektor c(class1", class2"), so 

versucht UseMethod (in dieser Reihenfolge) eine der 

Funktionen .class1, .class2 oder 

.default aufzurufen. Falls keine dieser Funktionen 

existiert, wird ein Fehler ausgegeben. 

 



Matthias Kohl 




641

Anlegen einer spezifischen Methode für Funktion und 

S3-Klasse 

 

– schreibe eine Funktion .() 

(Namenskonvention verbindlich!) 

– sei Mutterklasse von 

– soll innerhalb . auch der Code der Methode 

. abgearbeitet werden, so ist dies möglich 

mit NextMethod(generic=«name>") 

— Funktionsweise: 

£ die Argumente der aufrufenden Funktion 

.() werden übergeben, auch 

ihre lokalen Variablen bleiben gültig. 

£ Vorsicht: Nach Abarbeitung der mit NextMethod 

aufgerufenen Methode kehrt das Programm nicht in die 

aufrufende Methode zurück, der auf NextMethod folgende 

Teil wird also übersprungen! 

 



Matthias Kohl 




642

8.1.5 (b) Generische Funktionen in S4 

Definition: mit setGeneric 

– Argumente: 

£ name: Zeichenkette; Name der generischen Funktion 

£ def: eine Funktionsdefinition; erforderlich, falls es bisher 

noch keine Funktion mit Namen name 

£ weitere Argumente: hier nicht; siehe Hilfe zu setGeneric 

– Beispiel 

s e t G e n e r i c ( "myFoo" , f u n c t i o n ( o b j e c t ) 

s t a n d a r d G e n e r i c ( "myFoo" ) ) 

– dabei gibt standardGeneric("myFoo") einen Fehler aus, wenn 

keine Methode "myFoo" für den Typ des Arguments definiert 

ist 

Deklaration spezifischer abgeleiteter Methoden für einzelne 

Argumenttypen mit setMethod 

 



Matthias Kohl 




643

– Argumente: 

 

£ f: Der Name der generischen Funktion als Character-string 

£ signature: ein Satz formaler Argumentnamen von f mit 

den entsprechenden Klassennamen als Character-strings; 

kann auch nur ein Vektor von Klassennamen sein; dann 

entspricht der erste Name dem Typ des ersten Arguments, 

der zweite dem des zweiten Arguments usw. 

£ definition: Eine Funktionsdefinition, die verwendet wird, 

wenn die Argumente im Aufruf von f mit denen der 

Klassen im signature–Argument zusammenpassen, — 

entweder direkt oder per Vererbung 

£ weitere Argumente: hier nicht; siehe Hilfe zu setMethod 

– R–Beispiel 8.1-8: 

setMethod ( "myFoo" , " c h a r a c t e r " , f u n c t i o n ( o b j e c t ) 

p r i n t ( o b j e c t ) ) 

myFoo ( a ) # g i b t a aus 

myFoo ( 1 ) # F e h l e r da k e i n C h a r a c t e r 

 



Matthias Kohl 




644

– R–Beispiel 8.1-9 [ein plot-Befehl]: 

## Plot Methoden f u e r t r a c k Objekte 

## 

## z u e r s t mit nur einem Objekt a l s Argument : 

setMethod ( " p l o t " , s i g n a t u r e ( x=" t r a c k " , 

) 

y=" m i s s i n g " ) , 

f u n c t i o n ( x , y , . . . )# 

p l o t ( s l o t ( x , "x" ) , s l o t ( x , "y" ) , . . . ) 

## nun : p l o t d i e Daten aus dem t r a c k Objekt a u f 

## d e r y Achse gegen was auch immer a u f d e r 

## x Achse 

setMethod ( " p l o t " , s i g n a t u r e ( y = " t r a c k " ) , 

) 

f u n c t i o n ( x , y , . . . ) p l o t ( x , s l o t ( y , "y" ) , . . . ) 

## und e n t s p r e c h e n d mit t r a c k Daten 

## a u f d e r x Achse 

 



Matthias Kohl 




645

## d a b e i b e n u t z t : Kurzform d e r 

## S i g n a t u r s p e z i f i k a t i o n 

setMethod ( " p l o t " , " t r a c k " , 

) 

f u n c t i o n ( x , y , . . . )# 

p l o t ( s l o t ( x , "y" ) , y , . . . ) 

Löschen von Methoden und generischen Funktionen mit 

removeGeneric, removeMethod, removeMethods — letzteres zum 

Löschen ganzer Gruppen von Methoden 

 



Matthias Kohl 




646

8.1.5 (c) Zugriffsmethoden — Accessor Functions 

um den unmittelbaren Zugriff auf Slots mit @ zu vermeiden 

Zugriffsfunktionen 

Beispiel: Zugriff (noch ohne Modifikationsmöglichkeit) auf Slot 

y von trackMultiCurve via Methode y 

 

R–Beispiel 8.1-10 [Zugriffsmethode]: 

i f ( ! i s G e n e r i c ( "y" ) ) { 

i f ( i s . f u n c t i o n ( "y" ) ) 

fun y 

e l s e fun f u n c t i o n ( o b j e c t ) 

s t a n d a r d G e n e r i c ( "y" ) 

s e t G e n e r i c ( "y" , fun )} 

setMethod ( "y" , " t r a c k M u l t i C u r v e " , 

f u n c t i o n ( o b j e c t ) o b j e c t @ y ) 

mycurve new ( " t r a c k M u l t i C u r v e " , x =0:100) 

y ( mycurve ) 

 



Matthias Kohl 




647

8.1.5 (d) Überladen bestehender Funktionen 

Beispiel: Überladen des +–Operators für Zeichenketten 

 

setMethod ( "+" , c ( " c h a r a c t e r " , " c h a r a c t e r " ) , 

f u n c t i o n ( e1 , e2 )# 

p a s t e ( e1 , e2 , sep="" ) ) 

R–Beispiel 8.1-11 [Indexoperator]: 

— siehe auch Übung/Hilfe: 

Obwohl "[" und "length" keine gewöhnlichen, sondern . Primitive 

Funktionen sind (d.h. Code nicht sichtbar!), kann man sie trotzdem 

überladen: 

setMethod ( " [ " , " t r a c k " , 

f u n c t i o n ( x , i , j , . . . , drop ) { 

x@x x@x [ i ] ; x@y x@y [ i ] 

x }) 

 



Matthias Kohl 




648

t1 new ( " t r a c k " , x =1:20 , y =(1:20)^2) 

p l o t ( t1 [ 1 : 1 5 ] ) 

8.1.5 (e) Ersetzungsmethoden 

Problem: in S eigentlich kein “Pass by Reference” zur Übergabe 

von Argumenten, sondern “Pass by Value”, i.e. es werden lokale 

Kopien angelegt 

eigentlich keine Modifikation von Argumenten möglich 

aber: in S geschieht alles über Funktionen! Wie ist also dann die 

Zuweisung x [1] 10 organisiert? 

– x [1] 10 wird intern umgesetzt in 

xdo. call ("[", list (x ,1, value=10)) 

– dabei wird zuerst x kopiert und der Wert des ersten 

Elementes wird auf gesetzt 

 



Matthias Kohl 




649

– die Funktion [ gibt dann ein Objekt vom gleichen Typ wie 

x zurück, nur eben mit den gewünschten Änderungen 

– zuletzt verknüpft (rebinds) der Auswertungsmechanismus in 

S das Symbol x mit diesem neuen Wert 

auf diese Weise “Pass by Reference” nachgeahmt 

für Ersetzungsmethoden ist die Strategie ähnlich: 

– zuerst muss eine generische Funktion erzeugt werden — mit 

einem –Suffix 

– dann muss man die Ersetzungsmethode definieren 

– dabei heißt das letzte Argument value, und die Methode 

liefert eine modifizierte Kopie des ersten Arguments zurück 

– beide Argumente müssen dabei angegeben werden, damit die 

Methode funktioniert. 

 



Matthias Kohl 




650

R–Beispiel 8.1-12 [Ersetzungsmethode]: 

s e t G e n e r i c ( "y " , f u n c t i o n ( x , v a l u e ) # 

s t a n d a r d G e n e r i c ( "y " ) ) 

setReplaceMethod ( "y" , " t r a c k M u l t i C u r v e " , 

f u n c t i o n ( x , v a l u e ) 

) 

{x@y v a l u e 

x} 

y ( mycurve ) y ( mycurve) 2 

anderer Trick, “Pass by Reference” nachzuahmen: 

eval .parent( substitute (x@value)) 

Dabei gibt substitute zu einen nicht ausgewerteten Ausdruck im 

Argument den Parsing-Tree zurück; dieser wird dann mit eval .parent im 

 

aufrufenden frame ausgewertet; vgl. auch Beispiel 6.6-1 

 



Matthias Kohl 




651

R–Beispiel 8.1-13 [Simulationsbeispiel]: 

 

setMethod ( " s i m u l i e r e " , 

) 

s i g n a t u r e ( x=" s i m u l a t i o n " ) ,# 

f u n c t i o n ( x )# 

{ s e t . seed ( x@seed ) 

} 

i f ( x @ r u n z a h l £ x@samplesize >0) 

e v a l . p a r e n t ( s u b s t i t u t e (# 

x@Daten m a t r i x ( rnorm (# 

x @ r u n z a hl £ x @ s a m p l e s i z e ) ,# 

x@runzahl , x @ s a m p l e s i z e ) ) ) 

r e t u r n ( i n v i s i b l e ( ) ) 

 



Matthias Kohl 




652

8.1.5 (f) elementweise Funktionen, arithmetische und andere 

 

Operatoren 

in S möglich: Gruppierung von Methoden, um diese als Gruppe 

bestimmten Klassen zur Verfügung zu stellen (c.f. 8.1.5 (g)) 

wichtige Gruppe: die Gruppe der Math–Funktionen 

– genauer: Math ist die Gruppe der elementweise auf 

Datenstrukturen ausführbaren Operationen, wie z.B. "+" 

(das unäre!), sin, is . null , .... 

– R–Beispiel 8.1-14 Math–Funktionen: 

£ Ziel: Math–Funktionen für Simulationsklasse aus Übung 

£ Umsetzung: Math–Funktionen wirken auf Slot Daten 

setMethod ( "Math" , " s i m u l a t i o n " , 

f u n c t i o n ( x ){# 

x@Daten=c a l l G e n e r i c ( x@Daten ) 

x }) 

 



Matthias Kohl 




653

weitere Gruppen: 

– Math2 

£ zusätzlich zu Math: ein zweites Argument digits, das die 

Genauigkeit steuert; 

£ Beispiele: round, signif 

– Summary 

£ aggregieren (meistens) numerische Werte 

£ Beispiele: sum, summary, max 

£ summary fasst auch nicht numerische Werte zusammen 

£ Problem: Anwendung einer Funktion auf eine Liste 

typ-heterogener Objekte? 

£ Lösung: S wendet die Funktion dann rekursiv elementweise 

mit der entsprechenden Methode an 

arithmetische Operatoren 

– S benutzt “infix”–Notation, d.h. x£y anstelle der funktionalen 

“postfix”–Notation "*"(x,y) wie z.B. Lisp 

 



Matthias Kohl 




654

– aber nur eine Frage des Interpreters; realisiert sind diese 

Funktionen genauso wie gewöhnliche 

– jeder solche Operator ruft eine Funktion mit Namen des 

“infix”–Operators in Anführungszeichen auf, also z.B. wird 

x£y intern umgesetzt in "£"(x,y) 

– Gruppen solcher zweistelligen Operatoren: 

£ Arith — Beispiele: + (binär!), /, ^ 

£ Compare — Beispiele: >, >=, !=, compare 

£ Logic — Beispiele: &, !, | 

£ Ops Arith,Compare,Logic 

– Problem: Was tun, wenn der erste Operand von anderem 

Typ wie der zweite? 

– genauso: falls der zweite Operand fehlt (“missing”), dann 

sollte der Operator als unär interpretiert werden können, 

wenn dies sinnvoll ist 

 

finden einer gemeinsamen Mutterklasse, Casting, siehe 


 



Matthias Kohl 




655

Chambers: Operatoren sollten sinnvoll sein, wenn einer der beiden 

Operanden numerisch "+" für Strings — wie in JAVA — 

keine gute Idee 

8.1.5 (g) eigene Gruppen generischer Funktionen 

Ziel: Anlage eigener Gruppen analog zu Math–Funktionen 

wichtig: alle Funktionen in der Gruppe müssen die gleichen 

formalen Argumente (und Namen!) besitzen — es findet kein 

weiteres matching zwischen dem Aufruf und der Ausführung der 

Methode statt! 

Anlegen einer Gruppe durch: 

setGroupGeneric("",function()NULL) 

Eintragen als Mitglied einer Gruppe durch: 

– setGeneric("",group="") 

 

– falls die Funktion schon als generisch deklariert ist: 

setGroup("","") 

 



Matthias Kohl 




656

Anzeige aller Gruppenmitglieder mit 

getGroupMembers("") 

8.1.6 Befehle: Anfragen, welche Methoden wie 

existieren 

mit exaktem match: 

 

– Gebe Methode zu vorgegebener Signatur in entsprechender 

Datenbank zurück: 

getMethod("", signature(), 

[where=|frame=]) 

– Gibt es Methode zu vorgegebener Signatur in entsprechender 

Datenbank? 

existsMethod("", signature(), 


– Finde Methode zu vorgegebener Signatur: 

findMethod("", signature()) 

 



Matthias Kohl 




657

– Gebe alle Methoden zu einer generischen Funktion in 

entsprechender Datenbank zurück: 

getMethods("",[where=| 

frame=]) 

– Zeige alle Methoden zu einer bestimmten generischen 

Funktion 

showMethods("",[where=| 

classes =|, includeDefs=|, 

inherited =|, printto =]) 

Dabei ist eine Liste mit Klassen, auf die die 

Suche beschränkt werden kann, mit includeDefs=T lässt man 

sich die Bodies der Methoden mit ausgeben, mit 

inherited =T, werden die neu als ererbt erkannten Methoden 

mit angegeben, mit können wir eine andere 

Ausgabe als die Konsole wählen —meist ein File. 

mit Ableitung / Dispatch (i.e. extends– und group–Relationen) 

– Gebe Methode zu vorgegebener Signatur in entsprechender 

 



Matthias Kohl 




658

Datenbank zurück: 

selectMethod("", signature(), 


– Gibt es Methode zu vorgegebener Signatur in entsprechender 

Datenbank? 

hasMethod("", signature(), 


In welcher Datenbank ist eine Methode als generisch deklariert? 

findGeneric ("") 

Ist Funktion als generisch deklariert? 

isGeneric ("") 

 



Matthias Kohl 




659

8.1.7 Befehle: Versionsmanagement 

[noch nicht in R realisiert; nur in Chambers (1998) konzipiert] 

praktisch nicht vermeidendes Problem: 

möchte Instanz einer Klasse einlesen, habe aber zwischenzeitlich 

die Klassendefinition geändert 

Default Lösung: S liest die Instanz in einer “unklassierten” Form, 

d.h. in einem Typ, der die gleichen Daten enthält wie das 

ursprüngliche Objekt, aber nicht mehr von diesem Typ ist 

besser: S bietet Tools, um verschiedene Versionen von 

Klassendefinitionen zu verwalten; diese umfassen 

– Verwaltung eines Objekts vom Typ version 

– diese enthält Meta–Information wie 

£ sukzessive “ representation ”s einer Klasse 

genauer: unclass() 

 



Matthias Kohl 




660

£ Methoden zur Konvertierung von einer Klassendefinition in 

eine andere — oft automatisch beim update erstellbar, 

bzw. falls nicht vom Entwickler bereitzustellen 

– Versionsmanagement ist optional aber sehr empfohlen 

– Anmeldung einer Klasse zum Versionsmanagement mit 

setClassVersion ("") 

– Anmeldung eines Klassenupdates zum Versionsmanagement 

mit setClassVersion ("") 

– Umwandlung der Objekte vom alten Typ in den neuen Typ 

mit updateObjects("") 

– bei einer einfachen Erweiterung wird die 

updateObjectsMethode gemäß folgender Heuristik 

automatisch erstellt 

1. Slots, die in einer alten Version vorhanden waren und in 

 

der neuen nicht mehr, werden außer acht gelassen 

2. neuhinzugekommene Slots werden mit den default–Werten 

 



Matthias Kohl 




661

aus dem prototype–Argument initialisiert 

3. wenn ein Slot, der in beiden Versionen vorhanden ist, seine 

Klasse geändert hat, wird versucht, diesen mit einem 

Aufruf der as–Methode zu casten 

– bei jedem Aufruf von setClassVersion werden außerdem 

Datum und ein default–Kommentar zu den Änderungen 

abgelegt; diesen kann man im Aufruf auch selbst setzen 

– bei substanzielleren Änderungen muss der Entwickler die 

update–Methode im setClassVersion –Argument method 

bereitstellen, in der er ein Objekt, das aus 

unclass() hervorgeht, in den neuen Typ 

konvertiert 

– weiterhin hat setClassVersion ein Argument which das 

steuert, in welche Version automatisch gecastet werden soll 

— unbedingt angeben, falls man nur eine Testversion 

anmelden möchte! 

 



Matthias Kohl 




662

8.1.8 Befehle: Typüberprüfung zur Laufzeit und 

Casting 

mit den Vererbungsmechanismen und den ausgeklügelten 

Castings ist es faktisch nicht möglich, zum Zeitpunkt der 

Programmierung eine Typ–Prüfung durchzuführen 

Typüberprüfung zur Laufzeit 

8.1.8 (a) Validitäts–Checks 

bei (permanenten) Zuweisungen wird automatisch geprüft, ob 

ein Objekt der gültigen Klassendefiniton genügt 

automatischer Validitäts-Check 

auch: expliziter Validitäts-Check durch validObject 

per default: nur Prüfung der Typen der “ representation ” der 

Klasse 

 



Matthias Kohl 




663

oft genauere Prüfung sinnvoll 

– Angabe einer validity –Methode als Argument bei der 

Klassendefinition 

– oder spätere Angabe mit einem Aufruf von setValidity 

die validity –Methode liefert entweder TRUE oder eine 

String–Message mit einer Problembeschreibung 

Beispiel 8.1-15 [Validität für die Matrixklasse]: 

– in der Arrayklasse wird geprüft, ob die Elemente des 

Dimensions-Slots .Dim und positiv sind, und mit der Länge 

des data–Arguments zusammenpassen. . . 

– Angabe der validity –Methode durch 

setValidity ("array", validArray ) 

– dabei verwenden wir für validArray folgende Definition: 

 



Matthias Kohl 




664

v a l i d a r r a y f u n c t i o n ( o b j e c t ){# 

d o b j e c t @ . Dim 

i f ( ! a l l ( d>=0)) 

r e t u r n ( " N e g a t i v e ␣ Elemente ␣ i n ␣dim ! " ) 

e l s e i f ( prod ( d ) !=l e n g t h ( o b j e c t @ . Data ) ) 

r e t u r n ( " F a l s c h e ␣ Datenlaenge " ) 

dn o b j e c t @ . Dimnames 

i f ( l e n g t h ( dn)>0&&l e n g t h ( dn ) !=l e n g t h ( d ) ) 

r e t u r n ( " F a l s c h e ␣ Zahl ␣an␣Dim Namen ! " ) 

e l s e { 

dn1 s a p p l y ( dn , l e n g t h ) 

i f ( any ( dn1>0 & dn1 !=d ) ) 

r e t u r n ( " F a l s c h e ␣ E l e m e n t l a e n g e n ! " ) 

} 

r e t u r n (TRUE) 

} 

 



Matthias Kohl 




665

– Achtung: eigentlich Verwendung von @ schlechter Stil, aber 

hier genau angebracht! 

Denn: hier soll explizit die Implementation überprüft werden! 

S wird diese neue validity –Methode nun bei jeder 

(permanenten) Zuweisung verwenden 

um bei einem fehlgeschlagenem Validitäts-Check bei einer 

Zuweisung keine Daten zu verlieren, wird das Objekt zwar 

zugewiesen aber mit unclass “unklassiert” 

generelle Frage: Wann soll geprüft werden? 

In S: bei (permanenten) Zuweisungen, da sonst zu zeitaufwendig 

bei Übergabe eines Objekts als Argument einer Funktion keine 

erneute Prüfung!! 

 

 



Matthias Kohl 




666

8.1.8 (b) Spezifizieren von is–Relationen — der setIs Befehl 

Situation: 

– die Signatur einer Methode enthält ein Argument arg der 

Klasse c1; 

– wir wollen die Methode auf eine Instanz X der Klasse c2 

anwenden 

X muss — möglichst automatisch — in Klasse c1 gewandelt 

/ gecastet werden 

Sprechweise: in S heißt dies coercing 

beim automatischen Casting muss erst dessen Zulässigkeit 

überprüft werden 

statische Variante: is 

— gibt TRUE zurück, falls c1 eine Oberklasse von c2 ist 

 



Matthias Kohl 




667

oft unflexibel: 

– die Oberklasse “weiß” gar nicht, dass sie eine Oberklasse ist 

– ein Casting ist nur in manchen wichtigen speziellen 

Wertbelegungen des Objekts möglich — vgl. Beispiel 8.1-3 

erster Punkt: explizite Deklaration einer is–Relation durch setIs 

zweiter Punkt S erlaubt bedingtes Vererben 

dazu explizite Angabe eines “bedingten” is durch setIs unter 

Angabe eines Arguments test — eine Funktion die testet, ob 

die Bedingung zum Casten erfüllt sind, dann TRUE zurückgibt 

und andernfalls einen Fehler ausgibt 

WICHTIG: die Testfunktion muss einen einzigen logischen Wert 

zurückgeben — niemals Vektoren oder NA’s 

keine Verwendung von == 

Verwendung von any, all , identical 

die Relation “Klasse c1 ist Oberklasse zu Klasse c2” wird in S 

 



Matthias Kohl 




668

durch die Funktion extends beschrieben 

um alle Oberklassen einer Klasse im aktuellen Suchpfad zu 

bekommen: extends("") 

extends ist transitiv! 

keine einfache automatische Typumwandlung möglich eigene 

Casting–Methode als Argument coerce der Funktion setIs 

 

 



Matthias Kohl 




669

8.1.8 (c) explizites Casting: as–Relationen 

generelle Methode zur Typumwandlung 

as(,"") 

um eine eigene as–Methode zum expliziten Casten zur 

Verfügung zu stellen: Deklaration als as–Relationen mit setAs 

8.1.9 Erfahrungen mit S4-Klassen 

dieser Abschnitt wurde von Matthias Kohl beigetragen 

langsames Anlegen von S4-Objekten 

– Anlegen neuer S4-Objekte ist ziemlich aufwendig (evtl. inkl. 

einem validity check) 

TIP: innerhalb von Funktionen mit S4-Objekt einer bestimmten 

Klasse als Argument, die neues Objekt eben dieser Klasse 

erzeugen: 

 

£ besser: kein neues Objekt erzeugen 

 



Matthias Kohl 




670

£ sondern: direkt slots des übergebenen Objekts modifizieren 

—evtl. mit @-Operator und dieses zurückgeben 

deutlich schneller 

 

besser bestehende S4 Objekte modifizieren als neue 

generieren 

schnelleres Dispatchen ("beim zweiten Mal"...) 

– bei Aufruf konkreter Methode wird Methode mit konkreter 

Signatur im Suchpfad abgelegt (mit Angabe inherited from 

...) 

BSP "+" im Zusammenhang mit " distr " 

Aufruf dieser Methode ist beim nächsten Mal schneller 

– Beispiel-Code 

r e q u i r e ( " d i s t r " ) 

showMethods ( "+" ) 

Norm ( ) + Pois ( ) 

showMethods ( "+" ) 

 



Matthias Kohl 




671

– Probleme: 

£ z.B. bei getInfGamma in Paket ROptEst 

£ Situation: konkrete Methode mit verschiedenen Signaturen 

£ gibt zwei zulässige (unterschiedlich spezfische) Methoden 

£ eine passt genau, die andere nur per Vererbung 

£ bei erstem Aufruf: genau passende wird verwendet 

£ dazwischen: Aufruf der Methode mit anderer Signatur 

genau passende wird überschrieben 

£ bei nächstem Aufruf mit ursprünglicher Signatur: 

schlechter passende wird verwendet 

zu showMethods: Wie kommt man an body einer Funktion? 

– S3 Methoden: am Beispiel print 

# oder 

 

methods ( p r i n t ) 

# Methoden mit £ s i n d "non v i s i b l e " 

methods ( c l a s s = " anova " ) 

 



Matthias Kohl 




672

# Methoden f ü r bestimmte K l a s s e 

# a l s B e i s p i e l 

p r i n t . anova 

# oder 

getS3method ( " p r i n t " , c l a s s = " anova " ) 

# f ü r non v i s i b l e ( i n welchem Namespace ?) 

getAnywhere ( " p r i n t . aov " ) 

# aha , Namespace " s t a t s " 

# a l s o auch 

s t a t s : : : p r i n t . aov 

# oder 

getFromNamespace ( " p r i n t . aov " , " s t a t s " ) 

– S4 Methoden: am Beispiel show 

# mit getMethods werden a l l e Methoden i n k l u s i v e 

# i h r e r D e f i n i t i o n a n g e z e i g t => u n ü b e r s i c h t l i c h 

 

# b e i v i e l e n Methoden 

 



Matthias Kohl 




673

getMethods ( "show" ) 

# b e s s e r 

showMethods ( "show" ) 

# um e i n z e l n e Methoden i n k l . D e f i n i t i o n 

# a n z u zeigen , kann man f o l g e n d e r m a ß e n vorgehen 

getMethod ( "show" , " t r a c e a b l e " ) 

# oder etwas u m s t ä n d l i c h e r 

showMethods ( "show" , c l a s s e s=" t r a c e a b l e " , 

i n c l u d e D e f s = TRUE) 

Wann wird/soll validate ausgeführt werden? 

– wegen Geschwindigkeit: in setValidity Methode nur einfache 

Checks einbauen 

– genauerer Check möglich z.B. über neue generische Funktion 

mit entspr. Methoden —vgl. checkIC in ROptEst 

– Anlegen der setValidity Methode am besten gleich bei 

Einführung neuer Klasse 

 



Matthias Kohl 




674

– sonst möglich: Probleme bei tief gehenden Vererbungen 

setIs , setAs —Erfahrung und unerwartetes Verhalten... 

 

– setIs , setAs noch nicht völlig ausgereift [Stand: R 2.0.1]: 

£ für nachträgliche setIs Relation: auch "coerce" Methode 

(per setAs) überladen! 

Achtung bei Verwendung von Namespaces: 

¡ Anlegen setAs-Relation benötige 

exportMethods("coerce") 

¡ Anlegen einer setIs -Relation erfordert zusätzlich 

exportMethods("coerce") 

£ weiteres Problem 

¡ Ziel: " UnivariateDistrList " der Länge 1 in entspr. 

Verteilung wandeln 

setAs(" UnivariateDistrList ", " UnivariateDistribution ") 

¡ Annahme: Objekt der Klasse " UnivariateDistrList " hat 

Länge 1 und enthält Objekt der Klasse "Norm". 

¡ Dann: as (...) liefert nicht Objekt der Klasse "Norm", 

 



Matthias Kohl 




675

sondern " UnivariateDistribution " 

setAs für alle Verteilungsklassen einzeln definieren 

initialize oder nicht 

– bei Anlegen einer initialize Methode wird die 

default-Methode überschrieben, in der jeder einzelne Slot 

gesetzt werden kann 

– vermeidbar durch Einsatz von generating functions. 

– Chambers (1998) empfiehlt deren Einsatz, um Benutzer 

Generieren von Klassen zu erleichtern 

– in generating function / initialize Methode möglich: 

einfache Validity Checks 

– durch Verwendung der generating function bleibt default 

initialize Methode erhalten (deren Verwendung bei 

Programmierung manchmal von Vorteil) 

– eigene 

 

initialize Methode sinnvoll: 

£ will verhindern dass bestimmte Slots explizit beim 

 



Matthias Kohl 




676

Initialisieren gesetzt werden können 

£ BSP: Verteilungen, bei denen man nur Setzen der 

Parameter erlauben will, während r,d,p und q-Slot 

garantiert durch base-Methoden belegt sein sollen 

 



Matthias Kohl 




677

8.2 Schreiben eigener Pakete 

nach einem Tutorial von T. Lumley und D. Bates in Wien 2003 

8.2.1 Wie benützt man R effizient? 

8.2.1 (a) Wie speichert man seine Routinen? 

als Workspace: 

– beim Starten von R liest dieses das File .RData 

– beim Beenden Frage: gesamter Arbeitsspeicher (ohne 

eingeladene Pakete) als Workspace auf dieses File schreiben? 

– dies ist auch jederzeit mit save.image() möglich; wieder 

einladen mit sys .load.image() 

als Binärdateien: 

– mit dem save–Befehl kann man einzelne Funktionen und 

Daten in Binärdateien schreiben 

 



Matthias Kohl 




678

– diese kann man mit attach oder load wieder einlesen 

als Quelldateien 

8.2.1 (b) mehrere Projekte 

“Extremstrategien”: 

jedes Projekt in ein eigenes Verzeichnis 

– mit einem .RData–File in diesem Verzeichnis alles Wichtige 

ständig im Speicher halten 

– wenn Daten und Funktionen in mehreren Projekten 

gebraucht werden, diese hin- und herkopieren 

– das .RData–File ist zentral; alle Quelldateien dienen nur der 

Dokumentation 

alles als Sourcen speichern 

– für jeden Analyseschritt hat man eine Quelldatei, mit der die 

Daten eingelesen, verarbeitet und möglicherweise wieder 

modifiziert abgespeichert werden 

 



Matthias Kohl 




679

– die Quelldatei ist zentral — alle anderen abgespeicherten 

Dateien dienen nur der Aufwandsminimierung beim 

Verarbeiten 

Empfehlung in R: 

Weil Objekte nicht automatisch gespeichert werden (wie in 

S-Plus) besser alles als Sourcen speichern! 

 



Matthias Kohl 




680

8.2.1 (c) Nutzung von R–Output 

– unter Windows kann man den Output der Konsole als 

Textfile abspeichern 

– write . table produziert formattierten Text und kann im 

wesentlichen von L ATEX weiterverwendet werden 

– im Prinzip ist es möglich, über die DCOM Schnittstelle 

automatisierte Reports in MS WORD zu generieren 

– mit dem XML package kann man die Ausgabe in XML erreichen 

8.2.2 das R–packaging System 

8.2.2 (a) Warum packages ? 

R packages — im folgenden Pakete — erlauben es, Funktionen und 

Daten zusammen mit ihrer Dokumentation zusammenzufassen. 

 

 



Matthias Kohl 




681

Bemerkung: Nicht verwechseln!! library und package; dazu Zhu Wang and 

Douglas Bates in R-help, (May 2004) (aus Paket fortunes) 

Z.W.: “I am trying to create a library which uses some Fortran 

source files [...]” 

D.B.: “Someone named Martin Maechler will shortly be sending you 

email regarding the distinction between ’library’ and ’package’ :-)” 

Im Unterschied zu anderen Programmiersprachen gilt in S die Konvention: Ein 

Paket (package) wird in einer library abgelegt, d.h. library ist eine Suchliste 

–vgl. Abschnitt 1.10.3. 

dynamisches Ein– und Ausladen: 

das Paket beansprucht nur dann Speicher, wenn es benutzt wird 

einfaches Installieren und Aufdatieren: 

die Funktionen, Daten und Dokumentationen werden alle 

konsistent und an die korrekte Stelle mit einem einzigen Befehl 

installiert und können entweder innerhalb oder außerhalb R 

ausgeführt werden 

 



Matthias Kohl 




682

Anpassung durch Nutzer oder Administrator: 

neben LAN–weiten Bibliotheken können einzelne Nutzer 

individuelle, private Bibliotheken von Paketen haben 

automatische Validierung: 

R stellt Befehle zur Verfügung, um offensichtliche Fehler 

aufzudecken, und um zu überprüfen, ob eine Dokumentation 

existiert und ob die angegebenen Beispiele so lauffähig sind 

die meisten Nutzer kennen Pakete von der Grunddistribution von 

R und von CRAN; mit dem R–packaging System können noch viel 

mehr Leute zu der Entwicklung von R beitragen, wobei 

gleichzeitig gewisse Mindeststandards garantiert werden 

Data packages sind sehr sinnvoll in der Lehre: Datensätze 

können zusammen mit ihrer Dokumentation und Beispielen 

verfügbar gemacht werden — c.f. Devore5–Paket von D. Bates 

Private Pakete sind extrem nützlich, um oft genutzte 

Funktionen und Daten zu organisieren und zu speichern 

 



Matthias Kohl 




683

8.2.3 Struktur von R–Paketen 

die Grundstruktur eines R–Pakets ist ein Verzeichnis, das 

gewöhnlich enthält 

– ein DESCRIPTION–File mit einer Beschreibung des Pakets, 

Autor und Lizenzvereinbarung in einer strukturierte Textdatei 

– ein INDEX file, das alle Funktionen und Daten (und optional 

weitere Informationen) enthält — kann automatisch erzeugt 

werden! 

– ein NAMESPACE file, siehe Abschnitt 8.2.7 

– ein CITATION file, in dem man einen BibTEX Eintrag für sein 

Paket vornehmen kann 

– ein configure file und ein cleanup file, in dem man unter 

Unix (Bourne-)shell Scripten zum Aufruf vor und (sofern mit 

Option –clean gearbeitet wird) nach der Installation 

ablaufen lassen will 

 



Matthias Kohl 




684

– ein COPYING file, in dem —falls abweichend von der 

GPL-Lizenz— Regelungen zum Kopieren des Pakets angeben 

kann 

– ein man/–Unterverzeichnis mit Dokumentationsfiles (im 

.Rd-Format, siehe Abschnitt 8.2.6 

– ein R/–Unterverzeichnis mit den R–Quelltexten 

– ein data/–Unterverzeichnis mit den Datensätzen 

– ein src/–Unterverzeichnis mit den Quellfiles für C, FORTRAN 

oder C++ Routinen 

– ein demo/–Unterverzeichnis mit ausführbaren Demos zum 

Paket 

nicht immer enthält es 

– ein tests–Unterverzeichnis mit Validierungstests 

– ein exec/–Unterverzeichnis mit anderen ausführbaren 

Programmen (z.B. JAVA oder Perl–Routinen) 

– ein inst/–Unterverzeichnis mit verschiedenen anderen 

 



Matthias Kohl 




685

Dingen wie .ps–Files 

– ein configure–Skript um die Verfügbarkeit anderer 

benötigter Software zu checken oder um Unterschieden 

zwischen Betriebssystemen zu handlen 

optional enthält es (ohne dass R es verwendet) 

– README file 

– NEWS file 

– Changelog file 

außer dem DESCRIPTION– und dem INDEX–File sind die meisten 

Punkte optional 

aber jedes sinnvolle Paket wird eine Dokumentation und 

mindestens entweder ein R/– oder ein data/–Verzeichnis haben 

wird. 

Referenz zu diesem Abschnitt: Writing R Extensions (2006b, 

Abschnitt 1) 

 



Matthias Kohl 




686

8.2.4 Aufbau des DESCRIPTION-file 

Elemente: 

es müssen/können Angaben zu folgenden Punkten gemacht 

werden — in der Form : 

– obligatorisch: Package, Title, Version, Author, Maintainer, 

Description 

– optional: Abhängigkeiten: Depends, Imports, Suggests 

– optional: schnelleres Laden; LazyLoad, SaveImage, 

– optional: SystemRequirements, Date, URL 

Folgende Elemente werden automatisch generiert: 

– Built 

– Packaged 

dabei bedeuten 

 

– Date: Erstellungsdatum, in “JJJJ-MM-TT”-Format 

 



Matthias Kohl 




687

– LazyLoad: ein Mechanismus, der ab R Version 2.0.0 zur 

Verfügung steht: er lässt zu, dass Objekte erst in den 

Speicher geladen werden, wenn sie gebraucht werden; 

genaueres siehe Ripley (2004) 

– SaveImage: ein Mechanismus, der regelt, ob die R Objekte 

des Pakets aus einem gespeicherten image geladen werden 

—d.h. ein mit save / save.image abgelegter Workspace, siehe 


– Description: Eine kurze, umfassende Beschreibung dessen, 

was im Paket steht (ein Absatz) 

– Maintainer: ein einzelner Verantwortlicher für das Paket 

– License: unter welcher Lizenz darf das Paket verwendet 

werden. . . —typischerweise GPL 

– URL: ein Link auf eine Homepage zu diesem Paket 

– Depends: eine Komma getrennte Liste von Paketen, die das 

eigene Paket braucht; optional können die Paketnamen von 

 



Matthias Kohl 




688

einem Ausdruck (= ) mit der 

entsprechend benötigten Version gefolgt werden, z.B. 

distr(>= 1.3) 

– Imports: listet die Pakete auf, deren Namespaces importiert 

werden sollen, siehe auch Abschnitt 8.2.7 

– Suggests: gleiche Syntax wie Depends; listet Pakete die 

wünschenswert sind, aber nicht notwendig sind 

– SystemRequirements: darüber hinausgehende Anforderungen 

an das System 

 



Matthias Kohl 




689

Beispiel 

 

Package : d i s t r 

Date : 2004 03 15 

T i t l e : O b j e c t o r i e n t a t e d i m p l e m e n t a t i o n o f d i s t r i b u t i o n s 

V e r s i o n : 1 . 5 

Depends : R(>= 2 . 0 . 0 ) , m e t h o d s , g r a p h i c s , setRNG 

I m p o r t s : s t a t s 

LazyLoad : y e s 

SaveImage : no 

A u t h o r : F l o r i a n Camphausen , M a t t h i a s Kohl , P e t e r R u c k d e s c h e l , Thomas 

S t a b l a 

D e s c r i p t i o n : O b j e c t o r i e n t a t e d i m p l e m e n t a t i o n o f d i s t r i b u t i o n s and 

some a d d i t i o n a l f u n c t i o n a l i t y 

M a i n t a i n e r : P e t e r R u c k d e s c h e l 

L i c e n s e : GPL ( v e r s i o n 2 o r l a t e r ) 

URL : h t t p : / /www . u n i b a y r e u t h . de / d e p a r t m e n t s / math / o r g / mathe7 /DISTR/ 

Packaged : Thu Apr 15 1 6 : 0 9 : 0 2 2 0 0 4 ; tom 

B u i l t : R 2 . 0 . 1 ; i 6 8 6 pc l i n u x gnu ; 2005 03 15 1 4 : 1 4 : 2 0 ; u n i x 

 



Matthias Kohl 




690

8.2.5 Format für Datensätze 

Datensätze werden mit dem Befehl data() eingeladen; diese können 

abgelegt sein als 

Textfile (.txt, .tab, .csv)— entweder Komma– oder 

whitespace getrennt 

S Quelltext, (.r, .R) erzeugt durch den dump–Befehl 

R–Binärdateien, (.rda, .RData) erzeugt durch den save–Befehl 

Der Filetyp wird anhand der Endung bestimmt. 

 

 



Matthias Kohl 




691

8.2.6 Dokumentation 

Das R–Dokumentationsformat lehnt sich an L ATEX an. Details siehe 

Writing R Extensions (2006b, Abschnitt 2). 

R–Beispiel 8.2-1 [eine Beispieldokumentation]: 

\name{ b i r t h d a y } % Anzeigename des H i l f e F i l e s 

\ a l i a s { q b i r t h d a y } % d i e Funktionen , 

\ a l i a s { p b i r t h d a y } % d i e h i e r d o k u m e n t i e r t werden 

%e i n z e i l i g e r T i t e l d e r D o k u m e n t a t i o n s s e i t e 

\ t i t l e { W a h r s c h e i n l i c h k e i t e i n e r K o i n z i d e n z } 

%k u r z e B e s c h r e i b u n g 

\ d e s c r i p t i o n { 

b e r e c h n e t approx . Lsg . zu v e r a l l g e m . G e b u r t s t a g s p b ; 

\ code { p b i r t h d a y } b e r e c h n e t d i e W k e i t ( K o i n z i d e n z ) und 

\ code { q b i r t h d a y } . . . . } 

\ usage { % wie 

 

man d i e F u n k t i o n e n a u f r u f t 

p b i r t h d a y ( n , c l a s s e s =365 , c o i n c i d e n t =2) 

q b i r t h d a y ( prob =0.5 , c l a s s e s =365 , c o i n c i d e n t =2)} 

 



Matthias Kohl 




692

\ keyword { d i s t r i b u t i o n } 

\ c o n c e p t { e l e m t a r y s t a t i s t i c a l p roblems } 

8.2.6 (a) Abschnitte des Hilfefiles 

\name: Anzeigename des Hilfe-Files; nicht notwendig 

Übereinstimmung mit Filenamen des .Rd-Files 

\ alias 

– zur Gruppierung der Dokumentation verschiedener ähnlicher, 

inhaltlich zusammengehörender Objekte; z.B. rnorm, pnorm, 

qnorm, dnorm 

– Kriterium für R CMD check: Ist jedes Objekt im Paket 

dokumentiert? 

\arguments: eine Aufzählung der Argumente und ihrer Bedeutung 

\value: Beschreibung des Rückgabewertes 

 

\ details : eine längere Beschreibung der Funktion, falls notwendig 

 



Matthias Kohl 




693

\ references : Literaturhinweise oder andere bibliographische 

Verweise (v.a. InterNet) 

\seealso: Referenzen zu verwandten Befehlen 

\examples: Anwendungsbeispiele für die Funktion 

\keyword: zur Erstellung eines Index (vorgegebene Schlagwörter 

—siehe File KEYWORDS.db im Verzeichnis doc unter dem 

R-Stammverzeichnis 

\concept: selbstvergebene Schlagwörter 

\section{}: Abschnitt mit selbst gewähltem 

8.2.6 (b) Dokumentation von Datensätzen 

obligatorisch: \docType{data}, \usage{data()}, 

\keyword{datasets} 

\format: in welchem Format die Daten vorliegen 

 

\source: woher die Daten stammen 

 



Matthias Kohl 




694

8.2.6 (c) Formatbefehle zur Textmarkierung à la LATEX Einfügen von Zeilenumbrüchen mit \cr, neue Absätze mit einer 

Leerzeile 

\emph{}, \bold{}, \strong{} zum 

Hervorheben 

\squote{}, \dquote{}: Zitate mit ‘. . . ’, bzw “. . . ” 

\code{}: R-code; die Zeichen %, , müssen durch \ 

maskiert werden, d.h. man fügt ein ‘\’ vor diese Zeichen 

\preformatted{}: vorformatierter Quellcode/Text 

\samp{}: Beispiel einer Zeichenkette 

\kbd{}: Eingabe an Konsole 

\pkg{}: ein Paket 

\file{}: ein File 

 

\email{}: eine Email-Adresse 

 



Matthias Kohl 




695

\url{}: eine URL 

\var{}: metasyntaktische Variable (??) 

\env{}: Umgebungsvariable 

\option{}: Kommandozeilenoption 

\command{}: Befehl 

\dfn{}: Definition (bei der Einführung eines 

Begriffs) 

\acronym{}: ein Acronym wie GNU 

\cite{}: unverlinkte Referenz, z.B. ein Buch 

\link[|:]{}: verlinkte Referenz auf 

die Hilfeseite zu Objekt (zu Paket , bzw. Thema 

in Paket ) 

 



Matthias Kohl 




696

8.2.6 (d) Listen-/Tabellenbefehle à la LATEX Listen: 

– Befehle: \itemize, \enumerate wie in L ATEX und 

\describe wie \description 

– Gruppierung mit der “Liste” mit {}; Listenelemente 

mit \item 

– Beispiel: 

\ i t e m i z e { 

\ item e r s t e r Punkt 

\ item z w e i t e r Punkt } 

– die Listenbefehle können verschachtelt werden 

Tabellen: 

– Befehl: \tabular{rcl} wie in L 

 

ATEX d.h. mit jeweils einem 

Argument aus r, c, l pro Spalte für links-, rechtsbündige 

bzw. zentrierte Ausrichtung der Tabellenelemente 

 



Matthias Kohl 




697

– Spaltenwechsel mit \tab, Zeilenwechsel mit \cr 

– Beispiel 

\ t a b u l a r { r l l l }{ 

[ , 1 ] \ tab Ozone \ tab numeric \ tab Ozone ( ppb )\ c r 

[ , 2 ] \ tab S o l a r \ tab numeric \ tab S o l a r R ( l a n g )\ c r 

} 

8.2.6 (e) spezielle Befehle à la L ATEX zum Setzen von Gleichungen 

\eqn[{}]{} für Formeln innerhalb 

des Texts 

\deqn[{}]{} für abgesetzte 

Formeln 

wobei L 

 

ATEX-code im Mathematikmodus ist und 

bei HTML, chm und R-Hilfe-Format verwendet wird 

 



Matthias Kohl 




698

8.2.6 (f) Sonderzeichen 

R (“wird geschrieben als”) \R, 

als Funktionsargument \dots 

als Ellipse im laufenden Text \ldots 

% ist ein Kommentarzeichen; Text, der in dieser Zeile folgt, wird 

ignoriert 

\, %, {, } werden generell maskiert 

innerhalb von code-artigen Umgebungen wie \code, 

\preformatted, \examples (aber nicht \file) müssen 

daneben keine weiteren Zeichen maskiert werden 

im laufenden Text müssen daneben auch ‘$’, ‘#’ und ‘_’ 

maskiert werden 

‘^’ \eqn{\mbox{\textasciicircum}}{^}, 

‘~’ \eqn{\mbox{\textasciitilde}}{~}, 

‘’ \eqn{\sim}{~}, 

 

 



Matthias Kohl 




699

‘’, ‘’, and ‘’ stehen nur in \eqn bzw. \deqn zur Verfügung 

ä, Ä, ö,Ö, ü,Ü, ß, œ, Œ, æ, Æ, å, Å, ø, Ø, ł, Ł, ¿, ¡, sowie ó, ò, 

ô, õ, ˙o, ŏ, ǒ, ő, oo, o¸, o., ō und ähnliche Sonderzeichen können 

mithilfe von Konstruktionen wie \enc{ö}{o} eingefügt 

werden, wobei das erste Argument verwendet wird, wo andere 

Zeichensätze erlaubt sind, und das zweite eine 

ASCII-Transkription ist 

8.2.6 (g) Format der Hilfe-Files 

Dokumentation kann automatisch in verschiedenen Formaten wie 

HTML, ASCII, Nroff–Format, dvi und PDF erzeugt bzw. 

umgewandelt werden — Befehle 

R CMD Rdconv konvertiert von einem R-Dokumentationsformat 

in ein anderes oder extrahiert die lauffähigen Beispiele zum 

online-Testen; Formate ASCII , HTML, LATEX, S3– und 

S4–Dokumentationsformat 

 



Matthias Kohl 




700

R CMD Rd2txt erzeugt “schöne” formatierten Text 

R CMD Rd2dvi erzeugt DVI oder, mit Option pdf, PDF Format 

R CMD Sd2Rd erzeugt S4 Doku-Format (nutzt SGML-Format) 

aus S3 Doku-Format (nutzt Nroff-Format) aus 

8.2.6 (h) Dokumentation von S4-Klassen und -Methoden 

[experimentell, noch im Umbruch] 

jede nach außen sichtbare Klasse und Methode sollte zumindest 

einen \ alias -Eintrag haben 

wichtig: \ alias -Einträge sind von der Form -class 

bzw. ,-method, wobei 

eine Liste mit der Signatur der Methode ist, 

kommagetrennt und ohne Freizeichen zwischen den Einträgen 

der Signatur (sonst funktioniert der help-Mechanismus für 

S4-Klassen nicht richtig) 

 

Hüllen werden mit promptMethods und promptClasses angelegt 

 



Matthias Kohl 




701

zusätzlich, falls eine spezielle Methode besonders dokumentiert 

werden soll: 

\S4method{}{}(), 

\S3method{}{}() 

8.2.6 (i) Dokumentation des Pakets an sich 

Pakete können eine Übersichts-Hilfeseite erhalten — mit einem 

\ alias {-package}, 

dann: package? öffnet diese Hilfeseite; noch besser 

(falls kollisionsfrei möglich) zusätzlich \ alias {} 

Schablone mit promptPackage() 

Anordnung des Inhalts ist weitestgehend freigestellt; 

obligatorischer Tag: \docType{package} 

Empfehlung: kurze Übersicht; etwas detaillierte Dokumentation 

sollte in eine Vignette 

 



Matthias Kohl 




702

Erinnerung: Außerhalb von Paketen werden einzelne Routinen mit 

Hilfe–Files versehen wie in Abschnitt 3.3.4 beschrieben 

8.2.6 (j) Vignetten 

[nach einem DSC–Tutorial 2003 von D. Bates und T. Lumley] 

Idee: Literate Programming: 

 

– http://www.literateprogramming.com/ 

– http://en.wikipedia.org/wiki/Literate_programming 

Dokumentation und Quelltext werden 

£ in ein File geschrieben und 

£ anschließend mit speziellen Werkzeugen verarbeitet 

Sweave: 

– Entwickler: Friedrich Leisch 

– Idee: Verbinden von Dokumentation / Artikel und 

lauffähigem R–Code reproducible research 

– man schreibt einen leicht erweiterten L ATEX–Code — Endung 

des Files .Snw bzw. .Rnw 

 



Matthias Kohl 




703

– .S[/R]nw-File wird mit mit dem Befehl Sweave in R übersetzt 

– Sweave extrahiert den Code, lässt ihn unter R ablaufen und 

setzt den Output wieder ins Dokument ein 

Leser sehen, dass der Code funktioniert 

Input, Output und Text können beliebig angeordnet 

werden 

das Dokument kann erneut unter R abgearbeitet werden, 

um Resultate aufzudatieren 

– Auslösen von R-Code aus .S[R]nw-File in R mit Stangle 

– aktuelle Dokumentation: 

http://www.ci.tuwien.ac.at/~leisch/Sweave 

– Alternative zu Sweave jenseits von TEX: 

£ Verweben mit ODF (Open Document Format) anstelle von 

L ATEX-Code 

£ in R mit Paket odfWeave 

 



Matthias Kohl 




704

Vignetten: 

– Idee: Lücke zwischen Funktionsdokumentation und Büchern 

über R zu stopfen 

– stark verwendet im Bioconductor Project 

– was in eine Vignette steht: 

ein einzelnes Thema 

lauffähiger Code basierend auf Daten, die in R verfügbar 

sind; die benutzten Libraries müssen dokumentiert sein 

sollte mehr als eine einzelne Funktion sein; sollte einen 

Prozess / eine Problemlösung beschreiben und 

typischerweise mehrere Funktionen umfassen 

– Aufruf von Vignetten von R aus mit vignette () 

– Referenz: Writing R Extensions (2006b), Kapitel 1.4 

 

 



Matthias Kohl 




705

R–Beispiel 8.2-2 [Vignetten]: 

## A u f l i s t e n a l l e r vorhandenen V i g n e t t e n 

v i g n e t t e ( ) 

## A u f r u f V i g n e t t e zu Paket g r i d 

v i g n e t t e ( " g r i d " ) 

#oder 

v1 v i g n e t t e ( " g r i d " ) ; p r i n t ( v1 ) 

## H e r a u s l o e s e n des Codes 

e d i t ( v1 ) 

8.2.6 (k) Qualitätskontrolle 

Das packaging system kontrolliert die Dokumentation, ob 

– alle Objekte dokumentiert sind (d.h. ein entsprechender 

\ alias -Eintrag vorliegt) 

– die Dokumentation mit dem dokumentierten R-code 

konsistent ist 

 



Matthias Kohl 




706

– die Angabe unter \usage konsistent zur Definition der 

Funktion ist 

– die Beispiele in der Sektion \examples laufen 

Mindeststandard für die Dokumentation 

 



Matthias Kohl 




707

8.2.7 Namespaces 

Problematik: viele Entwickler schreiben simultan an ihren 

Routinen früher oder später kommt es zu Konflikten mit 

Namen von Objekten in verschiedenen Paketen 

Ausweg: Namespaces —vergleiche Tierney (2003a), Ligges 

(2005, S. 81ff und Abschnitt 10.6), sowie 

http://en.wikipedia.org/wiki/Namespaces 

Ideen: 

– nur noch bestimmte Objekte eines Paketes sind für den 

Nutzer sichtbar; deren Namen werden explizit exportiert 

– alle anderen Objekte sind nur für andere Funktionen im 

selben Namespace sichtbar 

– in eigene Pakete (mit eigenem Namespace) kann man auch 

Objekte aus anderen Paketen importieren; deren Namen 

kann dann nicht mehr vergeben werden 

 



Matthias Kohl 




708

Kommt es dennoch zu Namenskollisionen, 

– überschreibt das entsprechende Objekt aus dem 

eigenen Namespace nicht dasjenige aus einem 

fremden, sondern maskiert es nur; 

– das Objekt aus dem fremden Namespace bleibt 

erhalten, ist nur nicht mehr mit ansprechbar; 

– auf exportierte Objekte aus Paket greift man mit 

:: zu —dies funktioniert auch bei 

Maskierung! 

– auf nicht exportierte Objekte aus Paket greift man 

mit ::: zu —dies funktioniert auch bei 

Maskierung! 

– Achtung: Zugriffe mit :: oder gar ::: sind aufwendiger; es 

wird das entsprechende Paket geladen aber nicht in 

den Suchpfad eingetragen! 

 



Matthias Kohl 




709

nützlich zum Suchen von Objekten: 

getAnywhere: sucht nach Objekten im Suchpfad und in 

geladenen Namespaces, auch wenn das Objekt nicht exportiert 

oder der Namespace in den Suchpfad gehängt ist 

Anlage eines Namespace: 

 

– im Pakethauptverzeichnis legt man eine (Text-)Datei 

NAMESPACE an 

– Befehle 

£ export(,,....), 

exportPattern() (vgl. 1.10-1), exportieren 

(klassische) Objekte 

£ import(), 

importFrom(,,,....) 

importieren alle / bzw. die gelisteten (klassischen) Objekte 

aus Paket 

£ für S3-Klassen: S3method(,) 

registriert die S3-methode .() 

 



Matthias Kohl 




710

£ für S4-Klassen: 

¡ per .onLoadfunction(,)require (methods) 

zu Beginn des ersten eingeladenen source-files muss das 

methods-Paket eingeladen werden 

¡ alle nach außen sichtbaren S4-Klassen und generischen 

Funktionen müssen mit exportClasses (), 

exportMethods(), exportiert werden 

¡ alle S4-Klassen und generischen Funktionen aus anderen 

Paketen, die im eigenen Paket genutzt werden, müssen 

per importMethodsFrom(), importClassesFrom() importiert 

werden 

£ für externen Code: useDynlib() 

löschen eines Namespaces mit 

alles noch im “Werden” Änderungen wahrscheinlich 

 

 



Matthias Kohl 




711

8.2.8 Vorbereiten der Anlage eines Pakets 

die Funktion package.skeleton automatisiert teilweise das Anlegen 

eines Pakets mit einer korrekten Struktur und Dokumentation 

Syntax: 

package.skeleton(name="",list=c("", 

"",....),environment=.GlobalEnv, 

path=".", force=FALSE) 

legt ein R Paket "" im Verzeichnis unter Argument 

path an 

in dieses Paket kommen die Objekte aus list oder aus der 

Umgebung environment 

dabei werden die Objekte aufgeteilt in Datensätze data/– 

und Funktionen R/–Verzeichnis 

Skelette für die Help–Files für klassische Objekte werden mit 

 



Matthias Kohl 




712

dem prompt–Befehl erzeugt, für S4-Klassen und -Methoden mit 

promptClasses, promptMethods 

ein DESCRIPTION–File wird angelegt 

dann gibt die Funktion eine Liste an zu erledigenden Dingen aus 

8.2.9 Anlage eines Pakets 

mithilfe des Befehls R CMD build unter UNIX bzw. Rcmd build 

unter Windows 

das Resultat kann dann einfach von einem System zum anderen 

transportiert und ohne Entpacken installiert werden 

es gibt Optionen, Help– und Daten–Files in permanent gepackter 

Form zu speichern (nützlich auf alten Windows–Systemen, wo 

viele kleine Files viel Festplattenspeicher schlucken) 

hier gibt es definitiv Schwierigkeiten bei Win 9x unde ME; 

ab R 1.9.0 ist auch unter Windows die R CMD -Notation möglich. 

Unter Windows sind aber Vorabeiten nötig; siehe Abschnitt 8.2.12 

 



Matthias Kohl 




713

um Windows-Binaries zu erzeugen: R CMD build binary 

hierfür braucht man Perl; dieses muss im Windowspfad stehen 

in Win 9x/ME Schwierigkeiten mit langen Filenamen! 

8.2.10 Binär– und Quell–Pakete 

R CMD build erstellt Pakete aus R–Quellfiles 

wenn C– oder FORTRAN–Routinen mit benötigt werden, sollten 

für Windows Nutzer auch Binärdateien dieser Routinen zur 

Verfügung gestellt werden — siehe auch R for Windows FAQ 

Binärpakete werden mit R CMD build binary angelegt; 

die meisten R–Entwickler arbeiten unter Unix; selbst 

Windows–lauffähige Binarys werden unter Unix mit 

Crosscompilern erzeugt (vgl. R Installation and Administration 

(2006d, Abschnitt 3.1.8)) 

 



Matthias Kohl 




714

8.2.11 Checken eines Pakets 

mithilfe des Befehls R CMD check unter UNIX bzw. Rcmd check 

unter Windows 

unterstützt Qualitätsanalyse und –kontrolle (QA/QC) für Pakete 

die Verzeichnisstruktur und das Format des DESCRIPTION und 

INDEX–Files werden geprüft 

die Dokumentation wird in text in HTML und L ATEX gewandelt 

wenn L ATEX auf dem System gefunden wird, wird die 

Dokumentation geTEXt 

die Beispiele werden ausgeführt 

alle Tests im tests/–Verzeichnis werden ausgeführt 

hier gibt es definitiv Schwierigkeiten bei Windows 9x ME; 


Unter Windows sind aber Vorabeiten nötig; siehe Abschnitt 8.2.12 

 



Matthias Kohl 




715

undokumentierte Objekte und solche, bei denen usage und 

Definition nicht übereinstimmen, werden gemeldet 

8.2.12 Vorbereitungen zur Erzeugung von 

R-Paketen unter Windows 

dieser Abschnitt wurde im wesentlichen von Matthias Kohl beigetragen 

Referenz: http://www.murdoch-sutherland.com/Rtools/ 

1. Installation von: Tcl, Perl, MinGW (evtl. MS HTML Compiler) 

 

http://www.activestate.com/Products/ActiveTcl/Download.html 

http://www.activestate.com/Products/ActivePerl/Download.html 

http://www.mingw.org/download.shtml 

http://www.microsoft.com/downloads/details.aspx?FamilyID= 

=00535334-c8a6-452f-9aa0-d597d16580cc&DisplayLang=en 

man benötigt MinGW mindestens in Version MinGW-5.0.2.exe 

und (z.Z.) zusätzlich mingw-runtime , was man am 

 



Matthias Kohl 




716

esten direkt erhält unter 

http://prdownloads.sourceforge.net/mingw/mingw-runtime-3.10.tar.gz?download; 

frühere Versionen gehen nicht; 

MS HTML Compiler ist evtl. bereits installiert 

2. Für Unicode-Unterstützung unter WinME, Win9X: (ab R 2.1.0) 

benötigt: 

Opencow library: opencow.dll, installiert in im R–Stammverzeichnis 

unter src/gnuwin32/unicode 

libunicows import library: libunicows.a, installiert im Verzeichnis 

MinGW/lib directory 

iconv internationalization conversion library: iconv.dll, installiert im 

Verzeichnis src/gnuwin32/unicode 

weitere Details: im File src/gnuwin32/unicode/INSTALL (unter dem 

R–Stammverzeichnis) 

3. RTools ins R\tools Verzeichnis entpacken; zu beziehen von 

 

http://www.murdoch-sutherland.com/Rtools/tools.zip 

 



Matthias Kohl 




717

4. beim Umgang mit mehreren Versionen von R simultan sehr 

nützlich: die batch-utilities von Gabor Grothendiek, zu 

entpacken am besten in R\batch-utils Verzeichnis; Details 

siehe README-Datei im entsprechenden .zip-File 

http://cran.r-project.org/contrib/extra/batchfiles/ 

5. Pfad: Ergänzen von Tcl, Perl, MinGw, HTML Compiler, 

Rtools, und R Version bzw. batch-utils 

Bsp: (mit batch-utils) 

. ; C : \ Programme\R\ batch u t i l s ; C : \ Programme\R\ t o o l s ; 

C : \ Tcl \ b i n ; C : \ texmf \ miktex \ b i n ; C : \ P e r l \ b i n \ ; 

C : \ Mingw\ b i n ; C : \ Programme\HTML Help Workshop 

unter XP: Pfad zugänglich unter Systemsteuerung 

System Erweitert Umgebungsvariablen 

auf kurze Pfadnamen achten —sonst schneidet Windows 

mitten im Pfadnamen ab...! 

 



Matthias Kohl 




718

6. Anpassen der Datei MKRules: (im Verzeichnis /src/gnuwin32) 

(Achtung: möglichst keine Leerzeichen im Pfad, da es sonst evtl. 

nicht funktioniert ...) 

HHWDIR="C:/Programme/HTML Help Workshop" 

(Pfad für MS HTML Compiler) 

TCL_HOME = C:/Tcl (Pfad für Tcl) 

HEADER= C:/MinGw/include (Pfad für MinGw) 

7. evtl. Anlage einer Umgebungsvariable TMPDIR 

8. bei Nutzung von MikTeX >=2.4: 

Verändern der (lokalen [!]) miktex.ini-Datei: in folgenden 

Rubriken jeweils den Pfad auf die aktuelle Version des files 

rd.sty, im R Stammverzeichnis unter share\texmf 

—vgl. http://www.murdoch-sutherland.com/Rtools/miktex.html 

[LaTeX], [eLaTeX], [TeXinfo], [pdfteX], 

 

[pdfetex], [pdfLaTeX], [pdfeLaTeX], [pdftexinfo] 

 



Matthias Kohl 




719

Bemerkung 8.2-3 [R selbst compilieren]: 

nach diesen Vorbereitungen: R auch auf eigenem Rechner aus 

Sourcen compiliebar 

interessant für Paketentwickler, wenn eine neue R-Version kurz 

vor Veröffentlichung und zur Devel-Version nicht ständig neue 

Windows-Installer gebaut werden 

Details hierzu R Installation and Administration (2006d, 

Abschnitt 3.1 und Appendix F) 

 

 



Matthias Kohl 




720

8.2.13 Erstellen von Bundles 

manchmal nützlich: Distribution mehrerer Pakete im Verbund 

als ein Bundle 

Beispiele: VR, RobASt 

Installation: wie ein Paket 

Deinstallation: keine (Stand 2.0.1) Deinsallation als Verbund 

sondern jedes Paket einzeln 

Erstellung: wie bisher; 

DESCRIPTION files sehen anders aus: 

 

– das “Haupt”-DESCRIPTION file sieht en gros aus wie bisher 

– nicht enthalten: Punkte Package, Description 

– neu dabei: Punkte 

£ Bundle: (Bundle-Name) 

£ BundleDescription Beschreibung des Bundles 

 



Matthias Kohl 




721

£ Contains: Liste der in dem die verbundenen Pakete 

(durch Freizeichen getrennt) 

DESCRIPTION files der eigentlichen Pakete: 

– heißen DESCRIPTION.in 

– enthalten nur Punkte Package und Description 

8.2.14 Weitergabe eines Pakets/Bundles 


8.2.15 Erfahrungen mit dem Schnüren von 

Paketen 

dieser Abschnitt wurde von Matthias Kohl und Thomas Stabla 

beigetragen 

prompt promptClasses promptMethods 

– für Dokumentation von Funktion und Variablen ist 

 

prompt 

vorgesehen (auch für generische Funktionen!) 

 



Matthias Kohl 




722

– promptClasses zur Dokumentation von S4 Klassen 

 

– promptMethods zur Dokumentation von S4 Methoden 

– Unterschiede 

£ Im GGs. zu prompt und promptClasses: bei promptMethods 

keine Meldung der Form "Created File ..." 

– empfohlene Art der Dokumentation von Methoden 

£ bei generischer Funktion "\S3method" "\S4method" 

£ bei Klassen: S4 Methoden (z.B. Accessor-/Replacement 

Funktionen) 

£ Dokumentation bei Klassen problemlos, wenn Methode 

nur mit ihrer Signatur aufgerufen wird, nicht mit weiteren 

Parametern 

– von promptMethods erzeugte Rd-Datei kann verwendet werden 

£ zur Dokumentation von Methoden —vgl. ?Documentation 

£ zur Kopie der " alias "–Zeilen und des "Methods"–Abschnitt 

in bereits existierende Hilfedatei 

 



Matthias Kohl 




723

Wie erstellt man am besten ein bundle 

– Erzeugung im Wesentlichen wie bei Paket 

– es gibt ein DESCRIPTION file für das Bundle 

dort im Feld Contains anzugeben: Welche Pakete umfasst das 

Bundle? 

– Reihenfolge relevant!! d.h., falls Paket des Bundles anderes 

Paket des Bundles benötigt, erstere nach dem zweiten im 

Contains-Feld 

– für die eingeschlossenen Pakete gibt es keine einzelnen 

DESCRIPTION files, sondern DESCRIPTION.in files 

– DESCRIPTION.in file kann im Prinzip alle Punkte enthalten, 

die nicht bereits im DESCRIPTION file des bundles enthalten 

sind — insbesondere Title, Depends, Suggests, Imports 

– zusätzlich: Feld BundleDescription 

– bei Abhängigkeiten innerhalb des Bundels möglicherweise 

notwendig: 

 



Matthias Kohl 




724

£ Abhhängigkeiten mit .onLoad Funktion zu "erfüllen" 

£ Aufnahme im Depends-Feld der Description.in Datei 

reicht nicht! (Fehlermeldung deutete auf Zusammenhang 

mit den Namespaces) 

Pakete schnüren unter Linux: 

– beim Installieren von / Arbeiten mit R unter Linux: 

£ in SuSE Linux Distribution, Version 9.2 ist R nicht 

enthalten, 

vorkompiliertes rpm-Paket vom CRAN laden oder Sourcen 

holen und selbst kompilieren. . . 

£ im zweiten Fall: notwendig sind auf jeden Fall ein C und 

ein Fortran Compiler 

£ typischer Fehler: vergessen, Linux-Pakete readline, 

readline-devel, xorg-x11-devel zu installieren 

£ erste beide notwendig für "History editing"-Funktion 

£ dritte nötig, um überhaupt Graphiken am Bildschirm 

anzeigen lassen zu können 

 



Matthias Kohl 




725

– beim Erstellen von Paketen: 

 

£ hilfreich Ausgabe des Kommandos: 

R CMD help — v.A. 

= build | check 

£ dabei aus der commands-Liste aus dem Aufruf 

R help 

£ Beispiel: Ausgabe von R CMD check –help 

Usage : R CMD c h e c k [ o p t i o n s ] p k g d i r s 

Check R p a c k a g e s from p a c k a g e s o u r c e s i n t h e d i r e c t o r i e s 

s p e c i f i e d by p k g d i r s . A v a r i e t y o f d i a g n o s t i c c h e c k s on 

d i r e c t o r y s t r u c t u r e , i n d e x and c o n t r o l f i l e s a r e p e r f o r m e d . 

The p a c k a g e i s i n s t a l l e d i n t o t h e l o g d i r e c t o r y ( w h i c h 

i n c l u d e s t h e t r a n s l a t i o n o f a l l Rd f i l e s i n t o s e v e r a l f o r m a t s ) , 

and t h e Rd f i l e s a r e t e s t e d by LaTeX ( i f a v a i l a b l e ) . A l l 

e x a m p l e s and t e s t s p r o v i d e d by t h e p a c k a g e a r e t e s t e d t o s e e 

i f t h e y r u n s u c c e s s f u l l y . 

O p t i o n s : 

h , h e l p p r i n t s h o r t h e l p message and e x i t 

v , v e r s i o n p r i n t ’ c h e c k ’ v e r s i o n i n f o and e x i t 

l , l i b r a r y =LIB l i b r a r y d i r e c t o r y u s e d f o r t e s t 

i n s t a l l a t i o n o f p a c k a g e s ( d e f a u l t i s o u t d i r ) 

o , o u t d i r=DIR d i r e c t o r y u s e d f o r l o g f i l e s , R o u t p u t , e t c . 

( d e f a u l t i s ’ pkg . Rcheck ’ i n c u r r e n t d i r e c t o r y , 

 



Matthias Kohl 




726

where ’ pkg ’ i s t h e name o f t h e p a c k a g e c h e c k e d ) 

no c l e a n do n o t c l e a n o u t d i r b e f o r e u s i n g i t 

no c o d o c do n o t c h e c k f o r c o de / d o c u m e n t a t i o n m i s m a t c h e s 

no e x a m p l e s do n o t r u n t h e e x a m p l e s i n t h e Rd f i l e s 

no i n s t a l l s k i p i n s t a l l a t i o n and a s s o c i a t e d t e s t s 

no t e s t s do n o t r u n code i n t e s t s s u b d i r e c t o r y 

no v i g n e t t e s do n o t c h e c k v i g n e t t e s i n Sweave f o r m a t 

no l a t e x do n o t r u n LaTeX on h e l p f i l e s 

use g c t u s e ’ g c t o r t u r e (TRUE) ’ when r u n n i n g e x a m p l e s / 

t e s t s 

By d e f a u l t , a l l t e s t s e c t i o n s a r e t u r n e d on . 

E m a i l bug r e p o r t s t o . 

 



Matthias Kohl 




727

8.3 Schnittstellen zu anderen 

Programmiersprachen 

8.3.1 Wozu ist das gut? 

um Code, der von Experten außerhalb von R geschrieben ist, 

nutzbar zu machen, insbesondere aus numerischen Bibliotheken 

wie Netlib 

manche (wenige!) Operationen lassen sich schlecht vektorisieren, 

und hier sind dann compilierte Sprachen überlegen 

ABER zuerst versuchen Code zu profilieren — siehe Abschnitt 8.3.2 

 

 



Matthias Kohl 




728

8.3.2 vor Nutzung von compiliertem Code: 

Profiling von R–Code 

nicht immer ist eine Portierung zeitkritischer Teilroutinen in C 

notwendig; alternativ kann man den R–Code erst bereinigen und 

dann profilieren 

Referenz: Writing R Extensions (2006b, Abschnitt 3) 

erster Schritt: Bereinigen von R–Code 

 

– R–Code aus einer Library und solcher, der über den Prompt / 

mit Source eingelesen werden in R unterschiedlich behandelt: 

£ bei benutzer–eingegebenem Code wird der Source–Code 

immer mitgeführt und jedes Mal neu geparst 

£ bei Code aus Libraries wird nur noch der Parsing–Baum 

eingelesen 

£ “ent–Parsing”, i.e. automatisches Regenerieren des 

Source–Codes aus dem Parsing–Baum kann einen 

 



Matthias Kohl 




729

konsistenten, leichter lesbaren Code liefern, i.e. 

¡ einheitliche Einrücktiefe 

¡ einheitliche Konvention beim Zeilenumbruch vor / nach 

Funktionsdeklarationen 

¡ einheitliches Setzen von Spacings vor und nach 

Operatoren 

¡ Verwendung eines einheitlichen Zuweisungsoperators 

£ dazu muss das Source–Attribut der entspr. Funktion 

gelöscht werden 

¡ indem man die Option keep.source auf FALSE setzt 

¡ indem man das Attribut explizit löscht: 

attr (myfun,"source")NULL 

£ dann alle “ent–parsten” Funktionen zur Kommentierung 

und Nacheditierung in ein File dumpen: 

o p t i o n s ( keep . s o u r c e=F) 

 



Matthias Kohl 




s o u r c e ( " myfuns . R" ) 

 

dump( l s ( a l l=TRUE) , f i l e ="new . myfuns . R" ) 

730

zweiter Schritt: Profiling von R–Code 

– Profiling ist für Unix und Windows verfügbar, aber nicht für 

Macintosh! 

– Befehl: Rprof — Details siehe help(Rprof) 

– für Rcmd Rprof muss unter Windows Perl installiert sein 

– Idee: Rprof nimmt in festen Zeitabständen (empfohlen: 

auf einem Rechner), welche R–Funktion gerade 

benutzt wird und schreibt das in ein File — per default 

Rprof.out im Arbeitsverzeichnis 

– anschließend kann man sich mit summaryRprof im prompt 

oder mit R CMD Rprof Rprof.out [Unix] bzw. Rcmd Rprof 

Rprof.out[Win] die Aktivitäten zusammenfassen lassen 

– ersteres erzeugt ein R–Objekt, braucht kein Perl ist aber 

langsamer (z.B. mal so langsam im Beispiel in Writing R 

Extensions) als letzteres 

 

Identifikation der Engpässe — nicht immer braucht man 

 



Matthias Kohl 




731

dann zu deren Behebung compilierten Code 

dritter Schritt: Verwendung von Compiliertechniken für R–Code 

– steckt noch in den Kinderschuhen 

– Positionspapier von Tierney (2003b) 

http://www.stat.uiowa.edu/~luke/R/bytecode.html 

– folgende Features sollten (automatisch) umgesetzt werden 

£ Herausnahme unsinniger Dispatching Tests 

£ Reduktion der “Lookup”–Kosten durch Beschränkung auf 

lokale Symbole 

£ versiegelte (i.e. nicht zum Überschreiben freigegebene) 

Symbole als solche erkennen 

£ Ersatz “konstanter” Ausdrücke durch ihren Wert 

£ schließlich ein Byte–Code Compilat der Source 

 



Matthias Kohl 




732

8.3.3 Schnittstellen von und zu anderen 

Programmiersprachen 

C / FORTRAN und R 

siehe Abschnitt 8.3.5 

JAVA und R 

– S-JAVA 

XLisp und R 

– RXLisp 

Python und R 

– RSPython 

Perl und R 

– RSPerl 

MATLAB und R 

– RMatlab 

 



Matthias Kohl 




733

8.3.4 Schnittstellen zu Datenbanken — R und 

MySQL 

8.3.4 (a) Motivation 

R und Datenbanken verfolgen subtil unterschiedliche 

Zielsetzungen (vgl. Abschnitt 0.2.3) 

dennoch hilfreich bei sehr großen Datensätzen: 

– klassisches Filesystem stößt an Grenzen 

– Nutzung von SQL zum Datenzugriff 

vergleiche auch Abschnitt 4 in “R Data Import/Export” 

gemeinsames “Frontend”-Paket; DBI, verschiedene 

Datenbanktreiber im Backend — hier nur Schnittstelle R und 

MySQL RMySQL 

 



Matthias Kohl 




734

weitere Schnittstellen zu Oracle (Paket: ROracle) und SQLite 

(Paket: RSQlite) 

8.3.4 (b) Installation 

unter Linux; standard (R CMD install RMySQL); 

etwas umständlicher unter Windows (im folgenden): 

Schritt 1: Installation des DBMS (Data Base Management 

System) — Download unter http://www.mysql.com/ 

Schritt 2: Setzen von Pfaden (in Windows) z.B. 

path=%path%;C:\PROGRA~1\MySQL\MYSQLS~1.0\lib\opt 

Schritt 3: in R: Installation von Paket DBI 

Schritt 4: Vorbereiten des PC zum Erstellen von R Paketen 

(Tcl/TK, Perl, MinGw, ...), vgl. Abschnitt 8.2.12 

 



Matthias Kohl 




735

Schritt 5:folgende Answeisungen an die Kommandozeile 

cd C: \PROGRA~1\MySQL\MYSQLS~1 . 0 \ l i b \ opt 

REM ## oder wo s o n s t MySQL l i e g t 

REM e r z e u g e LIBMYSQL . d e f 

reimp only d e f libmySQL . l i b 

REM e r z e u g e libmySQL . a ( e i n e Z e i l e ! ) 

d l l t o o l dllname libmySQL . d l l d e f LIBMYSQL . d e f 

output l i b libmySQL . a k 

REM e i g e n t l i c h e I n s t a l l a t i o n 

R CMD i n s t a l l RMySQL 

in R: Einladen wie gewohnt mit require (RMySQL) 

für R-2.3.1 und MySQL Server 5.0: hier anstelle von Schritt 4 

und 5: RMySQL.zip 

 



Matthias Kohl 




736

8.3.4 (c) Exkurs: Hauptbefehle in SQL 

hier nicht: Anlage von Datenbanken / Designfragen, i.e. CREATE 

TABLE, CREATE INDEX 

(vgl. entsprechende Informatik-Vorlesungen; oder kurz: 

Wikipedia) 

hier nicht: Datenmanipulation: i.e. INSERT, UPDATE, DELETE 

wichtigstes Konstrukt für uns: die Abfrage, i.e. SELECT Struktur: 

 

SELECT [ DISTINCT ] A u s w a h l l i s t e 

FROM Q u e l l e 

WHERE Where K l a u s e l 

[GROUP BY ( Group by A t t r i b u t )+ 

[ HAVING Having K l a u s e l ] ] 

[ORDER BY ( S o r t i e r u n g s a t t r i b u t )+ 

[ ASC | DESC ] ] 

 



Matthias Kohl 




737

8.3.4 (d) Hauptbefehle in DBI 

Verbindung mit einer bestehenden Datenbank 

– Initialisierung eines mySQL-Clients: 

m MySQL() oder m dbDriver("MySQL") 

– Nutzer-Identifikation: geht zwar auch mittels dbConnect; aber 

aus Sicherheitsgründen besser: .my.cnf file, vgl. Seite 3 im 

Manual zu RMySQL 

– Verbindung mit Datenbank dbConnect 

Übermittlung einer SQL-Anfrage 

– dbSendQuery (Ergebnis vom Typ "DBIResult") 

– dbGetQuery (Ergebnis vom Typ data frame) 

– anschließend: (z.B. nach fetch mit dbClearResult: 

löschen der Ergebnisse 

 

fetch: gezieltes Auswählen einzelner “Zeilen”/Datensätze als Liste 

 



Matthias Kohl 




738

ein Beispiel: 

## Not run : 

# c r e a t e an MySQL i n s t a n c e and 

# s e t 10000 o f rows p e r f e t c h . 



Matthias Kohl 

m d b D r i v e r ( "MySQL" , 

con dbConnect (m) 

f e t c h . d e f a u l t . r e c o r d s =10000) 



r s dbSendQuery ( con , p a s t e ( 


" s e l e c t ␣£␣ from ␣HTTP_ACCESS" , 

" where ␣ IP_ADDRESS␣=␣ ’ 1 2 7 . 0 . 0 . 1 ’ " ) ) 

df f e t c h ( rs , n = 50) 

df2 f e t c h ( rs , n = 1) 

d b C l e a r R e s u l t ( r s ) 

pcon dbConnect ( p , group = " w i r e l e s s " ) 

d b L i s t T a b l e s ( pcon ) 

## End ( Not run ) 

 

739

8.3.4 (e) Schnittstelle über ODBC 

ODBC (Open DataBase Connectivity): 

– standardisierte Datenbankschnittstelle auf Basis von SQL. 

– bietet Programmierschnittstelle (API) zur Entwicklung 

DBMS-unabhängiger Software 

– ursprgl. von Microsoft basisierend auf Call Level Interface 

– heute weitgehend Standard 

zwei Gruppen von Befehlen stehen zur Vefügung: 

– odbc£-Anweisungen (niedrige Ebene) ermöglichen Zugriff auf 

entsprechende ODBC Funktionen mit ähnlichem Namen, 

z.B.:odbcClearError, odbcClose, etc. 

– sql£-Anweisungen (höhere Ebene) zum Lesen, Schreiben, 

Manipulieren von Daten zw. Data Frames und SQL-Tabellen, 

z.B.: sqlFetch, sqlGetResults, sqlQuery 

– Achtung: oft Schwierigkeiten mit Verwendung von 

Spezialzeichen wie ä,ö,ß . . . 

 



Matthias Kohl 




740

8.3.5 C/FORTRAN–Code in R 

Beispiele wenn nicht weiter erwähnt aus Writing R Extensions 

(2006b, Abschnitt 5) 

8.3.5 (a) .Fortran 

Ziel: Verwendung einer Lapack–subroutine zur Berechnung der 

LU–Zerlegung einer Matrix 

der FORTRAN–Code 

. . . . . . . . 

SUBROUTINE DGETRF( M, N, A, LDA, IPIV , INFO ) 

£ . . S k a l a r e Argumente 

INTEGER INFO , LDA, M, N 

£ . . M a t r i x / A r r a y Argumente . . 

INTEGER IPIV ( £ ) 

DOUBLE PRECISION A( LDA, £ ) 

 



Matthias Kohl 




741

dieser Code liege in compilierter Form als DLL/Shared Library 

(nicht als . o–Object–File!) bereit und muss bei Bedarf mit 

dyn.load dynamisch ein– und mit dyn.unload ausgeladen werden 

— siehe Abschnitt 8.3.6 

um dgetrf von R aus aufzurufen: Verwendung von .Fortran 

R–Beispiel 8.3-1 [FORTRAN in R]: 

mm m a t r i x ( rnorm ( 1 6 ) , nr =4) 

mmdc . F o r t r a n ( " d g e t r f " , m=as . i n t e g e r ( 4 ) , 

s t r (mmdc) 

n=as . i n t e g e r ( 4 ) , a=as . double (mm) , 

l d a=as . i n t e g e r ( 4 ) , i p i v=i n t e g e r ( 4 ) 

i n f o=i n t e g e r ( 1 ) ) 

der Fortran Code muss dabei eine Subroutine sein 

 



Matthias Kohl 




742

wichtig: Sicherheits–/Absturzrisiko! 

– alle übergebenen Argumente müssen vom exakt richtigen 

Typ (für die Fortran Routine) sein 

explizites Casting mit as. integer,.... 

explizite Deklaration der Dimension und des Speichermodus 

mit den Konstruktoren integer (n), double(n).... 

CAVEAT as. integer (4) integer (4) — 

erstes Objekt hat Länge und Wert , zweites gibt einen 

Vektor der Länge mit en 

– der Rückgabewert von .Fortran ist eine Liste mit den 

gleichen Elementen wie die Argumente von .Fortran — mit 

entsprechenden Namen so vorhanden 

– eine Tabelle mit den Entsprechungen von R, FORTRAN und 

C–Typen findet sich in Writing R Extensions, Abschnitt 4.2 

 



Matthias Kohl 




743

üblich: “Wrapper”–Funktionen, die die Argumente checken, 

casten und anschließend auch das Resultat prüfen 

R–Beispiel 8.3-2 [FORTRAN–Wrapper]: 

LUdecom f u n c t i o n ( x ){ 

} 

x as . m a t r i x ( x ) ; m nrow ( x ) ; n n c o l ( x ) 

s t o r a g e . mode( x ) " d o u b l e " 

## x b l e i b t Matrix nur S p e i c h e r t y p a e n d e r t s i c h 

dc . F o r t r a n ( " d g e t r f " , m=m, n=n , a=x , l d a=m, 

##A u f r u f b e i s p i e l : 

 

i p i v=i n t e g e r ( min ( n ,m) ) , i n f o=i n t e g e r ( 1 ) ) 

i f ( dc $ i n f o ) 

stop ( p a s t e ( " d g e t r f ␣ r e t u r n e d ␣ e r r o r ␣ code " , 

dc $ i n f o ) ) 

l i s t ( l u=dc $a , i p i v=dc $ i p i v ) 

mmdc LUdecom (mm) ; s t r (mmdc) 

 



Matthias Kohl 




744

Erläuterung: 

– storage.mode(x)="double" is ähnlich zu as.double(x), wirft 

aber die Attribute von x nicht weg 

– R–Matrizen haben als erste Dimension (c.f. lda) die 

Zeilenzahl 

8.3.5 (b) .C 

mit der Funktion .C ruft man eine C Funktion auf, die als 

Rückgabewert void hat 

alle Argumente der C–Funktionen müssen Zeiger [“call by 

reference”!] sein, genauer vom Typ int £, vom Typ double £ oder 

(seltener) Rcomplex £, char ££ 

der Rückgabewert / das “output”–Objekt muss in R erzeugt 

werden und als Argument im Aufruf von .C übergeben werden 

Beispiel aus Writing R Extensions — detailliertere Information 

siehe dort 

 



Matthias Kohl 




745

R–Beispiel 8.3-3 [Faltung zweier Vektoren mit .C]: 

– der C Code 

{ 

} 

v oid c o n v o l v e ( double £a , i n t £na , double £b , 

i n t £nb , double £ ab ) 

i n t i , j , nab= £ na + £nb 1; 

f o r ( i =0; i

conv f u n c t i o n ( a , b ) { . C( " c o n v o l v e " , as . double ( a ) , 

as . i n t e g e r ( l e n g t h ( a ) ) , as . double ( b ) , 

as . i n t e g e r ( l e n g t h ( b ) ) , 

ab=double ( l e n g t h ( a)+ l e n g t h ( b) 1)) $ab} 

Aufruf von C Code mit .C geht gut mit rein numerischen 

Berechnungen; 

wird schwerfällig bei Übergabe von komplizierter strukturierten 

Objekte 

der Großteil von R ist in C geschrieben interne Darstellung 

von R–Objekten ist dem C–Programmierer zugänglich 

8.3.5 (c) . Call 

bei strukturierten Objekten besser als .C: . Call — sehr 

mächtiges Tool! 

 



Matthias Kohl 




747

. Call übergibt R–Objekte im Typ raw und gibt auch ein solches 

R–Objekt vom Typ raw zurück 

wichtig: Sicherheits–/Absturzrisiko! — 

typisch: “Segmentation fault” 

 

– R hat eine eigene Speicherverwaltung, die eine Garbage 

Collection bereitstellt; diese konfligiert unter Umständen 

mit der C–Speicherverwaltung — siehe Abschnitt 8.3.9 

bei der Erzeugung von R–Objekten in C müssen diese vor der 

Garbage Collection mit PROTECT geschützt werden 

– vor der Rückkehr zu R muss die gleiche Anzahl an Zeigern 

mit UNPROTECT wieder freigegeben werden, die zuvor mit 

PROTECT geschützt worden ist 

 



Matthias Kohl 




748

R–Beispiel 8.3-4 [Faltung zweier Vektoren mit .Call]: 

#i n c l u d e 

SEXP c o n v o l v e 2 (SEXP a , SEXP b ) /£ SEXP Typ : S E x p r e s s i o n £/ 

{ i n t i , j , na , nb , nab ; double £xa , £xb , £ xab ; SEXP ab ; 

PROTECT( a = AS_NUMERIC( a ) ) ; PROTECT( b = AS_NUMERIC( b ) ) ; 

na=LENGTH( a ) ; nb=LENGTH( b ) ; nab=na+nb 1; 

PROTECT( ab = NEW_NUMERIC( nab ) ) ; 

xa=NUMERIC_POINTER( a ) ; xb=NUMERIC_POINTER( b ) ; 

xab=NUMERIC_POINTER( ab ) ; 

f o r ( i =0; i

der R–Code wird nun viel besser lesbar 

alle Argumente der C–Funktion sind nun vom Typ SEXP — ein 

Zeiger auf eine symbolic expression, in Anlehnung an LISP 

eine genauere Übersicht über die exakten R–SEXP–Typen findet 

sich in Writing R Extensions (2006b, Abschnitt 5.7.3) 

diese sind wichtig zum Anlegen von R–Objekten in C mit den 

Makros NEW_xxxx 

Typüberprüfung von R–Objekten in C erfolgt mit den Makros 

isxxxx; welche genau zur Verfügung stehen siehe Header–Dateien 

Rinternals.h und Rdefines.h 

wenn man den Aufruf einer C–Funktion nicht selbst verwendet, 

sollte man wie bei .Fortran eine Wrapper–Funktion schreiben, 

die alle Castings und Typ–Checks durchführt 

 

das Makro AS_NUMERIC ist ähnlich zur R–Funktion as.double 

 



Matthias Kohl 




750

weil dieses Makro möglicherweise eine Kopie des R–Objekts in 

einem neuen Speichertyp erzeugt, muss das Ergebnis von 

AS_NUMERIC PROTECTed werden 

ein bisschen “tricky”: automatisches Setzen von Attributen 

(wie length, dim): 

– mit Funktionen getAttrib, setAttrib 

– Definitionen für die Attribute in C in Rinternals.h 

– Shortcuts: namesgets, dimgets, dimnamesgets als Analoga zu 

names, dim, dimnames 

– Utilities: GetMatrixDimnames, GetArrayDimnames 

– Definition neuer Attribute mit: install 

– Details: Writing R Extensions (2006b, Abschnitt 5.7.4) 

Vorsicht bei Listen: 

– üblicherweise S–Listen und keine LISP–Listen 

 

isNewList und allocVector (VECSXP,n) statt isList , allocList (n) 

 



Matthias Kohl 




751

Finden und Setzen von Variablen 

 

– Äquivalent zu get(name,envir=rho): 

SEXP getVar(SEXP name, SEXP rho) 

– Äquivalent zu find(name,envir=rho): 

SEXP findVar(SEXP name, SEXP rho); dazu aber nötig: 

Einrichten von name in der Symboltabelle mit install 

– Neuzuweisung / Manipulation von Variablen: 

£ void defineVar (SEXP symbol, SEXP value, SEXP rho) erzeugt 

eine neue Zuordnung Speicher Symboltabelle; entspricht 

assign (symbol, value , envir =rho, inherits =FALSE) — aber 

keine Kopie der Wertbelegung des Objekts 

£ void setVar(SEXP symbol, SEXP value, SEXP rho) ändert die 

Speicherbelegung bei einer bestehenden Zuordnung 

Speicher Symboltabelle; entspricht 

assign (symbol, value , envir =rho, inherits =TRUE) 

 



Matthias Kohl 




752

8.3.5 (d) Manipulation von R–Instanzen von R–Klassen in C 

besonders nützlich ist die Kombination von S4–Klassen und dem 

. Call–Interface 

weil die Typen und Namen von Slots in einer Instanz einer 

S4–Klasse in deren Klassendefinition definiert sind, kann man 

hier auf Typprüfung in einer Wrapping–Funktion weitgehend 

verzichten 

zur Interaktion mit Instanzen von S4–Klassen in C stehen die 

Makros GET_SLOT, SET_SLOT, NEW_OBJECT, MAKE_CLASS 

bereit 

Referenz zu diesem Thema (auch Quelle der Beispiele): Bates 

(2003) 

 

 



Matthias Kohl 




753

R–Beispiel 8.3-5 [LU Zerlegung mit S4 Klassen]: 

 

– Definition einer LU Zerlegungsklasse und eines Konstruktors 

in R 

s e t C l a s s ( "LUdec" , r e p r e s e n t a t i o n ( a=" m a t r i x " , 

p i v o t= " i n t e g e r " ) ) 

s e t C l a s s ( " d m a t r i x " , " m a t r i x " , v a l i d i t y= 

f u n c t i o n ( o b j e c t ){ 

mode ( o b j e c t)==" numeric " }) 

s e t C l a s s ( " DGEmatrix " , " d m a t r i x " ) 

s e t G e n e r i c ( " decompose " , f u n c t i o n ( o b j e c t , . . . ) { 

s t a n d a r d G e n e r i c ( " decompose " ) } ) 

setMethod ( " decompose " , " DGEmatrix " , 

 



Matthias Kohl 




f u n c t i o n ( o b j e c t , . . . ) . C a l l ( "La_DGE_dc " , o b j e c t ) ) 

754

– der C–Code dazu: 

 

#i n c l u d e 

SEXP La_DGE_dc (SEXP A) 

{SEXP aa=PROTECT( d u p l i c a t e (A ) ) ; 

SEXP adims , p i v o t , v a l ; i n t m, n , i n f o ; 

i f ( ! i s M a t r i x ( aa ) | | ! i s R e a l ( aa ) ) 

e r r o r ( "A␣ must ␣ be ␣a␣ d o u b l e ␣ p r e c i s i o n ␣ m a t r i x " ) ; 

adims= GET_DIM( aa ) ; m=INTEGER( adims ) [ 0 ] ; 

n=INTEGER( adims ) [ 1 ] ; 

p i v o t=PROTECT(NEW_INTEGER(m

Kommentare zu diesem Beispiel: 

 

– der Wert des Arguments wird im Zuge der FORTRAN–Routine 

modifiziert er muss daher dupliziert werden, bevor er 

manipuliert werden kann 

– Makros wie GET_DIM und Funktionen wie isMatrix sind 

nützlich, um R–Eigenschaften dieser Objekte in C zu 

bekommen 

– das SET_SLOT Makro [und entsprechend GET_SLOT]: 

£ werden bei Instanzen von S4–Klassen benutzt 

£ das zweite Argument dieser Funktionen muss ein R–Objekt 

vom Typ name sein 

£ die install –Funktion konvertiert einen C–Character–String 

in ein solches Objekt 

£ install muss verwendet werden, geht aber schnell [wg. 

Hashing] 

 



Matthias Kohl 




756

R–Beispiel 8.3-6 [LUdec-Objekt und Matrixinverse]: 

 

– Nutzung eines Objekts aus der LU Zerlegungsklasse zur 

Berechung der Inversen der Originalmatrix 

– der C–Code dazu: 

SEXP La_DGE_t r i (SEXP LU) 

{ 

SEXP aa=PROTECT( d u p l i c a t e (GET_SLOT(LU , 

i n s t a l l ( "a" ) ) ) ) ; 

SEXP p i v o t =(GET_SLOT(LU , i n s t a l l ( " p i v o t " ) ) ) ; 

SEXP adims=GET_DIM( aa ) ; 

m=INTEGER( adims ) [ 0 ] ; n=INTEGER( adims ) [ 1 ] ; 

i n t i n f o , l w o r k = 1; double tmp , £ work ; 

i f (m != n ) 

e r r o r ( "LU␣ k e i n e ␣ L U z e r l . ␣ e i n e r ␣ quadr . M a t r i x ! " ) ; 

/£ beim e r s t e n A u f r u f von d g e t r i bestimmt : 

o p t i m a l e G r o e s s e des A r b e i t s A r r a y s £/ 

 



Matthias Kohl 




757

F77_CALL( d e g e t r i ) (&n , REAL( aa ) ,&n , 

INTEGER( p i v o t ) ,&tmp ,&lwork ,&i n f o ) ; 

check_Lapack_e r r o r ( i n f o , " d t r t r i " ) ; 

l w o r k= ( i n t ) tmp ; 

work = C a l l o c ( lwork , double ) ; 

/£ e i g e n t l i c h e r A u f r u f £/ 

} 

F77_CALL( d e g e t r i ) (&n , REAL( aa ) ,&n , 

INTEGER( p i v o t ) ,&tmp ,&lwork ,&i n f o ) ; 

check_Lapack_e r r o r ( i n f o , " d t r t r i " ) ; 

F r e e ( work ) ; 

UNPROTECT( 1 ) ; 

r e t u r n ( aa ) ; 

 



Matthias Kohl 




758

Kommentare zu diesem Beispiel: 

– wir extrahieren die Slots, die wir brauchen von der Instanz 

– wieder duplizieren wir die Matrix, bevor sie manipuliert 

werden kann 

– beim ersten Aufruf der Lapack–Routine benutzen wir das 

Argument lwork=-1, um dieser zu signalisieren, dass man 

nur die benötigte Speichergröße ermitteln will; diese wird als 

erste Komponente der Arguments work zurückgegeben 

– anschließend allozieren wir den benötigten Speicher mit Calloc 

und geben ihn am Ende der Routine mit Free wieder frei 

– die Funktion check_Lapack_error überprüft, ob der Errorcode 

des Aufrufs der Lapack Routine nicht- ist und gibt 

gegebenenfalls eine informative Fehlermeldung aus: 

 

 



Matthias Kohl 




759

void check_Lapack_e r r o r ( const i n t i n f o , 

{ i f ( i n f o ==0) r e t u r n ; 

i f ( i n f o

Überblick über die in C zur Verfügung stehenden R–Verfahren, 

insbesondere für numerische Probleme: Writing R Extensions 

(2006b, Abschnitt 5.9) 

8.3.5 (e) Auswertung von R-Ausdrücken in C 

Hauptwerkzeug: SEXP eval(SEXP expr, SEXP rho); 

eval(expr, envir =rho) 

hier nicht! — c.f. Writing R Extensions, Abschnitt 4.9 

8.3.5 (f) Debugging von compiliertem Code 

will breakpoints im kompilierten Code setzen 

Vorgehensweise in Unix 

1. Debugger aufrufen mit R -d gdb 

2. R aufrufen 

 

3. am R prompt: Einladen der Library mit dyn.load oder library 

 



Matthias Kohl 




761

4. senden eines Interrupt–Signals (mit strg-d), um in den 

Debug–Modus zu kommen 

5. setzen der breakpoints in den Code 

6. R weiterlaufen lassen mit signal 0[enter] 

Vorgehensweise in Windows 

1. setzen eines breakpoints für WinMain: 

gdb . . . / b i n / Rgui . exe 

( gdb ) break WinMain 

( gdb ) run 

# [ h a e l t an , nachdem DLL g e l a d e n ] 

( gdb ) break R_ReadConsole 

( gdb ) c o n t i n u e 

# [ h a e l t d i e R Console an ] 


2. am R prompt: Einladen der DLL mit dyn.load oder library 

 



Matthias Kohl 




762

3. setzen der breakpoints in den Code 

4. R weiterlaufen lassen mit 

( gdb ) c l e a r R_ReadConsole 


in Windows funktioniert das Signalisieren nicht so gut besser 

unter Unix entwickeln.... 

Beobachtung von R–Objekten beim Debuggen: 

– mit PrintValue(SEXP s) oder R_PV(SEXP s) 

– Details in Writing R Extensions (2006b, Abschnitt 5.10.2) 

 



Matthias Kohl 




763

8.3.6 dynamisches Einladen von 

Bibliotheken/DLL’s 

damit die Funktionen .Fortran, .C, . Call überhaupt auf die 

Routinen zugreifen können müssen diese als “shared library” in 

den Arbeitspeicher geladen werden; dies geschieht 

über library : 

in den meisten Fällen wird man eine Library/DLL mit dem 

Befehl library .dynam in der Funktion . First . lib –Funktion eines 

Pakets einladen; 

– . First . lib wird aufgerufen, wenn ein Paket mit library oder 

requirePackage eingeladen wird 

– Syntax: . First . lib (libname, pkgname); dabei sind 

– libname: ein String mit dem Namen des Library–Verzeichnis, 

in dem zu suchen ist 

 

– pkgname: ein String mit dem Namen des Pakets 

 



Matthias Kohl 




764

– Rückgabewert: ein Character–Vektor mit den Namen der 

Pakete, die diesen Befehl in der aktuellen Sitzung verwendet 

haben, um shared Libraries zu laden 

– Zweck von library .dynam: in der Funktion . First . lib Pakete 

dynamisch einladen; 

– Syntax: library .dynam(chname, package = .packages(), 

lib.loc = NULL, verbose = getOption("verbose"), 

file.ext, ...); dabei sind 

– chname: Name der shared Library/DLL 

– package: eine Liste mit Paketen die nach der DLL 

durchsucht werden sollen 

– lib.loc: ein Character–Vektor mit den 

R–Verzeichnisbäumen, die durchsucht werden sollen oder 

NULL, dann werden alle zur Zeit bekannten Libraries 

durchsucht 

 

– verbose: soll das Einladen auf der Konsole signalisiert 

 



Matthias Kohl 




765

werden? 

– file.ext: File–Endung der zu ladenden Library 

– ...: weitere Argumente für dyn.load 

– new: ein Character–Vektor mit den Namen der Pakete, die 

bereits shared Libraries geladen haben 

– Rückgabewert: ein Character–Vektor mit den Namen der 

Pakete, die diesen Befehl in der aktuellen Sitzung verwendet 

haben, um shared Libraries zu laden 

 



Matthias Kohl 




766

explizit: Ein/Ausladen der Bibliothek mit den Befehlen 

dyn.load/dyn.unload 

– Syntax: dyn.load(x, local = TRUE, now = TRUE), resp. 

dyn.unload(x); 

dabei ist 

– x Pfad der Library als String; als Entwickler sollte man keine 

spezifische File–Endung für die Library festlegen, sondern 

besser eine Konstruktion wie die folgende verwenden: 

f i l e . path ( path1 , path2 , p a s t e ( " m y l i b " , 

. Platform $ d y n l i b . ext , sep="" ) ) ) 

in Unixsystemen kann der Pfad absolut sein, relativ zum 

Arbeitsverzeichnis oder relativ zum Stammverzeichnis 

– local sollen die Symbol–Namen der Funktionen aus der 

shared Library lokal in ihrer eigenen Symboltabelle verwaltet 

werden oder in der globalen Symboltabelle? wird unter 

Windows ignoriert 

 



Matthias Kohl 




767

– now sollen alle Symbole unmittelbar aufgelöst werden (und 

umplatziert) oder erst beim ersten Auftauch eines solchen 

Symbols in einem Ausdruck / in einem Aufruf; wird unter 

Windows ignoriert 

– weitere Informationen im File readme.packages 

Utilities zum Überprüfen welche Routinen im Speicher sind 

– is .loaded(, PACKAGE=""); 

£ überprüft, ob das entsprechende Symbol bereits durch ein 

Einladen einer Shared Library zur Verfügung steht 

£ ist der Symbol–Name der Funktion (in "¡"), 

£ im PACKAGE–Argument kann spezifiziert werden, wo das 

Symbol gesucht werden soll 

– symbol.C()/symbol.For(): 

bilden R–Symbolnamen (Strings!) für C/Fortran–Routinen 

in die entsprechenden Symbolnamen des compilierten Codes 

der Shared Library ab 

 



Matthias Kohl 




768

– Achtung: wird ein Symbol in mehreren Bibliotheken 

verwendet, so überschreibt das zuletzt geladene alle 

vorangegangen Tabelleneinträge; Ausweg über Namespaces, 

vgl. Abschnitt 8.2.7 

– in Zukunft in Erwägung zu ziehen: Schreiben eigener 

Registrierungsroutinen für DLL’s — c.f. Writing R Extensions 

(2006b, Abschnitt 5.4) 

8.3.7 Erfahrungen mit C-Code in R 

dieser Abschnitt wurde von Thomas Stabla beigetragen 

ein kleines Beispiel zur Effizienz von C-Code im Vergleich zu 

R-Code: es sollen die Laufzeiten verglichen werden von 

– for-Schleifen in R 

– for-Schleifen in C 

– der effizienten R-methode sum 

 

C-Code 

 



Matthias Kohl 




769

void sumInC ( double £A, i n t £ l e n g t h , double £ t o t a l ) 

{ 

} 

R-Code 

i n t i ; 

£ t o t a l = 0 ; 

TotalSum 

 

f o r ( i = 0 ; i < £ l e n g t h ; i++ ) 

£ t o t a l += A [ i ] ; 

SimpleSum f u n c t i o n (A) { 

} 

TotalSum 0 

f o r ( i i n 1 : nrow (A) ) 

f o r ( j i n 1 : n c o l (A) ) 

TotalSum TotalSum + A[ i , j ] 

 



Matthias Kohl 




770

#i n Unix 

dyn . l o a d ( " SimpleMath . so " ) 

#i n Windows 

# dyn . l o a d (" SimpleMath . d l l ") 

i s . l o a d e d ( symbol . C( "sumInC" ) ) 

CSum f u n c t i o n (A) { 

} 

. C( "sumInC" , 

as . double (A) , 

as . i n t e g e r ( l e n g t h (A) ) , 

TotalSum = double ( 1 ) ) $TotalSum 

A m a t r i x ( rnorm (10^3) , 10^3 , 10^3) 

 



Matthias Kohl 




771

system . time ( SimpleSum (A ) ) [ 1 : 3 ] 

# => For S c h l e i f e s e h r langsam 

system . time (CSum(A ) ) [ 1 : 3 ] 

# => C Code s c h n e l l e r a l s For S c h l e i f e 

system . time ( sum (A ) ) [ 1 : 3 ] 

# => e f f i z i e n t e r R Code s c h l a e g t C 

# ( b e i A u f r u f von . C e i n g e w i s s e r 

# Overhead ) 

#i n Unix 

dyn . unload ( " SimpleMath . so " ) 

#i n Windows 

# dyn . unload (" SimpleMath . d l l ") 

 



Matthias Kohl 




772

8.3.8 Erzeugen von Shared Libraries/DLL’s 

in Linux/Unix 

– mit dem Befehl R CMD SHLIB 

– dieser akzeptiert als Argument eine Liste von Files, die 

entweder als Object–Files (Endung ’.o’) oder als Sourcen 

von FORTRAN, C, C++ (mit Endungen ’.c’, ’.cc’, ’.cpp’, ’.C’ 

bzw. ’.f’) 

– Spezifikation zusätzlicher Flaggen im File Makevars im 

Compilierverzeichnis 

– weitere Informationen mit R CMD SHLIB help 

in Windows 

– Vorbereitungen wie in Abschnitt 8.2.12 

– mit dem Befehl Rcmd SHLIB 

 

hier gibt es definitiv Schwierigkeiten bei Win 9x unde ME; 


 



Matthias Kohl 




773

– empfohlen: Einsatz spezifischer Makevars.win resp. 

Makefile.win Varianten der entsprechenden 

Unix/Linux–Varianten 

– weitere Informationen im File README.packages im 

R–Stammverzeichnis; diese File ist Schritt für Schritt 

abzuarbeiten 

£ einmal (nach Neuinstallation einer R-version): 

cd R_HOME\ s r c \ gnuwin32 

make l i b R . a l i b R b l a s . a 

– ACHTUNG: Groß- und Kleinschreibung beachten; 

insbesondere bei C-files Endung .c verwenden (sonst wird 

C++-Compiler verwendet)! 

8.3.9 Koordination der Speichermanager 

in R gibt nicht der Benutzer den Speicher frei, sondern von Zeit 

zu Zeit findet eine Garbage Collection statt, bei der dann der 

 



Matthias Kohl 




774

gesamte (oder zumindest Teile des) ungenutzten Speichers 

wieder freigegeben werden — c.f. Abschnitt 8.3.10 

erzeugt man ein R–Objekt in C, so muss man R explizit 

mitteilen, dass dieses Objekt noch benötigt wird, und zwar mit 

PROTECT 

Achtung: das Objekt und nicht die Referenz (der Zeiger) wird 

geschützt; wichtig bei Neuzuweisungen von Werten an ein 

Objekt! 

der Schutzmechanismus wird mit einer Kellerstruktur/stack 

verwaltet; Freigabe der obersten (letzten) geschützten Objekte 

durch UNPROTECT(n) 

bei endgültigem Rücksprung aus der C Routine müssen alle 

PROTECT’s durch UNPROTECT’s gematcht werden — sonst 

Warnung "stack␣imbalance␣in␣. Call" 

während des Ablaufs der C–Routine kann theoretisch jede (für 

den Nutzer nicht unmittelbar sichtbare) Zuweisung eine Garbage 

 



Matthias Kohl 




775

Collection auslösen,... 

im allgemeinen PROTECT verwenden 

ABER in manchen Fällen genauere Analyse sinnvoll, insbesondere bei 

Verwendung großer Objekte — PROTECT/UNPROTECT für 

mehrere Tausend Objekte auf einmal lässt den stack 

überlaufen! 

in solchen Fällen: am besten die Objekte als Slots/Elemente 

eines größeren Objekts schützen 

PROTECT ist nicht nötig für Funktionsargumente — hier “weiß” 

R, dass sie in Benutzung sind 

bei der Speicherverwaltung selbst dann zwei Strategien 

8.3.9 (a) R verwaltet den Speicher 

am Ende des Aufrufs von .C/. Call verfügt R über den 

allozierten Speicher 

 



Matthias Kohl 




776

char£ R_alloc(long n, int size ): alloziert Einheiten à size bytes 

typische Verwendung: 

x= (int £) R_alloc(nrows(merge)+2, sizeof(int)); 

analog: 

– S_alloc: initialisiert den allozierten Speicher mit 

– S_realloc(char£ p, long new, long old , int size ) — modifiziert 

die Speichergröße von old auf new Einheiten und initialisiert 

die neuen Einheiten mt 

allozierter Speicher wird vom Heap genommen 

8.3.9 (b) C verwaltet den Speicher 

R–Interface zu malloc — kümmert sich um Fehlerbehandlung 

eigene Funktionen zur Allozierung und Freigabe von Speicher: 

– allgemeine Schnittstellenfunktionen — Analoga zu calloc , 

realloc , free: 

 



Matthias Kohl 




777

£ type£ Calloc( size _t n, type) 

£ type£ Realloc(any £p, size _t n, type) 

£ void Free(any £p) 

– spezielle allocxxxx–Funktion bereits in Rinternals.h 

vordefiniert; hier Kenntnis der R–Typen in C nötig, c.f. 

Writing R Extensions, Abschnitt 4.7.3 

– spezielle NEW_xxxx–Makros in Rdefines.h vordefiniert 

damit alles gut geht: explizites Casting! 

— z.B. von INTEGER auf REAL mit 

– PROTECT(=coerce(,REALSXP)); 

– PROTECT(=AS_NUMERIC()); 

8.3.10 Exkurs: Speichermanagement in R 

in der absoluten Mehrzahl der Fälle kein Benutzereingriff nötig 

 

Ausnahmen: 

 



Matthias Kohl 




778

– Schnittstellenprogrammierung, c.f. Abschnitt 8.3 

– extrem große Objekte 

– den dynamischen Speicher–Alloziermechanismus von R daran 

hindern mehr als erträglich Ressourcen für R abzuziehen 

8.3.10 (a) Wie alloziert R den benötigten Speicher? 

beim Aufruf von R bekommt R einen Default Arbeitsspeicher; 

dieser teilt sich auf in Heap und Felder von cons cells 

– der Heap wird für Objekte von variabler Größe verwendet 

und ist als heap von “Vcells” à organisiert 

– die cons cells erfassen Objekte mit fester Größe [c.f. Lisp] 

Sprachbausteine oder Parsing-Trees; jede solche Zelle 

umfasst auf einer – und auf einer 

–Architektur 

wenn ein neues Objekt erzeugt wird, sich ein existierendes nach 

einer Zuweisung in der Größe ändert, oder wenn ein neuer 

 



Matthias Kohl 




779

Evaluation frame erzeugt wird, versucht R den Speicherbedarf 

aus diesem Arbeitsspeicher zu decken 

intern werden dazu die malloc–Funktionen verwendet 

werden bestimmte Schwellwerte in der Speicherauslastung 

überschritten, versucht R den Speicher aufzuräumen, um so 

wieder genügend freien Speicher zu haben; die Prozedur, die das 

erledigt heißt Garbage Collection 

die “Grundausstattung” an Speicher wird beim Aufruf von R 

vereinbart: 

– Kommandozeilenoption min nsize: 

steuert die verfügbare Zahl an cons cells 

– Kommandozeilenoption min vsize: 

steuert die verfügbare Größe des Heap in Bytes 

– diese “Grundausstattung” wird nie unterschritten 

£ ohne Einheit Zahl 

– Konvention der Einheiten: Einheit 

 



Matthias Kohl 




780

£ (übliches “kilo”) ¢ 

£ (Computer “kilo”) ¢ ¢ 

£ (Computer “Mega”) ¢ ¢ 

£ (Computer “Giga”) ¢ ¢ 

– in Windows: Kommandozeilenoption max mem size: 

£ Maximalausstattung — wird nie überschritten 

£ per default auf dem Minimum aus Arbeitsspeicher (RAM) 

des Rechners und 

£ minimal 

R–Befehle zum Speichermanagement während einer Session: 

siehe help(Memory) 

– gc: damit ruft der Benutzer die Garbage Collection explizit 

auf; falls Argument verbose auf TRUE, gibt gc anschließend 

einen Statusbericht über die Speicherverwendung ab 

– gcinfo: hiermit setzt man eine Flagge, ob man über eine 

ausgeführte Garbage Collection informiert werden will 

 



Matthias Kohl 




781

– gctorture(on = TRUE): für Testzwecke (habe ich in meinem 

C–Interface alle Objekte auch wieder freigegeben?) — 

erzwingt eine Garbage Collection nach fast jeder 

Speicheranforderung; macht aber auch das System sehr 

langsam 

– memory.profile: gibt die Speicherverwendung nach Typen 

[genauer SEXPREC] getrennt aus 

– memory.size: gibt die maximale (falls Argument max auf 

TRUE) oder aktuelle (sonst) Speicherallokation durch malloc 

aus 

– memory.limits: gibt die aktuellen Speicherbelegungsgrenzen 

an (Argument NA) bzw. versucht diese zu vergrößern (auf 

Argument size) 

ACHTUNG Speicherbelegungsgrenzen können nur vergrößert werden! 

seit R Version 1.2.0 verwendet R einen “generationellen” 

Garbage Collector (gc) 

 



Matthias Kohl 




782

dieser verwaltet auch den Speicher dynamisch, d.h. er vergrößert 

und verkleinert den verfügbaren Speicher bei Bedarf (bis zu 

einem vorgegebenem Limit) 

Details siehe Tierney (2003b): 

http://www.stat.uiowa.edu/~luke/R/gengcnotes.html 

Idee: ein hierarchisches gc räumt zuerst bei den “jüngeren” 

Objekten auf 

es werden keine Speicherbereiche verschoben (“non moving 

strategy”) 

daher: bei sukzessivem Füllen/Löschen des Speichers wird dieser 

immer stärker zerstückelt 

R–Beispiel 8.3-7 [Speicherprobleme]: 

Code verfügbar unter http://www.uni-bayreuth.de/departments/ 

l i b r a r y ( boot ) 

/math/org/mathe7/rkurs/speicher.r 

 



Matthias Kohl 




783

data ( n u c l e a r ) 

nuke n u c l e a r [ , c ( 1 , 2 , 5 , 7 , 8 , 1 0 , 1 1 ) ] 

nuke . lm glm ( l o g ( c o s t )~date+l o g ( cap)+ne+ 

c t+l o g (cum . n)+pt , data=nuke ) 

nuke . d i a g glm . d i a g ( nuke . lm ) 

nuke . r e s nuke . d i a g $ r e s £ nuke . d i a g $ sd 

nuke . r e s nuke . r e s mean ( nuke . r e s ) 

nuke . data data . frame ( nuke , r e s i d=nuke . r e s , 

f i t =f i t t e d ( nuke . lm ) ) 

new . data data . frame ( c o s t =1, date =73.00 , cap =886 , 

ne =0, c t =0, cum . n=11, pt =1) 

new . f i t p r e d i c t ( nuke . lm , new . data ) 

nuke . fun f u n c t i o n ( dat , i n d s , i . pred , 

f i t . pred , x . pred )# 

{ a s s i g n ( " . i n d s " , i n d s , e n v i r =. GlobalEnv ) 

 

lm . b glm ( f i t +r e s i d [ . i n d s ] ~date+ 

l o g ( cap)+ne+c t+l o g (cum . n)+pt , data=dat ) 

 



Matthias Kohl 




784

} 

pred . b p r e d i c t ( lm . b , x . pred ) 

remove ( " . i n d s " , e n v i r =. GlobalEnv ) 

c ( c o e f ( lm . b ) , pred . b 

( f i t . pred+dat $ r e s i d [ i . pred ] ) ) 

f o r ( i i n 1 : 2 0 ) 

p r i n t ( system . time ( boot ( nuke . data , 

nuke . fun , R=999 , m=1, 

f i t . pred=new . f i t , x . pred=new . data ) ) ) 

8.3.10 (b) Was passiert beim Einrichten eines neuen Evaluation 

Frame? 

Situation: ein Aufruf (Call) einer Funktion liegt vor und soll 

abgearbeitet werden 

 

Referenz: Chambers (1998, Abschnitt 4.9) 

 



Matthias Kohl 




785

dies geschieht in den folgenden vier/fünf Schritten 

1. New.frame erzeugt einen neuen Evaluation Frame für den 

Aufruf 

– als Element N einer Frames–Liste, in der die verschiedenen 

Frames verwaltet werden 

– dieser Evaluation Frame ist wieder ein S–Objekt, für das 

nun Speicher alloziert wird 

– parallel zur Frames–Liste “leben” in R noch eine 

Calls–Liste mit den entsprechenden Aufrufen und eine 

Functions–Liste mit den Funktionsdefinitionen 

2. der Auswertungsmechanismus ordnet die tatsächlichen 

Argumente des Aufrufs den formalen der Funktionsdefinition 

zu — vgl. Seiten 300ff. 

3. wenn Methoden für diese Funktion definiert sind — also die 

Funktion generisch ist, sucht der Auswertungsmechanismus 

die am besten passende Methode heraus 

4. eval(body,N) wertet den Körper (body) der Funktion / 

 



Matthias Kohl 




786

Methode aus 

– funktioniert analog zum Befehl 

eval(,) 

– muss dabei womöglich wieder bei Zuweisungen und 

weiteren Aufrufen neuen Speicher allozieren 

5. Clear .frame wird aufgerufen 

– Zweck: den Frame N wieder zu löschen 

– davor wird aber der Wert des Körpers — als Rückgabewert 

der Funktion / Methode in den Vater–Frame Parents[N] 

befördert 

lazy evaluation — vergleiche auch Seite 301 — bewirkt, dass 

Speicher für lokale Kopien (“Call by Value”!) nur dann 

angefordert wird, wenn das Argument im Körper zur Auswertung 

eines Ausdrucks / Aufrufs gebraucht wird 

 

 



Matthias Kohl 




787

8.3.10 (c) Wann muss ein Objekt ausgewertet werden? 

Referenz: Chambers (1998, Abschnitt 4.9) 

die Möglichkeit, unausgewertete Ausdrücke (“promises”, c.f. 

Seite 301) zu übergeben, erspart beim “Call by Value” das 

Anlegen vieler Kopien 

genauer muss S eigentlich nur in folgenden drei Situationen 

Ausdrücke auswerten 

1. bei der Übergabe von Objekten an C, C++, Fortran,....; 

insbesondere benötigen (in C/Fortran vercodete) elementare 

arithmetische, logische Operationen den tatsächlichen Wert 

des Objekts 

2. beim Method Dispatching — vgl. Abschnitt 8.1.3 (c); hier 

wird aber nur der Typ benötigt; Missings sind hier zugelassen 

— i.a. nicht in 1. 

 

3. bei der Zuweisung, wenn es tatsächlich “kopiert” wird — s.u. 

 



Matthias Kohl 




788

S — und damit auch R haben das Prinzip des Data Sharing 

 

– nach Obengesagtem wird der Wert einer (lokalen Kopie) 

einers Objekts in einem Evaluation Frame nur durch 

Zuweisungen verändert; 

– solche Zuweisungen umfassen insbesondere auch 

Ersetzungsmethoden — vgl. Abschnitt 8.1.5 (e); ebenso 

mehr oder weniger analog: assign– oder eval–Ausdrücke 

– um beim (“Call by Value”!) nicht zu viele (unnötige) lokale 

Kopien anlegen zu müssen, verwendet R das Prinzip des 

Data Sharing; diese funktioniert so: 

£ jedes Objekt in S hat einen internen Referenzzähler; 

£ dieser zählt, wie oft dieses Objekt innerhalb eines Frames 

rechts von einer Zuweisung gestanden ist — explizit oder 

als Element / Slot eines Objekts. 

£ bei Übergabe eines Arguments in einem Funktionsaufruf 

wird bei Auswertung dieses Arguments in der Funktion 

dieses im neuen Evaluation Frame zugewiesen 

 



Matthias Kohl 




789

£ dabei werden die Referenzzähler des Objekts und aller 

seiner Elemente / Slots um erhöht, aber nicht wirklich 

eine Kopie angelegt 

£ erst wenn etwas am Objekt geändert wird — z.B. mit 

einer Ersetzungsmethode wird wirklich eine Kopie 

angelegt, — bei komplexeren Strukturen nur eine Kopie 

des entsprechenden Elements / Slots 

£ beim Verlassen des Frames wird dann der Evaluation 

Frame gelöscht — mit den evtl. angelegten tatsächlichen 

Kopien, der entsprechende Speicher freigegeben und der 

Referenzzähler um eins [oder mehr] verringert 

– diese Technik funktioniert gut bei Iterationen und nur sehr 

schlecht bei Rekursionen; 

£ wenn daher ein rekursiver Algorithmus auch gut als 

Iteration zu formulieren ist, sollten Iterationen verwendet 

werden 

£ bei Algorithmen wie quicksort ist dies nicht so gut 

 



Matthias Kohl 




790

möglich Trade–Off zwischen guter Lesbarkeit der 

Rekursion und Speicherersparnis bei Iteration 

£ — bei quicksort zu , also in den 

meisten Fällen Rekursion vertretbar 

– Data Sharing auch relevant bei Schnittstellen zu C / 

Fortran 

£ per Default geht S auf Nummer sicher und legt Kopien an 

£ um dies zu vermeiden: man kann der Schnittstelle 

mitteilen, dass ein S-Objekt in C / Fortran nicht 

verändert werden wird COPY–Argument der Schnittstelle 

 



Matthias Kohl 




791

8.3.11 Verschiedene Aufrufe von R und 

Kommandozeilenoptionen 

8.3.11 (a) Ausführmodi von R 

interaktiver / Sitzungs–Modus: R wartet auf Eingaben an der 

Console 

BATCH–Modus: R verarbeitet ein Script und beendet sich 

anschließend, ohne auf Eingaben zu warten 

unter Windows wird der Modus durch Verwendung eines der 

beiden .exe–Files RGui.exe und Rterm.exe entschieden — 

siehe nächster Abschnitt 

unter Linux wird generell der Sitzungs–Modus verwendet, es sei 

denn man ruft R CMD BATCH auf — siehe nächster Abschnitt 

 



Matthias Kohl 




792

8.3.11 (b) Kommandozeilenoptionen 

generell: — vgl. An Introduction to R (2006a, Anhang B) 

 

– beim Aufruf von R können verschiedene Optionen bereits 

über die Kommandozeile gesetzt werden 

– der konkrete Aufruf unterscheidet sich je nach Betriebssystem 

– Optionen die bei allen Betriebssystemen funktionieren 

£ –version: gibt die Versionsnummer aus und beendet die 

Session 

£ –save/–no-save: kontrolliert, ob beim Beenden der 

Session der Arbeitsspeicher abgespeichert werden soll; 

wenn keine dieser Optionen angegeben wird, wird im 

interaktiven Modus beim Beenden der Sitzung danach 

gefragt; im BATCH–Modus muss eine der beiden 

angegeben werden 

£ –no-site-file: kein Laden eines site-weiten 

Initialisierungsfiles 

 



Matthias Kohl 




793

£ –no-init-file: kein Laden eines benutzerdefinierten 

Initialisierungsfiles 

£ –no-environ: unterdrückt das Laden von 

Umgebungsvariablen 

£ –restore, –no-restore, –no-restore-history, 

–no-restore-data: kontrolliert, ob der Zustand der 

letzten Sitzung (oder zumindest die Daten) 

wiederhergestellt werden sollen 

£ –vanilla: Kombination aus –no-save, –no-restore, 

–no-site-file, –no-init-file und –no-environ 

£ –min-vsize=N, –min-nsize=N, –max-vsize=N, 

–max-nsize=N: siehe Abschnitt 8.3.10 (a) 

£ –quiet, –silent, -q: keine Startup Meldung 

£ –slave: R so still wie möglich laufen lassen 

£ –verbose: Ausgabe von detaillierter Ablauf–Information; 

insbesondere wird in options verbose auf TRUE gesetzt 

 



Matthias Kohl 




794

– Zugriff auf die Kommandozeilenparameter in R mit 

 

commandArgs 

– Ablauf des “Hochfahrens” von R 

£ Bei Aufruf ohne –no-environ wird aus 

Umgebungsvariable R_ENVIRON der Pfad auf File mit 

site–weiten Umgebungsvariablen entnommen; ist 

R_ENVIRON undefiniert, verwendet R 

$R_HOME/etc/Renviron.site, so dieses existiert 

£ die benutzersdef. Einstellungen werden aus File .Renviron 

im Stammverzeichnis des jew. Benutzers geladen 

£ diese beiden Files enthalten Zeilen der Form 

=; siehe auch help(Startup); wichtige 

Variablen dabei: 

¡ R_PAPERSIZE für die Default Papiergröße zum Drucken 

¡ R_PRINTCMD für den Default Druckbefehl 

¡ R_LIBS mit den Verzeichnissen, die nach 

R–Zusatzpaketen durchsucht werden sollen 

 



Matthias Kohl 




795

¡ R_PROFILE der Name des site–weiten startup–Profil 

£ dann sucht R das site–weite startup–Profil im File aus 

der Variablen R_PROFILE, es sei denn Option 

–no-site-file ist angegeben; falls keine Variable 

R_PROFILE existiert, verwendet R 

$R_HOME/etc/Rprofile.site, sofern dieses existiert 

£ dann sucht R das benutzereigene startup–Profil im File 

.Rprofile im Stammverzeichnis des aktuellen Benutzers 

und lädt es mit source ein, es sei denn Option 

–no-init-file ist angegeben; 

£ außerdem wird das File .RData im aktuellen Verzeichnis 

eingeladen, es sei denn Option –no-restore oder 

–no-restore-data ist angegeben; 

£ schließlich wird die Funktion . First aufgerufen, sofern 

diese existiert; diese und die Funktion .Last, die am 

Abschluss einer Sitzung ausgeführt wird, kann man in den 

geeigneten Startup–Files oder im File .RData ablegen 

 



Matthias Kohl 




796

– daneben auch Aufruf von speziellen R–utilities mit 

 

R CMD in Linux, bzw. Rcmd 

; an Kommandos gibt es 

£ BATCH: lässt R im BATCH Modus laufen 

£ INSTALL: installiert Zusatzpakete 

£ REMOVE: löscht Zusatzpakete 

£ build: “baut”/legt Zusatzpakete an— vgl. Abschnitt 8.2.9 

£ check: überprüft Zusatzpakete — vgl. Abschnitt 8.2.11 

£ Rprof: profiliert ein R–File, siehe Abschnitt 8.3.2 

£ Rdconv: konvertiert Files im .Rd–Format in verschiedene 

andere Formate wie HTML, Nroff, L ATEX, puren 

ASCII–Text und S–Dokumentations–Format 

£ Rd2dvi.sh: konvertiert Files im .Rd–Format in 

.dvi/.pdf–Format 

£ Rd2txt: konvertiert Files im .Rd–Format in puren puren 

ASCII–Text 

£ Sd2Rd: konvertiert Files im S–Dokumentations–Format in 

 



Matthias Kohl 




797

.Rd–Format 

– Hilfe ist mit R CMD –help bzw. 

Rcmd –help verfügbar 

Unterschiede Windows/Unix 

– Syntax in Windows 

£ es gibt zwei verschiedene Aufrufe: 

¡ RGui.exe: “graphische Benutzeroberfläche” — ruft man 

normalerweise auf 

¡ Rterm.exe: terminal–Version — für BATCH–Aufrufe 

£ beide können mit Optionen den oben genannten gestartet 

werden 

£ bei Rterm.exe möglich: zusätzliches Setzen von Pipes für 

Ein– und Ausgabefile, also 

Rterm[options][< infile][>outfile] 

£ spezielle Windows–Optionen: 

¡ –mdi, –sdi, –no-mdi: kontrolliert, ob mehrere Fenster 

als Unterfenster eines Hauptfenster (mdi) oder nur 

 



Matthias Kohl 




798

Hauptfenster (sdi) für die Konsole, Graphic, Reports 

geöffnet werden sollen 

¡ –max-memsize=N: siehe Abschnitt 8.3.10 (a) 

¡ –ess: Konfiguriere R zur Zusammenarbeit mit EMACS im 

R-inferior-mode 

£ spezielle Umgebungsvariablen für R in Windows regeln das 

R–Stammverzeichnis: 

¡ mit höchster Priorität R_USER — falls definiert 

¡ dann HOME — falls definiert 

¡ sonst HOMEDRIVEHOMEPATH — falls definiert 

(normalerweise bei Win NT/2K der Fall) 

¡ sonst ist das Stammverzeichnis (üblicherweise C:\) 

R–Stammverzeichnis: 

– Syntax in Linux 

£ R[options][< infile][>outfile] 

£ spezielle Linux–Optionen: 

¡ –help, -h: gibt eine kurze Hilfe als Nachricht aus und 

 



Matthias Kohl 




799

eendet die Session 

¡ RHOME: gibt das R–Stammverzeichnis aus und beendet 

die Session 

¡ –no-readline: schaltet das Kommandozeilen–Editieren 

über readline aus; nützlich für Nutzung von Emacs 

und ESS 

¡ –debugger=, -d : lässt R unter einem 

Debugger ablaufen 

¡ –gui=type, -g type: benutzt type als graphische 

Benutzeroberfläche; aktuell vorgesehen sind X11, gnome 

und none 

£ spezielle Kommandos für R CMD in Linux: 

¡ COMPILE: compiliert Files für R — z.B. C–Files mit 

Code für .C 

¡ SHLIB: legt Shared Library an — vgl. Abschnitt 8.3.8 

¡ LINK: linkt Files für R — Front–End für ausführbare 

Programme 

 



Matthias Kohl 




800

8.3.12 R auf Parallelrechnern 

8.3.12 (a) Nutzung von für Multiprozessorbetrieb optimierter 

Infrastruktur 

numerische Infrastruktur von R: 

öffentliche Bibliotheken aus der Netlib 

von dort: insbesondere Routinen zur linearen Algebra (BLAS 

—Basic_Linear_Algebra_Subprograms) 

R1.7.0: Bibliotheken EISPACK und LINPACK 

aber: diese basieren (nur) auf Level 1 BLAS, d.h. nicht effizient 

auf Multi–Prozessor Rechnern mit gemeinsamen Speicher 

R1.7.0 Umstieg auf LApack (BLAS level 3 konform) 

auch möglich: Nutzung von system-optimiertem BLAS: 

ATLAS — Automatically Tuned Linear Algebra Software 

 



Matthias Kohl 




801

Welche (am besten vorcompilierte) Version von ATLAS für 

welche Architektur? Hinweise dazu: 


http://www.kevinsheppard.com/research/matlabatlas/matlab_atlas.aspx 


unter Linux: Steuerung beim Compilieren über Option 

with blas="", 

vgl. R Installation and Administration (2006d, Abschnitt A.2.2) 

für Windows: Archiv für viele vorcompilierte ATLAS-DLL’s für 

verschiedene Architekturen auf CRAN unter 

bin/windows/contrib/ATLAS 

eigene Optimierung: 

1. Klärung: Welche Version von ATLAS ist die richtige? 

2. Herunterladen dieser Version 

3. Überschreiben der bestehenden Datei Rblas.dll im 

Verzeichnis R_HOME_bin 

 

Matthias Kohl 




802

8.3.12 (b) “Poor Man’s Parallel” — händische Verteilung auf Knoten 

aus heutiger Sicht veraltet; aber didaktisch interessant; 

entstanden im Rahmen der Diplomarbeit von Florian Camphausen 

Vorbereitungen an R-Code . . . 

Übergabe von Parametern an R-Prozess 

– Aufruf (in csh) mit 

R $i restore save no readline gui=none < in.R > out$i; 

£ ruft R mit Übergabeparameter “Inhalt der Variable i” auf 

£ weitere Optionen wie in Abschnitt 8.3.11 (b) beschrieben 

£ das File in.R enthält den abzuarbeitenden Code 

£ das File out$i (wobei $i durch den Inhalt der Variable i 

ersetzt wird) wird mit allen Ausgaben von in.R gefüllt 

– Zugriff auf die Kommandozeilen-Übergabeparameter in R mit 

as. integer (commandArgs()[2]) 

Steuerung der einzelnen R-Prozesse durch drei geschachtelte 

shell-scripten; Hintergrund: 

 



Matthias Kohl 




803

– aus “politischen” Gründen sollen nicht mehr als Knoten 

simultan angefordert werden 

Teile Problem der Ordnung auf in 

Scheiben/Blöcke 

– fordere also mal Knoten an 

– was innerhalb Scheibe s von Prozessor zu tun ist, wird im 

R-Code in.R anhand des beim Aufruf übergebenen 

Parameters $i ¢ entschieden 

– kleiner Punkt zur csh-Syntax: Rückgabe des Werts der 

Variable mit $, numerische 

Berechnungen mit @ 

shell-script Alltask mit einer Schleife, die die Scheiben bis 

durchläuft und jeweils einen Block von Knoten parallel 

anfordert (mit qsub) und beschickt 

 



Matthias Kohl 




804

– 

Quelle unter AllTask 

#! / b i n / t c s h 

# 

d a t e ; q s t a t 

@ I = 1 

w h i l e ( $ I 

– (#Scheiben) wird mit $1, (#Knoten) mit $2 an 

qsub mit Option -v übergeben 

– qsub regelt die Mitprotokollierung sämtlicher Ausgaben von 

Task im Kontrollfile Task.o 

– Ausgabe von Alltask wird in File geschrieben 

 



Matthias Kohl 




805

shell-script Task, das innerhalb einer Scheibe insgesamt 

R-Prozesse unter Verwendung von PBS beschickt 

 

– Quelle unter Task 

#! / b i n / t c s h 

#PBS l w a l l t i m e =24:00:00 

#PBS j oe 

# 

cd ; d a t e 

s e t n=‘ cat $PBS_NODEFILE ‘ 

@ i = ( $ s c 1 ) £ $ w i e v i e l + 1 

@ j = 1 

w h i l e ( $ i

# 

w h i l e ( ‘ l s 1 £ . $ s c . run | wc l ‘ ) 

end 

s l e e p 60 

m a i l ; d a t e 

# und Tschuess . . . . 

e x i t 

– # Prozessoren bereits von qsub in AllTask gesetzt 

– cat $PBS_NODEFILE schreibt in Variable n den Vektor der 

zugeteilten Knoten 

– rsh öffnet Shell auf Knoten $n[$j ] (Indizierung von n wie in 

C), auf der das Eingabefile myRcall ausgeführt wird; 

– in myRcall: 

vor Aufruf von R: Anlage d. Kontrollfiles Task.o 

nach Rückkehr von R: Löschung 

– & schiebt den rsh in den Hintergrund; es wird also nicht bis 

zu dessen Terminierung gewartet 

 



Matthias Kohl 




807

– mit date: Protokollierung von Uhrzeit und Datum 

– erstes sleep zur Sicherheit, falls Fileserver zu langsam 

– Sinn der zweiten while Schleife: 

£ anhand der Kontrollfiles wird geprüft, wie lange der 

Prozess Task noch “leben” muss, bis man ihn mit exit 

verlassen darf: 

£ so lange, bis alle Kontrollfiles der Scheibe gelöscht sind 

£ ls 1 £.$sc.run listet alle Kontrollfiles dieser Scheibe, 

welche anschließend mit wc (“Wordcount”) gezählt werden 

£ bis wc Zeilen zählt, wartet man immer wieder weitere 

Sekunden 

 



Matthias Kohl 




808

Textdatei myRcall mit eigentlichem R-Aufruf 

– Quelle unter myRcall 

cd ‘ pwd ‘ 

echo " ’ $$ ’ " > $n [ $ j ] . $ s c . run 

R $ i r e s t o r e s a v e no r e a d l i n e \ 

g u i=none < a l l e s . R > e r g $ i 

rm $n [ $ j ] . $ s c . run " 

– der Aufruf von echo legt das Kontrollfile $n[$j].$sc.run an, 

z.B. node29.3.run, und schreibt Prozessnummer hinein 

Diagnostik während des Ablaufs 

– für Einsicht in die Warteschlange (Queue), die qsub: 

qstat a; vgl. auch man qstat 

– für Löschungen von Einträgen in der Warteschlange: qdel; 

vgl. man qdel 

 



Matthias Kohl 




809

8.3.12 (c) fertige Pakete zum parallelen Rechnen 


[basiert auf Referat “Paralleles Rechnen mit R”von Lukas Gudmundsson am 14.09.2006] 


Motivation: einige Beispiele von Anwendungen rechenintensiver, Matthias Kohl 

statistischer Verfahren 


Problem Verfahren Anwendugen 

Mustererkennung / 

maschinelles 

Lernen 

Untersuchung 

komplexer 

Wechselwirkungen 

/ Dimensionsre- 

duktion 

Neuronale Netze / 

Support Vector 

Machines (SVMs) 

/ Data-Mining 

stochastische / 

numerische 

Simulation, 

Gibbs-Sampler 

(MCMC) 

´ Analyse von 

Kundendaten, Genetik: 

Microarray-Analysen, 

Pharmabereich: 

Wechselwirkungen von 

Medikamenten 

´ Meteorologie, 

Klimatologie, Geologie, 

Fahrzeugbau (Crashtests), 

Genetik: Sequenzierung, 

 



810

Problem Verfahren Anwendugen 

robuste 

Kovarianzen 

hochdimensionaler 

Daten 

Resampling- 

Techniken 

(Bootstrap) 

´ Ausreißeridentifikation, 

Sensitivitätsanalysen 

statistischer Verfahren 

Situation: eine Aufgabe ist “automatisiert” bestmöglich auf 

mehrere CPUs zu verteilen 

Problemvoraussetzung: Parallelisierbarkeit 

– mehrere Teilaufgaben können (weitgehend) unabhängig von 

einander parallel gelöst werden 

– dazu nötig: geringer Kommunikationsbedarf der Teilaufgaben 

untereinander 

 



Matthias Kohl 




811

Hardware-Architekturen 

 

– Multiprozessor-Maschine 

£ ein Speicher 

£ Datenaustausch über 

Speicher 

£ (eine R - Version) 

– Cluster von Maschinen 

£ verschiedene Architektur 

£ Datenaustausch über 

Netzwerk 

£ (verschiedene R - Versionen) 

 



Matthias Kohl 




812

Software zur Regelung der Kommunikation und Verwaltung der 

Knoten 

 

– MPI (Message Passing Interface ) 

£ Quasi-Standard 

£ fortlaufend in Weiterentwicklung 

£ hervorragend für Multiprozessor-Maschinen 

– PVM (Parallel Virtual Machine) 

£ weit verbreitet 

£ konzeptionell für heterogene Cluster von Maschinen 

£ seit ca. 1997 nicht weiterentwickelt 

– Verfügbarkeit/Installation 

£ beide Konzepte als Pakete im Open Source Projekt 

implementiert verfügbar 

£ Installation bei Multiprozessor-Maschinen nur einmal 

nötig, bei heterogenen Netzen u.U. mehrfach (nicht bei 

homogenen Netzen mit gemeinsamen Fileserver) 

 



Matthias Kohl 




813

R-Pakete zur Parallelisierung 

 

– RPVM (Na Li and Rossini (2001); liefert Infra-Struktur) 

£ Vorbereitung: Installation von PVM, Setzen von Pfaden 

£ Shell-Skripten zur Kommunikation zwischen PVM und R 

£ Starten der Prozesse in R 

£ Low-level und high-level Tools zur Parallelisierung 

– Rmpi (Yu (2002); liefert Infra-Struktur) 

£ Vorbereitung: Erstellen eines Beowulf Clusters; 

Installation von LAM-MPI 

£ Starten von R-Slaves aus R heraus 

£ Rmpi implementiert mehrere MPI-funktionen zu 

Parallelisierung in R 

– snow (Rossini et al. (2003); komfortables User-Interface) 

£ Basiert auf rpvm oder Rmpi 

£ Vor Beginn einer Sitzung: Initialisierung von PVM / MPI 

 



Matthias Kohl 




814

£ Wichtige Funktionen in snow 

¡ Administrative Routinen 

: makeCluster: erzeugt einen neuen Cluster 

: stopCluster : schließt Cluster 

: clusterSetupSPRNG: Initialisierung für parallele Zufallszahlen 

¡ High Level Routinen 

: parLapply: paralleles lapply 

: parSapply: paralleles sapply 

: parApply: paralleles apply 

¡ Basic Routines 

: clusterExport : exportiert Variablen zu Knoten 

: clusterCall : ruft Funktion in jedem Knoten auf 

: clusterApply : wendet Fkt. auf Argumente in jedem Knoten an 

: clusterApplyLB: clusterApply mit ausgeglichener 

Aufgebenverteilung 

: clusterEvalQ: Auswertung eines Ausdrucks auf Knoten 

: clusterSplit : Aufteilung eines Vektors an Knoten 

 



Matthias Kohl 




815

R–Beispiel 8.3-8 [Beispiel mit snow und Rmpi]: 

r e q u i r e ( boot ) ; r e q u i r e ( snow} 

# e r z e u g t e i n C l u s t e r aus 4 Maschienen 

c l m akeCluster ( 4 , t y p e = "MPI" ) 

# w e r t e t l i b r a r y ( boot ) a u f a l l e n Maschinen aus 

c l u s t e r E v a l Q ( c l , l i b r a r y ( boot ) ) 

# d e f i n i t i o n d e r zu b e a r b e i t e n d e n Funktion 

r a t i o f u n c t i o n ( d , w) sum ( d$x £ w) /sum ( d$u £ w) 

# a u s f ü h r e n des B o o t s t r a p a u f dem C l u s t e r 

c l u s t e r C a l l ( c l , boot , c i t y , r a t i o , R=999 , s t y p e="w" ) 

# Stopt den C l u s t e r 

s t o p C l u s t e r ( c l ) 

 



Matthias Kohl 




816

Quellen 

– allgemeine Einführungen in paralelles Rechnen: 

http://www.llnl.gov/computing/tutorials/parallel_comp/, 

http://www.numa.uni-linz.ac.at/Staff/haase/parvor_e/node1.html 

– Links zu MPI: http://www.mpi-forum.org, 

http://www.lam-mpi.org 

– Links zu PVM: http://www.netlib.org/pvm3/, 

http://www.csm.ornl.gov/pvm/pvm_home.html 

– MPI und PVM im Vergleich: Geist et al. (1996) 

– Unix - Multiprozessoren Netzwerk Beowulf: 

http://www.beowulf.org 

– Einführung zum Parallelen Rechnen in R: 

Abstract und Folien zu Vortrag von 

Justin Harrington und Matias Salibian-Barrera 

 



Matthias Kohl 




817

– snow von Luke Tierney, A.J. Rossini, Michael Na Li, H. 

Sevcikova, http://cran.us.r-project.org/src/contrib/Descriptions/snow.html; 

weitere Informationen unter Rossini et al. (2003) und 

http://www.stat.uiowa.edu/~luke/R/cluster/cluster.html, 

sowie unter http://www.sfu.ca/~sblay/R/snow.html 

– pvclust von Ryota Suzuki und Hidetoshi Shimodaira, 

http://cran.us.r-project.org/src/contrib/Descriptions/pvclust.html; 

weitere Informationen unter 

http://www.is.titech.ac.jp/~shimo/prog/pvclust/ 

– Rmpi von Hao Yu, http://cran.us.r-project.org/src/contrib/Descriptions/Rmpi.html; 

weitere Informationen unter Yu (2002) und 

http://www.stats.uwo.ca/faculty/yu/Rmpi 

– rpvm von Na Li und A.J. Rossini, 

http://cran.us.r-project.org/src/contrib/Descriptions/Rpvm.html; 

weitere Informationen unter Na Li and Rossini (2001) 

 



Matthias Kohl 




818

8.3.13 Beispiel: R im InterNet — R im 

BATCH–Modus 

Beispiel von Matthias Kohl: 

 

 

Routine zur Berechnung des Minimax–Radiuses 

. . . z.Z. nicht online ausführbar, weil Rechner vom Netz, auf dem Web-Server und R liefen. . . 

Bereitstellung eines HTML–Formulars als Benutzerschnittstelle 

– c.f. http://www.uni-bayreuth.de/departments/math/org/ 

/mathe7/radius/program.html 

– Benutzer: radius; Kennwort: unknown 

R–Beispiel 8.3-9 [der HTML-Code]: 

 

 

␣␣␣ c h a r s e t=i s o 8859 1"> 

 

 

< t i t l e>The C o s t s o f Not Knowing t h e Radius 

 

 

P r e v i o u s page : 

 

 

Mathematical S t a t i s t i c s (MATHE V I I ) r a d i u s 

 

 

 

The C o s t s o f Not Knowing t h e Radius 

 

 

 



Matthias Kohl 




820

Program f o r k d i m e n s i o n a l l o c a t i o n 

 

 

 

This program d e t e r m i n e s t h e l e a s t f a v o r a b l e r a d i u s 

r0 f o r a g i v e n r a d i u s i n t e r v a l 

[ ra , rb ] . 

 

 

 

 

 

 

 

 

 

 

Choose a d i m e n s i o n k between 1 and 2 5 : 

 

 

 



Matthias Kohl 




821

 

 

 

 

S p e c i f i y a r a d i u s i n t e r v a l [ ra , 

rb] , w i t h ra i n [ 0 , 5) 

and rb i n ( 0 , 5 ] . 

For unbounded r a d i u s i n t e r v a l s s e t rb 

to 6 ! 

 

 

 

 

L e f t l i m i t ra o f t h e r a d i u s i n t e r v a l : 

 

 

 

 

 

 



Matthias Kohl 




822

 

R i g h t l i m i t rb o f t h e r a d i u s i n t e r v a l : 

 

 

 

 

 

 

 

 

 

 

This page i s m a i n t a i n e d by 

 

M a t t h i a s Kohl 

L a s t m o d i f i e d : $Date : 2001/10/10 $ 

 

 



Matthias Kohl 




823

Auswertung der Eingabe in das Formular 

Übergabe per HTML–Methode "post" über stdin an cgi–Skript, einem 

ausführbaren C–Programm, das den Eingabestrom filtert (eigentlich besser 

geeignet: Perl), R aufruft und schließlich dynamisch Antwort-HTML-Seite 

erzeugt 

R–Beispiel 8.3-10 [der C-Code]: 

verfügbar unter http://www.uni-bayreuth.de/departments/math/ 

# i n c l u d e 

# i n c l u d e 

# i n c l u d e < s t d l i b . h> 

# d e f i n e b u f f e r 16 

/org/mathe7/rkurs/prgm.c 

void f i l e c o p y ( FILE £ i f p , FILE £ o f p ) ; 

/£ k o p i e r t F i l e £ i f p a u f F i l e £ o f p £/ 

void f i l t e r ( char £££ v a r l i s t , char £££ i n h a l t l i s t , 

 

i n t £n ) ; 

 



Matthias Kohl 




824

£ f i l t e r t e i n e n Tokenstrom a u f s t d i n 

i n e i n e L i s t e vom Typ Eintragname=E i n t r a g £/ 

i n t main ( void ) 

{ i n t i =0,n= 1; 

char ££ v l , ££ i l ; 

/£ dynamische Erzeugung e i n e r HTML S e i t e 

a u f s t d o u t £/ 

p r i n t f ( " Content t y p e : ␣ t e x t / html%c%c " , 1 0 , 1 0 ) ; 

p r i n t f ( "\n" ) ; 

p r i n t f ( "\n" ) ; 

/£ .. < w e g g e l a s s e n > . . . £/ 

p r i n t f ( "\n" ) ; 

p r i n t f ( "\n" ) ; 

 

 



Matthias Kohl 




825

£ . . H i n t e r g r u n d und Kopf d e r HTML S e i t e . . £/ 

/£ .. < w e g g e l a s s e n > . . . £/ 

/£ F i l t e r n des Tokenstroms a u f s t d i n £/ 

f i l t e r (&v l , &i l , &n ) ; 

/£ d y n a m i s c h e s S c h r e i b e n e i n e s R S k r i p t s 

£/ 

h i e r PFAD V a r i a b l e n aus S i c h e r h e i t s g r u e n d e n 

n i c h t o f f e n g e l e g t 

f o=f o p e n ( "$PFAD/make . r " , "w+" ) ; 

i f ( n>=0) 

{ 

/£ U e b e r p r u e f u n g d e r Eingaben von s t d i n £/ 

 

 



Matthias Kohl 




826

i n t dim=a t o i ( i l [ 0 ] ) , t e s t ; 

double s t a r t=a t o f ( i l [ 1 ] ) , ende=a t o f ( i l [ 2 ] ) ; 

i n t len0 , l en1 , l e n 2 ; 

char £ a u f r u f ; /£ Unix Kommando£/ 

char c ; 

FILE £ f o ; 

l e n 0=s t r l e n ( i l [ 0 ] ) ; 

l e n 1=s t r l e n ( i l [ 1 ] ) ; 

l e n 2=s t r l e n ( i l [ 2 ] ) ; 

/£ E i n g a b e f e h l e r abfangen .. < w e g g e l a s s e n > . . . £/ 

/£ a l s e r s t e s w i r d im dynamisch e r z e u g t e n 

R S k r i p t das e i g e n t l i c h e R Source F i l e 

p e r s o u r c e e i n g e l e s e n £/ 

f p r i n t f ( fo , "␣%s \n␣" , 

" s o u r c e ( f i l e =\"$PFAD/ r a d i u s . r \") " ) ; 

 



Matthias Kohl 




827

£ A u f r u f d e r e i g e n e n F u n k t i o n ’ o p t i m a l ’ 

£/ 

mit den E i n g a b e p a r a m e t e r n vom WWW S e r v e r 

f p r i n t f ( fo , "%s " , " o p t i m a l ( k=" ) ; 

f p r i n t f ( fo , "%d" , dim ) ; 

f p r i n t f ( fo , "%s " , " , ␣ s t a r t=" ) ; 

f p r i n t f ( fo , "%f " , s t a r t ) ; 

f p r i n t f ( fo , "%s " , " , ␣ ende=" ) ; 

f p r i n t f ( fo , "%f " , ende ) ; 

f p r i n t f ( fo , "%s " , " )\ n" ) ; 

f c l o s e ( f o ) ; 

/£ a u f r u f i s t S t r i n g vom Typ 

a u f r u f="R␣BATCH␣$PFAD/make . r ␣$PFAD/ ausgabe . t x t " 

h i e r PFAD V a r i a b l e n aus S i c h e r h e i t s g r u e n d e n 

n i c h t o f f e n g e l e g t £/ 

 



Matthias Kohl 




828

£ A u f r u f von R im BATCH Modus mit R S k r i p t , 

£/ 

K o n s o l e n a u sgabe a u f D a t e i ausgabe . t x t 

d a b e i s c h r e i b t r a d i u s . r d i e E r g e b n i s s e a u f F i l e s 

r a d i u s . t x t , i n e f f . t x t , dauer . t x t 

t e s t=system ( a u f r u f ) ; 

/£ A u s l e s e n £/ 

f o=f o p e n ( "$PFAD/ r a d i u s . t x t " , " r " ) ; 

i f ( f o==NULL) 

p r i n t f ( " D a t e i ␣ konnte ␣ n i c h t ␣ g o e f f n e t ␣ werden ! " ) ; 

/£ s i m u l t a n : d y n a m i s c h e r Aufbau d e r E r g e b n i s s e i t e 

£/ 

mit den R e s u l t a t e n durch S c h r e i b e n a u f s t d o u t 

p r i n t f ( "" ) ; 

p r i n t f ( "Program ␣ f o r ␣k d i m e n s i o n a l ␣ l o c a t i o n " ) ; 

p r i n t f ( "" ) ; 

 



Matthias Kohl 




829

p r i n t f ( "" ) ; 

p r i n t f ( "The␣ r e s u l t s ␣ f o r ␣ d i m e n s i o n ␣k=%d" , dim ) ; 

p r i n t f ( " and ␣ r a d i u s ␣ i n t e r v a l " ) ; 

p r i n t f ( "" ) ; 

/£ Ausgabe Minimax Radius £/ 

i f ( ende==6) 

{ 

} 

e l s e 

{ 

} 

p r i n t f ( "" ) ; 

p r i n t f ( "␣ [%1.2 f , ␣ i n f i n i t y ]" , s t a r t ) ; 

p r i n t f ( "" ) ; 

p r i n t f ( "␣ [%1.2 f , ␣%1.2 f ] ␣" , s t a r t , ende ) ; 

 



Matthias Kohl 




830

p r i n t f ( "␣ a r e :" ) ; 

 


p r i n t f ( " l e a s t ␣ f a v o r a b l e ␣ r a d i u s : " ; 

p r i n t f ( "" ) ; 


w h i l e ( ( c=g e t c ( f o ) ) !=EOF && c !=’ \n ’ ) 

Matthias Kohl 

{ p r i n t f ( "" ) ; 

p r i n t f ( "" ) ; 

p r i n t f ( "␣%c ␣" , c ) ; } 

f c l o s e ( f o ) ; 

/£ Ausgabe E f f i z i e n z v e r l u s t £/ 

f o=f o p e n ( "$PFAD/ i n e f f . t x t " , " r " ) ; 






831

p r i n t f ( "␣" ) ; 

p r i n t f ( " minimax ␣ i n e f f i c i e n c y : ␣" ) ; 


{ p r i n t f ( "" ) ; 

p r i n t f ( "" ) ; 

p r i n t f ( "␣%c ␣" , c ) ; } 

p r i n t f ( "" ) ; 

f c l o s e ( f o ) ; 

/£ Ausgabe R e c h e n z e i t £/ 

f o=f o p e n ( "$PFAD/ dauer . t x t " , " r " ) ; 



p r i n t f ( "␣ computation ␣ time ␣ ( s e c ) : " ) ; 

p r i n t f ( "␣" ) ; 

 



Matthias Kohl 




832


{ p r i n t f ( "" ) ; 

p r i n t f ( "" ) ; 

p r i n t f ( "␣%c ␣" , c ) ; } 

p r i n t f ( "" ) ; 

f c l o s e ( f o ) ; 

/£ Fuss und M a i n t a i n e r v e r m e r k £/ 

p r i n t f ( "" ) ; 

p r i n t f ( "␣ This ␣ page ␣ i s ␣ m a i n t a i n e d ␣ by ␣" ) ; 

p r i n t f ( "

} 

 

} 

i f ( n>0) 

{ 

} 

e l s e 

{ 

} 

f o r ( i =0; i

das eigentliche R-Programm — verfügbar unter 

} 

 


/rkurs/radius.r 

########################################### 

# Funktionen z u r Berechnung des l e a s t f a v . 

# Radius im F a l l k dim . L o k a t i o n f u e r e i n 

# v o rgeg . R a d i u s i n t e r v a l l [ s t a r t , ende ] 

########################################### 

#H i l f s f u n k t i o n " g e s t u t z t e " V e r t e i l u n g s f u n k t i o n 

F f k t f u n c t i o n ( k , t ) 

{ 

e r g pgamma ( ( t ^2/ 2 ) , ( k/ 2 ) ) 


#H i l f s f u n k t i o n g e s t u t z t e r E r w a r t u n g s w e r t 

 



Matthias Kohl 




835

E f k t f u n c t i o n ( k , t ) 

{ 

} 

e r g s q r t ( 2 ) £gamma ( ( k+1)/ 2) /gamma( k/ 2) £ 


pgamma ( ( t ^2/ 2 ) , ( k+1)/ 2) 

#H i l f s f u n k t i o n g e s t u t z t e V a r i a n z 

Vfkt f u n c t i o n ( k , t ) 

{ 

} 

e r g k£pgamma ( ( t ^2/ 2 ) , ( k+2)/ 2) 


#Funktion 

 

z u r Berechnung d e r o p t i m a l e n 

#IC a l s Loesung des MSE Problems ( p . 2 0 7 ) im 

#L o k a t i o n s m o d e l l (P_0 = N_k ( 0 , I ) ) 

 



Matthias Kohl 




836

#( v g l . Rieder (1994, Theorem 5.5.7(b))) 

#u n t e r Verwendung e i n e s z w e i d i m e n s i o n a l e n 

#Newton V e r f a h r e n s 

ICoptk f u n c t i o n ( k , r , A s t a r t =1, b s t a r t =1, 

{ 

d e l t a =1e 9) 

A1 A s t a r t 

b1 b s t a r t 

A0 0 

b0 0 

#Ab S c h r i t t 

w h i l e (max( abs (A1 A0 ) , abs ( b1 b0 ) ) > d e l t a ) 

{ 

A0 A1 

b0 b1 

c0 b0/A0 

 



Matthias Kohl 




837

g s q r t ( 2 ) £gamma ( ( k+1)/ 2) /gamma( k/ 2) 

f dgamma( c0^2/ 2 , k/ 2) 

e g£dgamma( c0^2/ 2 , ( k+1)/ 2) 

v k£dgamma( c0^2/ 2 , ( k+2)/ 2) 

Ff F f k t ( k , c0 ) 

E E f k t ( k , c0 ) 

V Vfkt ( k , c0 ) 

G2 g E c0 + c0 £ Ff r ^2£ c0 

G2b 1/A0£( c0 £ e 1 + Ff + 

c0^2£ f r ^2) 

G2A 1/A0£ ( c0^2£ e + c0 c0 £ Ff 

c0^3£ f + r ^2£ c0 ) 

detJ V£G2b ( g E) £G2A 

A1 ( k£G2b + G2£ ( c0 £v + g 

E c0^2£ e ) ) / detJ 

 



Matthias Kohl 




838

} 

 

} 

b1 (k£G2A + G2£ (V c0^2£v + 

e r g c (A1 , b1 ) 


c0^3£ e ) ) / detJ 

#H i l f s f u n k t i o n z u r Bestimmung des 

#o p t i m a l e n r0 i n n e r h a l b e i n e s bestimmten 

#B e r e i c h s [ begin , end ] 

i n t e r v a l l f u n c t i o n ( r , k , r l i , r r e , d e l t a ) 

{ 

Ab ICoptk ( k , r , 1 , 1 , d e l t a ) 

i f ( r r e == 6) 

{ 

} 

bmin k/ s q r t ( 2 ) /gamma ( ( k+1)/ 2) £gamma( k/ 2) 

 



Matthias Kohl 




839

e l s e 

{ 

} 

e f f r e Ab [ 2 ] ^ 2 /bmin^2 

Abre ICoptk ( k , r r e , 1 , 1 , d e l t a ) 

e f f r e ( k£Ab [ 1 ] Ab [ 2 ] ^ 2 £ ( r ^2 r r e ^2)) / 

i f ( r l i == 0 . 0 ) 

{ 

} 

e l s e 

{ 

( k£ Abre [ 1 ] ) 

e f f l i ( k£Ab [ 1 ] Ab [ 2 ] ^ 2 £ r ^2)/k 

A b l i ICoptk ( k , r l i , 1 , 1 , d e l t a ) 

e f f l i ( k£Ab [ 1 ] Ab [ 2 ] ^ 2 £ ( r ^2 r l i ^2)) / 

( k£ A b l i [ 1 ] ) 

 



Matthias Kohl 




840

} 

 

} 

a s s i g n ( " e f f " , e f f r e , 

e n v i r=s y s . frame ( which = 2)) 

r e t u r n ( e f f r e e f f l i ) 

#Funktion z u r Bestimmung des o p t i m a l e n r0 

#i n n e r h a l b e i n e s bestimmten B e r e i c h s [ begin , end ] 

o p t i m a l f u n c t i o n ( k , s t a r t , ende ) 

{ 

j e t z t proc . time ( ) [ 3 ] 

d e l t a 1e 8 

eps 1e 6 

r u n i r o o t ( i n t e r v a l l , lower = s t a r t , 

upper = ende , t o l = eps , m a x i t e r = 50 , 

 



Matthias Kohl 




841

} 

k=k , r l i =s t a r t , r r e=ende , 

d e l t a=d e l t a ) $ r o o t 

dauer proc . time ()[3] j e t z t 

cat ( round ( r , 4 ) , f i l e ="$PFAD/ r a d i u s . t x t " ) 

cat ( round ( e f f , 4 ) , f i l e ="$PFAD/ i n e f f . t x t " ) 

cat ( round ( dauer , 2 ) , f i l e ="$PFAD/ dauer . t x t " ) 

r e t u r n ( c ( r , e f f ) ) 

Bemerkung: Man würde für diese Zwecke heute eher das Paket CGIwithR von 

David Firth verwenden, zu beziehen unter 

http://cran.r-mirror.de/src/contrib/Descriptions/CGIwithR.html. 

 

 



Matthias Kohl 




842

8.4 Struktur von CRAN / das R Core Team 

8.4.1 das CRAN 

CRAN steht für Comprehensive R Archive Network 

organisierte Verteilungsstruktur um R weltweit verfügbar zu 

machen 

– offizielle Mirrors http://cran.r-project.org/mirrors.html 

– verlinkt mit StatLib 

– weitere inoffizielle Mirrors: z.B. 

ftp://ftp.uni-bayreuth.de/pub/math/statlib/R 

8.4.2 die R Foundation 

8.4.2 (a) Was ist das? 

genauer Titel “The R Foundation for Statistical Computing” 

 

non–profit Organisation 

 



Matthias Kohl 




843

Sitz: in Wien, aktuell an der TU Wien 

eingetragene Vereinigung nach Österreichischem Recht 

8.4.2 (b) Zielsetzung 

soll dem R–Projekt und anderen Innovationen im Bereich 

rechnergestützte Statistik Unterstützung gewähren 

soll eine Anlaufstelle sein für Privatleute, Instititutionen oder 

kommerzielle Firmen die R unterstützen wollen oder mit der 

R–Entwicklergemeinde in Kontakt treten wollen 

soll das Urheberrecht über die R–Software und –Dokumentation 

innehaben und verwalten 

vergleichbar zu Apache Foundation und GNOME Foundation 

Link zu den Statuten 

 



Matthias Kohl 




844

8.4.2 (c) Leitung 

Präsidenten: Robert Gentleman, Ross Ihaka 

Generalsekretär: Friedrich Leisch 

Schatzmeister: Kurt Hornik 

Ehrenmitglied: John Chambers 

Auditoren: Peter Dalgaard und Martin Mächler 

8.4.2 (d) Kontakt 

Adresse 

The R Foundation for Statistical Computing 

c/o Institut für Statistik und Wahrscheinlichkeitstheorie 

Technische Universität Wien 

Wiedner Hauptstraße 8-10/1071 

A-1040 Wien 

 



Matthias Kohl 




845

Tel: (+43 1) 58801 10715 

Fax: (+43 1) 58801 10798 

Email: R-foundation@R-project.org 

Bankverbindung 

– Bank Austria Creditanstalt (Swift Code BKAUATWW) 

– innerhalb Österreich: Konto-Nr. 51582 121701, BLZ 12 000 

– international (IBAN): AT 93 1200 0515 8212 1701 

8.4.2 (e) Mitgliedschaft 

gewöhnliche Mitgliedschaft 

– durch Mehrheitsvotum der Vollversammlung 

– Kriterium: nicht–monetäre Beiträge zur Entwicklung von R 

unterstützende Mitgliedschaft 

 

– durch Zahlung jährlicher Beiträge 

 



Matthias Kohl 




846

– Mitgliedschaft sowohl natürlicher als auch juristischer 

Personen möglich 

– Beiträge 

£ natürliche Personen: 25 e 

£ Institutionen: 250 e 

£ Wohltäter (“benefactor”) (?): 500 e 

8.4.3 R Core Team 

8.4.3 (a) Zusammensetzung / Organisation 

wie in Abschnitt 0.2.2 erwähnt: 

das “Projekt R” wurde initiiert von Ross Ihaka / Robert 

Gentlemen (University of Auckland) 

seit Mitte 1997 hat sich eine Kerngruppe von Entwicklern — das 

R Core Team zusammengefunden 

diese sind die einzigen mit Schreibrechten auf die R–Sourcen, 

wie sie sich im CRAN finden 

 



Matthias Kohl 




847

Zusammensetzung 

– Douglas Bates (USA): bates@stat.wisc.edu 

– John Chambers (USA): jmc@research.bell-labs.com 

– Peter Dalgaard (Dänemark): p.dalgaard@biostat.ku.dk 

– Robert Gentleman (USA): rgentlem@jimmy.dfci.harvard.edu 

– Kurt Hornik (Österreich): Kurt.Hornik@ci.tuwien.ac.at 

– Stefano Iacus (Italien): stefano.iacus@unimi.it 

– Ross Ihaka (Neuseeland): ihaka@stat.auckland.ac.nz 

– Friedrich Leisch (Österreich): Friedrich.Leisch@univie.ac.at 

– Thomas Lumley (USA): tlumley@u.washington.edu 

– Martin Mächler (Schweiz): maechler@stat.math.ethz.ch 

– Guido Masarotto (Italien): guido@hal.stat.unipd.it 

– Duncan Murdoch (Kanada): murdoch@stats.uwo.ca 

– Paul Murrell (NZ): paul@stat.auckland.ac.nz 

– Martyn Plummer (Frankreich): plummer@iarc.fr 

 

– Brian Ripley (Großbritannien): ripley@stats.ox.ac.uk 

 



Matthias Kohl 




848

– Duncan Temple Lang (USA): duncan@research.bell-labs.com 

– Luke Tierney (USA): luke@stat.umn.edu 

– und — bis Oktober 1999: Heiner Schwarte (Schweiz) 

h.schwarte@bluewin.ch 

8.4.3 (b) weitere wichtige Entwickler 

Valerio Aimale (Italien): valerio.aimale@biosgroup.com [Entwickler der Command history; R–Tester in 

der alpha-Phase] 

Thomas Baier (Österreich): Thomas.Baier@ci.tuwien.ac.at [Maintainer / Entwickler des R-COM–Servers] 

Roger Bivand (Norwegen): Roger.Bivand@nhh.no [Maintainer / Entwickler der Pakete GRASS, pixmap, 

spdep] 

Ben Bolker (USA): ben@zoo.ufl.edu [Maintainer / Entwickler der Pakete ape, gregmisc, landsc, boa, 

turtle, sparma, cannib, bbmisc] 

Göran Broström (Schweden): gb@stat.umu.se [Maintainer / Entwickler der Pakete eha, glmmML, spdep] 

Vince Carey (USA): stvjc@channing.harvard.edu [Entwickler im Bioconductor Projekt; Themen: 

externe Referenzen und RDBMS in Bioinformatik; Maintainer / Entwickler der Pakete combinat, gee, 

yags, outpack, cremo, Cmat, Cohort, alr, HIVresis, coild, lmsqreg] 

Saikat DebRoy (USA): saikat@stat.wisc.edu [Thema: Konvertierung großer R Pakete auf S4–Klassen; 

Maintainer / Entwickler der Pakete lme4, Matrix, nlme, RMySQL] 

Lyndon Drake (Neuseeland): lyndon@stat.auckland.ac.nz [Maintainer / Entwickler des Paketes 

gtkDevice] 

Brian D’Urso (USA): durso@hussle.harvard.edu [LATEX–CM Fonts für R] 

 



Matthias Kohl 




849

Dirk Eddelbüttel (Deutschland/USA): edd@debian.org [Maintainer / Entwickler des PaketesRQuantLib, 

zuständig für Debian Portierung, sehr aktiv in R-help] 

 

John Fox (Kanada): jfox@mcmaster.ca [Autor zu Fox (2002); Maintainer / Entwickler der Pakete car, 

effects, Rcmdr (GUI für R), sem] 

Paul Gilbert (Kanada): pgilbert@bank-banque-canada.ca [Maintainer / Entwickler der Pakete curve, 

dse1, dse2, dsepadi, juice, monitor, setRNG, syskern, tframe] 

Spencer Graves (?): spencer.graves@pdf.com [sehr aktiv in R-help] 

Philippe Grosjean (Belgien/Frankreich): [der Entwickler / Antreiber von GUI’s für R, Entwickler von 

SciViews; c.f. auch hier; Maintainer der Rubrik auf der R–Homepage Entwickler der Paketes pastecs, 

nlrq] 

Julian Harris [MacIntosh Portierung] 

Torsten Hothorn (Erlangen): Torsten.Hothorn@rzmail.uni-erlangen.de [Maintainer / Entwickler der 

Paketes StatDataML, exactRanktests, exactRanktests, ipred, lmtest, maxstat, multcomp, mvtnorm, RmSQL; 

Thema: Bagging/Boosting usw.] 

Robert King (Australien): robert.king@mailbox.gu.edu.au [Maintainer / Entwickler des Pakete gld] 

Wing Kwong (Tiki) Wan [MacIntosh Portierung] 

Philippe Lambert (Belgien): lambert@stat.ucl.ac.be [Maintainer / Entwickler des Pakets stable] 

Jan de Leeuw (USA): deleeuw@stat.ucla.edu [Maintainer / Entwickler des Pakete homals] 

Andy Liaw (USA): andy_liaw@merck.com [Maintainer / Entwickler des Pakete locfit, randomForest, 

spdep, sehr aktiv in R-help] 

Uwe Ligges (Dortmund): ligges@statistik.uni-dortmund.de [Maintainer / Entwickler des Pakets 

scatterplot3D, und der winedt.ini für R, siehe auch hier; sehr aktiv in R-help] 

Jim Lindsey (Belgien): jlindsey@luc.ac.be [Maintainer / Entwickler der Pakete gnlm, dna, event, 

repeated, growth, rmutil, stable, glim4; R–Tester in der alpha-Phase] 

Patrick Lindsey (Belgien): plindsey@luc.ac.be [Maintainer / Entwickler der Pakete ordinal; R–Tester 

in der alpha-Phase] 

 



Matthias Kohl 




850

Catherine Loader (USA): catherine@research.bell-labs.com [Maintainer / Entwickler des Pakets 

crossings, Locfit] 

 

Gordon Maclean (USA): maclean@atd.ucar.edu [R–Tester in der beta-Phase] 

John Maindonald (Australien):john.maindonald@anu.edu.au [Maintainer / Entwickler des Pakets hwde] 

David Meyer (Österreich): david.meyer@ci.tuwien.ac.at [Maintainer / Entwickler des Pakete 

StatDataML, vcd] 

Steve Oncley (USA): oncley@atd.ucar.edu [R–Tester in der beta-Phase] 

Richard O’Keefe (Neuseeland): ok@cs.otago.ac.nz [XML– und Datenstrukturen (Informatiker); aktiv 

in R-help] 

Hubert Palme: (Wuppertal) palme@uni-wuppertal.de [R–Tester in der beta-Phase] 

Jose Pinheiro (USA): jcp@research.bell-labs.com [Autor von Pinheiro and Bates (2000); siehe auch 

hier; Maintainer / Entwickler der Pakete nlme, SASmixed] 

Paulo J. Ribeiro, Jr. (Brasilien): Paulo.Ribeiro@est.ufpr.br [Maintainer / Entwickler der Pakete geoR, 

geoRglm; siehe auch hier] 

Jonathan Rougier (Großbritannien): J.C.Rougier@durham.ac.uk [Maintainer / Entwickler des Pakete 

Oarray, Tensor] 

Günther Sawitzki (Heidelberg): gs@statlib.uni-heidelberg.de [Autor eines deutschsprachigen Tutorial, 

Entwickler für OBERON] 

Martin Schlather (Bayreuth): martin.schlather@uni-bayreuth.de [Maintainer / Entwickler des Pakets 

RandomFields] 

Marc Schwartz (?): mschwartz@medanalytics.com [Maintainer / Entwickler der Pakete X-Tab, Coauthor 

gregmisc; sehr aktiv in R-help] 

Bill Simpson (Großbritannien): wsi@gcal.ac.uk [Maintainer / Entwickler der Pakete GRASS, pixmap, 

spdep] 

Gordon Smyth (Australien): smyth@wehi.edu.au [Maintainer / Entwickler der Pakete StatMod, SMAWEHI, 

Tweedie; Maintainer der Domain StatSci.org] 

 



Matthias Kohl 




851

Adrian Trapletti (Schweiz): adrian@olsen.ch [Maintainer / Entwickler der Pakete tseries, ffnet] 

Terry Therneau (USA): therneau.terry@mayo.edu [Maintainer / Entwickler der Pakete 

gamterms,plotterms, jitplot, mlowess, rpart, survival] 

Bill Venables (Australien): William.Venables@cmis.CSIRO.AU [Author von Venables and Ripley (1999) 

und Venables and Ripley (2000); wichtiger Programmierer für S-Plus und R] 

Gregory R. Warnes (USA): warnes@biostat.washington.edu [Maintainer / Entwickler von genetics, 

gregmisc, haplo.score, session] 

Andreas Weingessel (Österreich): Andreas.Weingessel@ci.tuwien.ac.at [Maintainer / Entwickler der 

Pakete bindata, princurve, quadprog] 

Simon Wood (Großbritannien): snw@mcs.st-and.ac.uk [Maintainer / Entwickler der Pakete mgcv, posum2] 

Achim Zeileis (Österreich): zeileis@ci.tuwien.ac.at [Mitorganisator der DSC–Konferenzen; 

Maintainer / Entwickler der Pakete strucchange,lmtest, ineq, vcd] 

 



Matthias Kohl 




852

8.4.3 (c) Entwicklungsprozess 

Abstimmung der Entwicklungsaktivitäten über / bei 

 

– Konferenzen 

– Newsletter: R News 

– spezielles Forum: r-devel — 

r-devel@stat.math.ethz.ch 

– einheitliche, konsistente Entwicklung mit 

subversion–System — siehe auch 

http://developer.r-project.org/SVNtips.html 

Beispiel 8.4-1 [Logfile vom 01.07.2003]: 

Tue Jul 1 08:03:04 UTC 2003, maechler 

sapply() matrix: no dimnames if no .. 

R NEWS,1.1547.2.72 

R/src/library/base/R sapply.R,1.4.44.1 

R/src/library/base/man lapply.Rd,1.8.10.2 

 



Matthias Kohl 




853

Tue Jul 1 08:03:37 UTC 2003, maechler 

branch update 

R NEWS,1.1669 

R/src/library/base/R sapply.R,1.5 

R/src/library/base/man lapply.Rd,1.12 

Tue Jul 1 09:14:54 UTC 2003, ripley 

remove unnecessary weights.lm method 

simplify model.matrix.lm 

now model.matrix.default handles empty models 

effects() does not work on empty models 

R/src/library/base/man effects.Rd,1.7 lm.summaries.Rd,1.35 

R/src/library/base/R lm.R,1.106 

R/tests reg-tests-2.R,1.72 reg-tests-2.Rout.save,1.85 

R NEWS,1.1670 


lm.influence was misbehaving on a 0-rank model 

R/src/library/base/R lm.influence.R,1.15.2.1 

R NEWS,1.1547.2.73 

 



Matthias Kohl 




854

Tue Jul 1 09:55:21 UTC 2003, hornik 

Updated. 

R FAQ,1.290.2.20 

R/doc/html faq.html,1.278.2.21 

R/doc/manual R-FAQ.texi,1.267.2.20 

R FAQ,1.310 

R/doc/html faq.html,1.298 

R/doc/manual R-FAQ.texi,1.287 

Tue Jul 1 09:58:08 UTC 2003, hornik 

Typos and cosmetics. 

R NEWS,1.1671 

R/src/library/base/R library.R,1.127 

R/src/library/base/man library.dynam.Rd,1.16 

Tue Jul 1 12:16:34 UTC 2003, duncan 

Fix from John to get methods for [[ (and other primitives) 

merged into the methods table when a second or more library 

is loaded with such methods. See SWinTypeLibs and 

RDCOMClient for an example. 

R/src/library/methods/R RMethodUtils.R,1.47 

 



Matthias Kohl 




855


lm.influence -- handle 0-rank models, add names to 

components of return value 

R NEWS,1.1672 

R/src/library/base/R lm.influence.R,1.16 

R/src/library/base/man lm.influence.Rd,1.19 

R/tests reg-tests-2.R,1.73 reg-tests-2.Rout.save,1.86 


branch update 

R NEWS,1.1673 

Tue Jul 1 22:03:58 UTC 2003, iacus 

R/src/modules/aqua aquaconsole.c,1.17 

R/src/unix aqua.c,1.5 

R/src/modules/aqua aquaconsole.c,1.18 

R/src/modules/aqua/Contents/Resources/main.nib info.nib,1.7 

objects.xib,1.9 

R/src/modules/aqua R.fix,1.3 

Bug–Tracking 

 



Matthias Kohl 




856

– automatisierte Formulare zur Fehlermeldung, z.B. 

http://r-bugs.biostat.ku.dk/cgi-bin/R 

8.4.3 (d) Zuständigkeiten 

Douglas Bates: lineare Modelle, AIC, prompt, stack; Pakete Devore5, 

Matrix, NISTNls, SASMixed, lme4, nlme, 

John Chambers: “Vater” von S .... — vieles also direkt oder indirekt von 

ihm; Pakete OOP, SLanguage 

Peter Dalgaard: as.function, edit .data.frame, gctorture, margin.table, 

match.fun, prop.table, subset, transform; Pakete TclTK, ISwR 

Robert Gentleman: match.fun, toString, match.fun; Pakete lgtdl, muhaz, 

panel, permax 

Kurt Hornik: Editor von R–News, aggregate, agrep, apropos, loglin , 

read.fwf (Perl), [ r ,p,q,d]SignRank, [ r ,p,q,d]wilcox; Pakete chron, date, 

mda, oz, polynom, tseries, vcd, chron; aktuelle/ neue Projekte unter 

http://developer.r-project.org/TODO-KH.html 

Stefano Iacus: Paket ifs 

 

Ross Ihaka: Mitinitiator von R 

 



Matthias Kohl 




857

Friedrich Leisch: formatC, mahalanobis, RweaveLatex, Rtangle, Sweave, 

....; Pakete bindata, bootstrap, e1071, fracdiff, mlbench, multiv, 

pixmap, ifs, 

Thomas Lumley: close [make,read].socket, esoph, image; Pakete acepack, 

adapt, dichromat, leaps, netCDF, rmeta, survey, survival 

Martin Mächler: apropos, Bessel, check.options, col2rgb, example, 

findInterval , formatC, jitter , methods, n2mfrow, noquote, plot . design, 

plot .lm, print .coefmat, RNGkind, str , sunflowerplot, symnum, 

which.min[max], xyz.coords, apropos; Pakete VLMC, cluster, cobs, 

lasso2, lokern, lpridge, normix, wavethresh; aktuelle/ neue Projekte 

unter http://developer.r-project.org/TODO-MM.html 

Guido Masarotto: library , link .html.help, png, Rwin configuration 

[Konfiguration R für Windows], saveplot, system, windows, 

Duncan Murdoch: Paket ellipse 

Paul Murrell: layout, plotmath, Paket grid; aktuelle/ neue Projekte unter 

http://developer.r-project.org/paul-todo.html 

Martyn Plummer: Paket gtkDevice 

 

Brian Ripley: “ R wie Ripley ....”, extrem aktiv in r-help; add1, alias , aov, 

bandwidth, C, chull, conflicts , ddebugger, dev2bitmap, dummy.coef, 

 



Matthias Kohl 




858

eff 

. aovlist , expand.grid, extractAIC, factor .scope, file . access, 

file . info , files , kappa, labels, link .html.help, list . files , manova, 

max.col, model.tables, page, pmatch, png, poly, predict .glm, proj, 

RANDOM, read.fwf, relevel , repilcations , rug, savePlot, se.aov, 

se. contras, sets, shell , step, summary.manova, Sys. info , Sys. sleep, 

system, ts methods, update, windows, zip . file .extract; Pakete 

KernSmooth, MASS, RODBC, boot, class, gee, logspline, mix, nnet, 

pspline, rpart, sm, spatial, tree, KernSmooth; aktuelle/ neue Projekte 

unter http://developer.r-project.org/BDR-TODO.html 

Duncan Temple Lang: [Programmierung; multiple threading...], 

getNativeSymbolInfo, getNumCConverters, getNumCConverters; Pakete 

REventLoop, RGdkPixbuf, RGtkxxx–Pakete, RObjectTables, RSPerl, 

SASXML, SJAVA, REventLoop, RWinRegistry, RWinTypeLibs, SXalan, Slcc , 

Sxslt, XML, REventLoop; aktuelle/ neue Projekte unter 

http://developer.r-project.org/TODO-DTL.html 

Luke Tierney: viele konzeptionelle Ideen, u.a. Namespaces; siehe auch 

Beiträge auf http://developer.R-project.org/; bindenv, ns xxx, 

bindenv; Pakete serialize, snow, tkrplot 

Grafiktreiber c.f. 

http://www.stat.auckland.ac.nz/~paul/R/devices.html 

 



Matthias Kohl 




859

Treiber Betriebssystem zuständig 

PostScript (und bitmap) alle R-core 

PicTeX alle R-core 

PDF alle R-core 

xfig alle R-core 

Java alle Duncan Temple-Lang 

GTK alle Martyn Plummer 

SVG alle T Jake Luciani 

X11 (und PNG und JPEG) *NIX R-core 

GNOME *NIX Martyn Plummer 

Quartz *NIX Stefano Iacus 

Windows Windows Duncan Murdoch 

proxy Windows Thomas Baier 

Macintosh 

 

Macintosh Stefano Iacus 

 



Matthias Kohl 




860

8.4.4 Einreichung eigener Pakete bei CRAN 

8.4.4 (a) Vorbereitungen 

Anlegen eines Pakets — vgl. Abschnitt 8.2.2 

Bereinigen und Profilierung des Codes — vgl. Abschnitt 8.3.2 

systematische Dokumentation des Codes und der Daten 

– siehe auch Abschnitte 3.3.4 und 8.2.6 

– Referenz: Writing R Extensions, Kapitel 2 

8.4.4 (b) Einreichen bei CRAN 

packen und zippen mit tar -cf und gzip auf ein File mit 

Namen .tar.gz 

dabei muss name von der Form sein 

_version[_engine[_type]] mit: 

– [....] ist optional 

 



Matthias Kohl 




861

– und version sind konsistent mit den 

Einträgen in DESCRIPTION File 

– engine gibt die S–Implementation an, für die das Paket 

gedacht ist — per default R 

– type gibt an, ob es sich um Quellen oder Binärdateien für 

bestimmte Systeme handelt — siehe Writing R Extensions 

– Idee: Nutzbarkeit von S-Plus–Code auch für R 

upload auf CRAN mit ftp auf 

ftp://ftp.ci.tuwien.at/incoming 

Referenz: Writing R Extensions (2006b, Kapitel 1.5) 

formale Voraussetzungen: 

– R CMD check muss fehlerfrei laufen — vgl. Abschnitt 8.2.11 

– notwendig: License Statement in DESCRIPTION 

Feedback von allen möglichen Nutzern, ob das Paket auf 

allen möglichen esoterischen Konfigurationen läuft 

 



Matthias Kohl 




862

Aufgabensammlung zur 

Veranstaltung 

R/S-Plus für Einsteiger 

und für Fortgeschrittene 

 

 



Matthias Kohl 




863

A Aufgaben 

A.1 Blatt 1 

Stoff bis einschließlich Abschnitt 1.2.2 — Vektoren, Matrizen, 

Arrays 

 

 



Matthias Kohl 




864

A.1.1 Arbeit mit R-Skripten am Beispiel eines 

beliebigen Editors: (ohne direkte Anbindung 

an R) 

(a) Erzeugen Sie eine R-Datei. 

(b) Laden und arbeiten Sie die komplette (gespeicherte) Datei ab. 

(c) Laden und arbeiten Sie die ersten Befehle ab. 

(d) Laden und arbeiten Sie einzelne Befehle ab. 

Lösungsvorschlag: 

.pdf-Version: L.1.1 

 

 



Matthias Kohl 




865

A.1.2 Auffinden von Datensätzen 

(a) Suchen Sie im Internet einen Datensatz, in dem die tägliche 

Kursentwicklung von Dollar zu DM/Euro über einen längeren 

Zeitraum dargestellt ist. 

(b) Suchen Sie im Internet einen Datensatz, in dem Klimadaten 

einer Wetterstation in Deutschland dargestellt sind. 

(c) Welche Pakete (packages) sind in S-Plus/R integriert? Wie 

lassen sich diese laden? 



 

 



Matthias Kohl 




866

A.1.3 Datenimport 

(a) Welche Funktionen eignen sich zum Einlesen von Daten? 

(b) Importieren Sie einen Beispieldatensatz (z.B. Währungs- oder 

Klimadaten aus Aufgabe A.1.2). 



.R-Version (local): Blatt 1, Aufgabe 3(c) 

.R-Version (www): Blatt 1, Aufgabe 3(c) 

 

 



Matthias Kohl 




867

A.1.4 Mustererzeugung 

Erzeugen Sie eine Matrix mit 20 Spalten und den folgenden 

Zeileneinträgen: 

Zeile 1: 1, 2, ..., 20 

Zeile 2: Zahlen zwischen 0.25 und 5 mit Abstand 0.25 

Zeile 3: Spalte 1-10 mit Eintrag 1, Spalte 11-20 mit Eintrag 2 

Zeile 4: 1, 1, 2, 2, 1, 1, 2, 2, ... 

Zeile 5: 1, 1, 2, 2, 3, 3, 4, 4, 4, 4, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6 

Zeile 6: 1, 2, 2, 2, 3, 3, 3, 3, 3, 3, 1, 2, 2, 2, 3, 3, 3, 3, 3, 3 



.R-Version: Blatt 1, Aufgabe 4 

 

.R-Version (www): Blatt 1, Aufgabe 4 

 



Matthias Kohl 




868

A.2 Blatt 2 

Stoff bis einschließlich Abschnitt 1.9 — Datenausgabe 

 

 



Matthias Kohl 




869

A.2.1 Indexoperationen, Matrizen 

(a) Erzeugen Sie die folgenden Matrizen: 

 

 

 

 

 

 

 

 

 

 

(b) Laden Sie den painters-Datensatz aus des MASS-Pakets. 

Finden Sie alle Malernamen, die mindestens 3 mal den 

Buchstaben “e” enthalten. 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Hinweis: Denken Sie an logische Indexoperationen. 

. 

. 

. 

. 

. 

. 

. 

. 

. 

. 

. 

. 

 

 

 

 

 



Matthias Kohl 




870





 

 



Matthias Kohl 




871

A.2.2 Faktoren 

(a) Laden Sie den iris-Datensatz. Geben Sie dann für die einzelnen 

Species jeweils das Minimum und das Maximum für 

Sepal.Length und Sepal.Width an. 

(b) Geben Sie für die Art setosa an, welche Werte der Variable 

Sepal.Length bzw. Sepal.Width jeweils am häufigsten 

angenommen werden. 





 

 



Matthias Kohl 




872

A.2.3 String-, Matrixoperationen 

Weisen Sie eine der Matrizen aus Aufgabe A.2.1 einem Element mit 

Namen Hilbert einer Liste L zu und geben Sie deren Eigenwerte in 

Form einer Ausgabe vom Typ 

Die Eigenwerte der Matrix Hilbert sind 1.00, 2.00, 3.24, ... 

Die kursiv geschriebenen Ausdrücke beziehen Sie dabei direkt von L 

und formatieren Sie die Eigenwerte wie angedeutet. 





 

 



Matthias Kohl 




873

A.2.4 Matrixoperationen 

(a) Erzeugen Sie die Matrix 

 

 

 

 

 

 

 

 

 

 

 

 

 

. 

 

. 

 

. 

 

 

 

 

 

. 

. 

 

 

. 

. 

 

 

. 

. 

 

 

 

 

 

 

 

 

(b) Bestimmen Sie die Determinante und Kondition von . 

(c) Lösen Sie das lineare Gleichungssystem . 

Verhältnis von Betrag des größten zum Betrag des kleinsten Eigenwerts; ist 

die Kondition gross, so spricht man von einer schlecht konditionierten Matrix 

 

 



Matthias Kohl 




874





 

 



Matthias Kohl 




875

A.2.5 Schreiben von Daten auf File 

Schreiben Sie das Ergebnis aus Aufgabe A.2.3 auf 3 Stellen nach 

dem Komma formatiert in ein File “erg.txt”. 





 

 



Matthias Kohl 




876

A.3 Blatt 3 

Stoff bis einschließlich Abschnitt 2.4.7 — getrimmte und 

winsorisierte Mittel 

 

 



Matthias Kohl 




877

A.3.1 Skalenniveaus 

Klassifizieren Sie die folgenden Merkmale und begründen Sie jeweils, 

ob Mittelwert, Median und Modus für diese Merkmale zulässig bzw. 

sinnvoll sind 

Geschlecht 

Schulnoten 

Semesteranzahl 

Ideale Normalverteilung 



 

 



Matthias Kohl 




878

A.3.2 Univariate Analyse 

Beziehen Sie auf der Service–Homepage oder unter 

http://www.uni-bayreuth.de/departments/math/org/mathe7/rkurs/SPlus0203/kredit1.txt 

den Datensatz kredit1.txt: 

(a) Analysieren Sie separat die Variablen Laufzeit, Zahlungsmoral 

und Kredithöhe des kredit1 Datensatzes. Beachten Sie dabei 

die verschieden Skalenniveaus. 

(b) Verwenden Sie boxplot() und hist () für diejenigen Variablen, für 

die dies möglich/sinnvoll ist. 




 


 



Matthias Kohl 




879

A.3.3 Elementare Datenanalyse 


http://www.uni-bayreuth.de/departments/math/org/mathe7/rkurs/SPlus0203/baby.txt 

den Datensatz baby.txt: 

Von Babies wurde die Masse zur Geburt und der 

Massezuwachs (in % der Geburtsmasse) innerhalb des sten 

bis sten Tages nach der Geburt registriert (Daten nach 

P. Armitage (1971): The Theory of Linear Models and 

Multivariate Analysis. New York: Wiley.). Die Werte liegen 

als ASCII–Text vor (incl. Kopfzeilen), und wir wissen, daß 

es sich um Zeilen mit Spalten handelt. 

(a) Lesen Sie die Daten in ein Array / eine Matrix der Dimension 

. 

(b) Geben Sie ein Histogramm von aus. 

(c) Berechnen Sie Mittelwert, Median, Modalwert, Varianz und 

Standardabweichung von , sowie die Korrelation von und 

— alle jeweils auf Basis der empirischen Verteilung. 

Interpretieren Sie die Ergebnisse. 

 



Matthias Kohl 




880

(d) Erstellen Sie zu einen Boxplot und interpretieren Sie diesen. 





 

 



Matthias Kohl 




881

A.3.4 Univariate Konvexkombinationen 

(a) Simulieren Sie Realisationen einer univariaten 

Zufallsvariable , welche der folgenden Verteilung folgt 

¡ ¡ 

Interpretieren Sie wie folgt: mit Wahrscheinlichkeit 

stammen die Daten aus einer idealen Situation, , und mit 

Wahrscheinlichkeit handelt es sich um Ausreißer, die aus 

stammen. 

(b) Analysieren Sie die Stichprobe aus Teil (a) mit Hilfe von 

summary() and stem() und interpretieren Sie die Resultate. 

(c) Erzeugen Sie einen Boxplot der Stichprobe aus Teil (a) und 

interpretieren Sie diesen. 

 

 



Matthias Kohl 




882





 

 



Matthias Kohl 




883

A.3.5 Übungsaufgaben zur Stochastik 

(a) Berechnen Sie die Zahl an Personen in einem Raum, ab der 

die Wahrscheinlichkeit größer ist als , dass mindestens zwei 

Personen am gleichen Tag Geburtstag haben — denken Sie an 

qbinom. 

(b) Sie wollen feststellen, wieviele Reiskörner () in einem großen 

Gefäß sind. Dazu entnehmen Sie dem Gefäß eine Handvoll Reis, 

zählen dort die Körner (ergibt ), färben Sie rot und 

geben Sie wieder in das Gefäß. Anschließend schütteln Sie das 

Gefäß kräftig und ziehen wieder eine Handvoll Reis, zählen die 

Körner — — und stellen fest, wieviele davon rot sind 

— . Geben Sie ein an, so dass die Wahrscheinlichkeit, 

dass ist, kleiner ist als — denken Sie an dhyper. 

(c) Sie waschen Paar schwarze Socken. Diese sind auf den 

ersten Blick nicht zu unterscheiden, bei genauerer Untersuchung 

aber schon. Daher ziehen Sie “blind” ohne Zurücklegen aus der 

 

 



Matthias Kohl 




884

Trommel. Ab wieviel (einzelnen) Socken ist die 

Wahrscheinlichkeit größer als , dass Sie mindestens ein Paar 

beisammen haben? 





 

 



Matthias Kohl 




885

A.4 Blatt 4 

Stoff bis einschließlich Abschnitt 2.9.3 — Bootstrap 

 

 



Matthias Kohl 




886

A.4.1 Visualisierung des (schwachen) Gesetzes der 

großen Zahlen 

(a) Erzeugen Sie für und 

(Pseudo–)– 

Zufallsgrößen , , mit 

für , und daraus die abgeleitete 

Größen . Welche Interpretation besitzen die ? 

(b) Berechnen Sie die im Gesetz der großen Zahlen auftauchenden 

Größen 

 

. Warum berechnen wir hier 

verschiedene Werte ? 

(c) Erzeugen Sie für die verschiedenen jeweils ein Histogramm 

und eine (empirische) Verteilungsfunktion der . Zur 

komprimierten Visualisierung können Sie auch Boxplots 

verwenden. 

 

(d) Berechnen Sie die (empirische) Varianz der in 

 



Matthias Kohl 




887

Abhängigkeit von , 

 

 

 

 

 

 

 

In welcher Rate schrumpft die Varianz — und damit in welcher 

Rate die “Genauigkeit” in Termen der Standardabweichung? 

Können Sie sogar den Vorfaktor der Rate erkennen? Wie müsste 

er theoretisch heißen? 





 



Matthias Kohl 




888

A.4.2 Numerische Integration: Berechnung von 

Betrachten Sie den Kreis 

 

und das Einheitsquadrat 

 

(a) Generieren Sie Realisationen einer Zufallsvariable , 

welche uniform auf ¢ verteilt ist. 

(b) Berechnen Sie das Verhältnis aus Punkten im Kreis zur 

Gesamtzahl der gezogen Punkte. Warum schätzt dies das 

Verhältnis von der Fläche des Kreises zur Fläche des Quadrates? 

Wie läßt sich damit ein Näherungswert für angeben? 

(c) Wie groß ist zu wählen, um mit einer Wahrscheinlichkeit 

von 95% mit einem Fehler zu schätzen. 

 



Matthias Kohl 




889

weitere, nicht stochastische und in dieser Situation wesentlich besser geeignete Verfahren 

zur Berechnung von siehe auch http://www.jjj.de/hfloat/hfloatpage.html 





 

 



Matthias Kohl 




890

A.4.3 Berechnung von (a) Sei . Berechnen Sie analytisch. 

(b) Berechnen Sie in R als Mittelwert von verteilten 

Variablen. Schätzen Sie die Varianz Ihrer Näherung, indem Sie 

diesen Versuch mal wiederholen — keine 

for–Schleife, bitte. Können Sie die Varianz analytisch angeben? 

(c) Sie kennen die Dichte von — in R ist sie als dchisq() 

implementiert. Wählen Sie geschickt einen Abschneidepunkt , 

und berechnen Sie in R als Mittelwert von Werten , 

. Schätzen Sie auch hier die Varianz Ihrer 

Näherung, indem Sie diesen Versuch mal 

wiederholen. 

(d) Verwenden Sie in (c) jeweils auch die Werte als 

Ausgangswerte ( antithetische Variablen). Wie stark reduziert 

sich die Varianz Ihrer Näherung? Um fair zu bleiben, dürfen Sie 

nur je Werte und verwenden. 

 



Matthias Kohl 




891

(e) Sie wissen , . Berechnen Sie in R 

als Mittelwert von Werten , . Können Sie 

hier einen Unterschied zu dem Ergebnis aus (a) feststellen? 





 

 



Matthias Kohl 




892

A.4.4 Konfidenzintervalle, Bootstrap 

(a) Erzeugen Sie eine Stichprobe von 21 u.i.v. N(0,1) verteilten 

Zufallsvariablen und berechnen Sie deren (emprischen) 

Median . Geben Sie mit Hilfe der in der Vorlesung in 

Abschnitt 2.8.3 vorgestellten Formel die asymptotische 

Verteilung des Medians an, d.h. gehen Sie vor wie in Lösung 1 in 

Abschnitt 2.8.3. Wie lautet also die Streuung von , die 

sich aus der asymptotischen Normalität ergibt? 

Bemerkung: Sie erhalten mit für 

ein sogenanntes 95% Konfidenzintervall, d.h. ein 

(zufälliges)Intervall , das den wahren Median mit 

Wahrscheinlichkeit überdeckt. 

(b) Simulieren Sie nun 10000 Stichproben von 21 u.i.v. N(0,1) 

verteilten Zufallsvariablen und bestimmen Sie den empirischen 

Median, die empirische Streuung und geben Sie damit ein 

(empirisches) 95% Konfidenzintervall für den Median an. 

 



Matthias Kohl 




893

(c) Nehmen Sie die Stichprobe aus Teil (a) und erzeugen Sie hieraus 

1000 Bootstrap-Stichproben der Länge 21. Bestimmen Sie dann 

den gebootstrapten Median, die gebootstrapte Streuung des 

Median und berechnen Sie damit das zugehörige 95% 

Bootstrap-Konfidenzintervall für den Median. 

 

Erweiterung: Um die Genauigkeit des Ergebnisses für das 

Bootstrap zu erhöhen, erzeugen Sie 25 Stichproben von 21 u.i.v. 

N(0,1) verteilten Zufallsvariablen und führen für jede dieser 

Stichproben das Bootstrap-Verfahren durch. Mitteln Sie die 

Ergebnisse für den Median und die Grenzen der 

Konfidenzintervalle. 

(d) Vergleichen Sie die Ergebnisse aus den Teilaufgaben! 

 



Matthias Kohl 




894





 

 



Matthias Kohl 




895

A.5 Blatt 5 

Stoff bis einschließlich Abschnitt 3.6 — Rekursionen und Frames 

Abschnitt 3.4 (Debugging) wird in Aufgabe A.9.2 aufgegriffen 

 

 



Matthias Kohl 




896

A.5.1 Maximale Lücke 

Motivation: Die in der Numerik vorgestellten, deterministischen Methoden, um 

Integrale der Form 

numerisch zu berechnen, sind für niedrige 

Dimensionen der stochastischen Monte Carlo Integration weit überlegen. Grund 

dafür ist die Eigenschaft stochastisch gezogener Stützstellen, sich in niedrigen 

Dimensionen zu “verklumpen”. Diesen Effekt mathematisch in den Griff zu 

bekommen ist nicht trivial; auf Simulationsbasis lässt er sich aber recht einfach 

untersuchen: Man betrachtet dabei die Verteilung der größten Lücke einer 

Stichprobe — hier im zweidimensionalen: 

mit ¡ dem Euklidischen Abstand im . 

Generieren Sie Stichproben der Länge , wobei 

die Realisationen einer 2-dimensionalen Zufallsvariable seien, 

welche uniform auf 

 

verteilt ist, d.h. ¡ . 

Betrachten Sie die Fälle und . Berechnen Sie dann 

für jede der Stichproben , wobei ¡ der 

Euklidische Abstand im ist. Betrachten Sie das “Summary” der 

 



Matthias Kohl 




897

Minima und stellen Sie die Minima mit Hilfe von Boxplots und 

Histogrammen graphisch dar. Interpretieren Sie die Ergebnisse! 





 

 



Matthias Kohl 




898

A.5.2 Buffons Nadelproblem — Berechnung von 

II 

(a) Geben Sie dazu im Quadrat vor — erste 

Streifengrenze bei — und ziehen Sie in uniform den 

Mittelpunkt einer jeden Nadel. Der Winkel der Nadel zur 

–Achse sei ebenfalls gleichverteilt auf . Legen Sie die – 

und –Koordinaten der beiden Endpunkte der Nadeln in 

Variablen xl, xr, yl, yr ab. 

(b) Finden Sie heraus, wie man analytisch anhand der Werte xl, xr, 

yl, yr und der Koordinaten der Streifengrenzen bestimmen 

kann, ob es zum Schnitt einer Nadel mit einer Streifengrenze 

kommt. 

Hinweis: Um for–Schleifen zu vermeiden bilden Sie eine Matrix in 

Dimensionen ¢ , die Zahl der Nadeln und die Zahl der 

 

Streifengrenzen, deren Eintrag gerade die –Koordinate des –ten 

Streifengrenzes ist. Betrachten Sie die Vorzeichen von und . 

 



Matthias Kohl 




899

(c) Berechnen Sie einen Indikator (Vektor mit Werten oder T, 

F), der anzeigt, ob Nadel einen Schnitt mit den 

Streifengrenzen hat oder nicht. 

(d) Berechnen Sie hieraus eine Schätzung für ; wie ist 

verteilt? Berechnen Sie in R zu vorgegebenen , , 

, die Wahrscheinlichkeit . 

Finden Sie das minimale , so dass mit diese 

Wahrscheinlichkeit größer ist als . 

(e) Plotten Sie die Nadeln und die Streifen. Verwenden Sie dabei die 

Datei buffon.r auf der Service–Page als Hilfe–Stellung / 

Anregung. 

(f) Vergleichen Sie die Genauigkeit mit der der Methode aus 

Aufgabe A.4.2. 

 

 



Matthias Kohl 




900





 

 



Matthias Kohl 




901

A.5.3 Dichteplot 

(a) Schreiben Sie eine Funktion, welche als Übergabeparameter den 

Namen einer beliebigen Verteilungsklasse (z.B. norm, chisq, ...) 

und die für die Verteilungsklasse benötigten Parameter (z.B. 

mean, sd, df, ...) erhält. Zusätzlich werde eine Variable 

übergeben, die angibt, ob die Verteilung diskret oder stetig ist. 

Die Funktion gebe als Ergebnis das 1-te, 2-te (Median) und 3-te 

Quartil der jeweiligen Verteilung zurück und plote die Dichte 

(stetige Verteilung) bzw. Wahrscheinlichkeitsfunktion (diskrete 

Verteilung) im Bereich vom 5% bis zum 95%-Quantil. Dabei 

werde für stetige Verteilungen ein Linienplot und für diskrete 

Verteilungen ein ”step-plot“ erzeugt. 

Hinweis: Auf der Service–Seite findet sich in der Datei dichte.r Funktion 

dichte (), die ähnliches leistet. 

(b) Erzeugen Sie mit Hilfe der Funktion prompt() eine Hilfedatei zu 

Ihrer Funktion aus Teil (a). 

 



Matthias Kohl 




902





 

 



Matthias Kohl 




903

A.5.4 Schleifen – Schleifenvermeidung – 

Laufzeitvergleich 

(a) Gegeben seien zwei Vektoren a und b, wobei a sehr viel größere 

Dimension besitze als b. Berechnen Sie hieraus einen Vektor s, 

der als Einträge s[i] die Anzahl der Einträge von a mit a[j]

Parameter lambda=8 und ein Vektor von Realisationen 

einer poisson-verteilten Zufallsvariable mit Parameter lambda=12 

sei. Lassen Sie mit jedem der Verfahren berechnen und 

vergleichen Sie dabei mit Hilfe der Funktion system.time() die 

jeweiligen Rechenzeiten. 





 

 



Matthias Kohl 




905

A.5.5 Adaptives Verfahren zur zweidimensionalen 


Gegeben sei eine Funktion . Es soll eine numerische 

Näherung für 

berechnet werden. 

 

(a) Schreiben Sie eine Funktion, die dies adaptive (per Rekursion) 

erledigt. Gehen Sie dabei wie folgt vor: 

 

(1) Ziehen Sie Punkte aus ¢ und 

werten Sie die Funktion an diesen Punkten aus. 

Wiederholen Sie dies 2 Mal, bilden Sie jeweils die Mittelwerte 

der Funktionswerte und multiplizieren diese mit der Fläche 

des Rechtecks, d.h. mit . 

(2) Ist die Abweichung größer als der vorgegebende Fehler, so 

splitten Sie auf in und mit 

 

 

 

und wiederholen Schritt (1) für die beiden “Teil-Vierecke” 

(ohne jedoch den Fehler zu halbieren) 

 



Matthias Kohl 




906

(3) Ist die Abweichung in einem der beiden neuen 

“Teil-Vierecke” (bzw. in beiden) erneut größer als der 

vorgegebene Fehler, so splitten Sie dieses Mal in -Richtung 

auf, d.h. wird ersetzt durch und mit 

 

und wiederholen Schritt (1) für die entstandenen 

“Teil-Vierecke” (ohne jedoch den Fehler zu halbieren). 

(4) Schreiben Sie eine Funktion, die (1)-(3) durchführt und 

rufen Sie die Funktion mit recall () rekursiv auf bis für jedes 

der “Teil-Vierecke” der vorgegebene Fehler unterschritten 

wird bzw. die maximale Rekursionstiefe erreicht ist. Führen 

Sie zusätzlich einen Zähler mit, der Ihnen die Anzahl der 

Verdoppelungen protokolliert und der Ihnen angibt, ob die 

-Seiten (Zähler ungerade) oder die y-Seiten (Zähler gerade) 

der Vierecke zu halbieren sind. 

Hinweis: Orientieren Sie sich an der Funktion area() aus 

Beispiel 3.6-2 der Vorlesung. 

 



Matthias Kohl 




907

(b) Betrachten Sie für die -Funktion von 

, d.h. die Funktion 

 

¡ ¡ 

Berechnen Sie das Integral mit Hilfe Ihrer 

Funktion aus Teil (a) und protokollieren Sie die 

Auswertungsstellen. Geben Sie hierzu als maximale 

Rekursionstiefe und als Fehler vor. 

Hinweis: Ziehen Sie hierzu Beispiel 3.6-5 aus der Vorlesung 

heran. Zum Vergleich: Der exakte Wert dieses Integrals ist: 

. 

(c) Plotten Sie die Auswertungsstellen. 

 



Matthias Kohl 




908





 

 



Matthias Kohl 




909

A.6 Blatt 6 

Stoff bis einschließlich Abschnitt 4.7.2 — Export von Graphik 

 

 



Matthias Kohl 




910

A.6.1 Visualisierung 

(a) Visualisieren Sie Aufgabe A.4.2 — plotten Sie Kreis und 

Quadrat und färben Sie die Punkte je nachdem, ob sie im Kreis 

liegen oder nicht in rot oder grün. 

(b) Visualisieren Sie eine Stichprobe aus Aufgabe A.5.1 — zeichnen 

sie die minimale Lücke als grüne Linie ein. 

(c) Plotten Sie Realisationen (Pfade) eines 

zweidimensionalen Random Walks der Länge , d.h. 

Folgen der Zufallsvariablen , , 

, 

, ¦, 

jeweils mit Wahrscheinlichkeit . Färben Sie die Pfade rot ein, 

bei denen mindestens aufeinanderfolgende Zeitpunkte in einem 

Quadranten liegen. 

 

 



Matthias Kohl 




911





 

 



Matthias Kohl 




912

A.6.2 Bundestagswahl 2002 

(a) Beziehen Sie von der Homepage des statistischen Bundesamts 

die Wahlergebnisse (absolute Stimmenzahlen) der 

Bundestagswahl 2002 und teilen Sie die Ergebnisse auf in 

CDU/CSU, SPD, Grüne, FDP, PDS, “Sonstige” und 

Nichtwähler. Beschränken Sie sich dabei auf 5 Bundesländer 

Ihrer Wahl. Erzeugen Sie einen Dataframe, wobei Sie die 

Spalten den Bundesländern und die Zeilen den verschiedenen 

Gruppen (Parteien) zuordnen. 

Link: http://www.bundeswahlleiter.de 

(b) Generieren Sie mit Hilfe von matplot() und barplot () graphische 

Darstellungen der Ergebnisse. Im Fall von matplot() soll jede 

Kurve dem Wahlergebnis einer Gruppe (Partei) entsprechen, 

wobei Sie für jede Gruppe (Partei) eine andere Farbe verwenden. 

Im Fall von barplot () soll jede Säule einem Bundesland 

 



Matthias Kohl 




913

entsprechen, wobei Sie die Gruppen (Parteien) einmal mit 

Schraffierungen und einmal mit Farben unterscheiden. 

(c) Stellen Sie die drei Plots zusammen auf einer Seite dar von der 

Form: 

 

Plot1 

Plot2 Plot3 

Hinweis: Gehen Sie vor wie in Abschnitt 4.2. 





 



Matthias Kohl 




914

A.6.3 Multivariate Konvexkombination 

(a) Erzeugen Sie Realisationen von Paaren 

unabhängig identisch verteilter Normalverteilungen . 

Erzeugen Sie für jede Realisation hieraus Realisationen der 

Zufallsvariablen , welche die folgende Verteilung besitzt: 

¡ ¡ 

mit und , wobei , , 

 

 

 

 

 

 

 

Protokollieren Sie dabei mit, welche Realisationen aus der 

kontaminierenden Verteilung stammen. 

 

 

 

 

 

Hinweis: Vergleiche Aufgabe A.3.3 bzw. das entsprechende R-File. 

 

 

 



Matthias Kohl 




915

(b) Erzeugen Sie eine ellipsenförmige ( )-Konfidenzregion für 

die ideale Verteilung . Gehen Sie wie folgt vor: 

Berechnen Sie die Singulärwertzerlegung (svd()) von in 

die Matrizen , , , wobei eine Diagonalmatrix ist und in 

nur die Diagonalelemente abgelegt sind. 

Bestimmen Sie dann für ein -Gitter, , die Werte 

von und , wobei 

qnorm und die Diagonalelemente von 

sind. Wählen Sie . 

Multiplizieren Sie (Matrixmultiplikation) die Matrix mit der 

Matrix, die als Zeilen und enthält und plotten Sie die 

Zeilen der Ergebnismatrix gegeneinander. 

(c) Ergänzen Sie den Plot nun um die in Teil (a) generierten Daten. 

Dabei zeichnen Sie die Punkte aus der kontaminierenden 

Verteilung rot, falls sie innerhalb der Ellipse liegen und orange, 

falls sie außerhalb liegen. Die Punkte aus der idealen Verteilung 

 



Matthias Kohl 




916

zeichnen Sie grün, falls Sie innerhalb der Ellipse liegen und blau, 

falls sie außerhalb liegen. Für die Fallunterscheidungen 

multiplizieren Sie Ihre Beobachtungen mit , d.h. 

£ und kontrollieren, ob 



 

 

 

 

 


 

 

 

 


 



Matthias Kohl 




917

A.6.4 Regressionsplots 

(a) Erzeugen Sie Realisationen einer Zufallsvariable mit 

Verteilung und addieren Sie zu dieser das -fache 

des Vektor und die Konstante 

, d.h. . 

(b) Wenden Sie auf aus Teil (a) die Exponentialfunktion exp() an 

und plotten Sie die Punkte . Fügen Sie dem 

Plot die Kurve hinzu. 

(c) Erzeugen Sie einen zweiten Plot von , wobei Sie dieses Mal 

die -Achse logarithmisch transformieren. Beschriften Sie die 

-Achse sowohl mit den Werten von als auch mit 

den Werten von . Ergänzen Sie abschließend den Plot noch um 

die Kurve . 

 

 



Matthias Kohl 




918





 

 



Matthias Kohl 




919

A.6.5 Powerpoint-Präsentation 

Bereiten Sie einen der Plots aus den Aufgaben A.6.1-A.6.4 für eine 

Powerpoint-Präsentation vor. Ergänzen Sie den Plot vorher, d.h. falls 

noch nicht geschehen, um eine passende Überschrift, Untertitel und 

Legende. 

Hinweis: Gehen Sie vor wie in Abschnitt 4.7.2 



 

 



Matthias Kohl 




920

A.7 Blatt 7 

Stoff bis einschließlich Abschnitt 5.1 — Testtheorie 

 

 



Matthias Kohl 




921

A.7.1 Shapiro-Wilk, Kolmogorov-Smirnov, 

-Anpassungstest 

Testen Sie mit Hilfe von Shapiro-Wilk, Kolmogorov–(Smirnov) und 

-Anpassungs-Test, ob die Nullhypothese, dass die Daten im 

normal Datensatz auf der Service–Homepage -verteilt sind, 

bei einem Signifikanzniveau von 10% abgelehnt werden muss. 

Erstellen Sie zusätzlich einen qq–Plot der Daten. 





 

 



Matthias Kohl 




922

A.7.2 Wilcoxon und t-Test, - und F-Test 

(a) Auf der Service–Homepage finden Sie den Datensatz uscomp. 

Testen Sie mit Hilfe des Wilcoxon und des t-Tests, ob die 

Nullhypothese, dass die Mittelwerte der Sektoren Energie und 

Finanzen für die Variable X6 gleich groß sind, bei einem 

Signifikanzniveau von 10% abgelehnt werden muss. Wie groß 

sind die jeweiligen p-Werte? 

(b) Testen Sie mit Hilfe des -Tests, ob die Nullhypothese, dass die 

Varianz des Sektors Energie für die Variable X6 den Wert 100 

hat, bei einem Signifikanzniveau von 10% abgelehnt werden 

muss. 

(c) Testen Sie mit Hilfe des F-Tests, ob die Nullhypothese, dass die 

Varianzen der Sektoren Energie und Finanzen für die Variable 

X6 gleich groß sind, bei einem Signifikanzniveau von 10% 

abgelehnt werden muss. Welchen p-Wert erhalten Sie? 

 



Matthias Kohl 




923





 

 



Matthias Kohl 




924

A.7.3 Fisher- und t-Test 

(a) Ermitteln Sie im kredit1 Datensatz aus Aufgabe A.3.2 den 

Anteil der Arbeitslosen in der Gruppe der “Kreditwürdigen” bzw. 

der “Kreditunwürdigen”. 

(b) Testen Sie mit Hilfe des exakten Fishertests, der asymptotischen 

Variante des exakten Fishertests und des t-Tests, ob die 

Nullhypothese, dass der Anteil in beiden Gruppen gleich gross 

ist, bei einem Signifikanzniveau von 10% abgelehnt werden 

muss. Wie gross sind die p-Werte bei den letzten beiden Tests? 





 



Matthias Kohl 




925

A.7.4 Testvergleich durch Simulation 

 

Seien . Wir wollen testen, ob 

oder zutrifft. Als Test verwenden wir einmal den 

Neyman–Pearson–Test (NPT) und andererseits einen Test, basierend 

auf der Zahl der Beobachtungen, so dass ist — ein 

Vorzeichentest (VZT) also. 

(a) (freiwillig) Bestimmen Sie den NPT zum Niveau . 

Lösung (NPT): 

mit qnorm(0.95,sd=1/sqrt(10)) 

Geben Sie die Verteilung von , der Zahl der positiven Beobachtungen, unter 

und unter an. Bestimmen Sie einen VZT (mit und ohne Randomisierung) zum 

Niveau für Beobachtungen zum Niveau . 

Lösungen (VZT): 

unrandomisiert: 

randomisiert: £ , wobei 

unabhängig von mit 

pbinom(8,10,0.5) dbinom(8,10,0.5) 

Berechnen Sie die Macht des VZT und vergleichen Sie diese mit der des NPT. 

Sie haben die (unabh.) Beobachtungen 

 

 



Matthias Kohl 




926

gemacht. Treffen Sie eine Testentscheidung mit dem NPT und dem VZT zum 

Niveau und geben Sie dazu auch den p–Wert an. Nun ersetzen Sie die erste 

Beobachtung durch . Ändert sich Ihre Entscheidung? Welcher der beiden 

Tests reagiert sensibler auf diesen “Ausreißer”. Argumentieren Sie, warum dem so 

ist. 

(b) Simulieren Sie mal Stichproben der Länge jeweils 

unter unter . 

(c) Treffen Sie für jede Stichprobe die Testentscheidung mit dem 

VZT und dem NPT und berechnen Sie jeweils (empirisch) den 

Fehler 1. und 2. Art. 

(d) Nun simulieren Sie wie folgt Ausreißer–behaftete Stichproben: 

Zu jeder Variablen , , , 

( resp. ) erzeugen Sie die Variable 

¡ mit 

 

und unabhängig zu den . 

(eingerahmt in der freiwilligen Teilaufgabe) 

 



Matthias Kohl 




927

(e) Führen Sie wieder für jede der Stichproben den VZT und den 

NPT durch und berechnen Sie jeweils (empirisch) den Fehler 1. 

und 2. Art. Halten die Tests auch unter den kontaminierten 

Stichproben das Niveau ein? Was passiert mit der Macht? 





 

 



Matthias Kohl 




928

A.8 Blatt 8 

Stoff bis einschließlich Abschnitt 5.2.3 

ML–Schätzung mit numerischen Methoden wird noch einmal in 

Aufgabe A.9.2 aufgegriffen 

 

 



Matthias Kohl 




929

A.8.1 Indiskrete Umfrage 

In einer Umfrage soll das Treueverhalten von Ehegatten erfragt 

werden. Damit weder der Interviewer noch sonst jemand 

identifizieren kann, welche Antwort der Befragte gegeben hat, geht 

man so vor: Der Interviewer lässt den Befragten zweimal eine Münze 

werfen, wobei der Interviewer die Resultate und nicht sieht. 

Ist “Kopf”, so beantwortet der Befragte die indiskrete Frage, 

ist “Zahl”, so gibt er das Resultat des zweiten Münzwurfs an 

— “Kopf” “ja”, “Zahl” “nein”. Insgesamt werden 

Männer befragt. Es antworten mit “ja” auf die 

Frage “Sind sie untreu?”. Geben Sie eine ML–Schätzung für den 

Anteil der untreuen Männer, sowie ein (auf der Normalapproximation 

beruhendes) –Konfidenzintervall dafür an. 

 

 



Matthias Kohl 




930





 

 



Matthias Kohl 




931

A.8.2 ML–Schätzer für aus 

Berechnen Sie den ML–Schätzer für den Parameter einer 

Hypergeometrischen Verteilung . Bei 

unabhängigen Ziehungen aus mit und 

wurden Realisationen gezogen, d.h. nach 

jeder Ziehung von Kugeln wird ermittelt, und anschließend 

werden die Kugeln wieder in die Urne gegeben. Bestimmen Sie den 

ML–Schätzer , indem Sie die Likelihood numerisch 

optimieren. 

Gesamtzahl der Kugeln in der Urne, Zahl der weißen Kugeln in der 

Urne, Zahl der Ziehungen ohne Zurücklegen, und die Zufallsgröße ist die 

Zahl der gezogenen weißen Kugeln 

 

 



Matthias Kohl 




932





 

 



Matthias Kohl 




933

A.8.3 Simulationsstudie 

(a) Schreiben Sie mit Hilfe der Funktion uniroot() eine Funktion, die 

aus einem Vektor X beliebiger Länge den M–Schätzer zur 

–Funktion ermittelt. 

(b) Simulieren Sie ideal verteilte Stichproben 

 

der Längen — , 

, sowie entsprechend kontaminiert verteilte 

Stichproben 

 

(c) Berechnen Sie für jede der idealen und kontaminierten 

Stichproben das arithmetische Mittel 

, den Median 

 

und den M–Schätzer 

 

. 

(d) Fertigen Sie jeweils für fixiert gemeinsame Boxplots der drei 

Schätzer jeweils in der idealen und in der kontaminierten 

Situation an, sowie zur besseren Unterscheidung bei 

Kontamination einen mit Median und M–Schätzer. Insgesamt 

also ( ¢ ) Plots in ein Graphikfenster. 

 



Matthias Kohl 




934

(e) Schätzen Sie die Varianzen und mittleren quadratischen Fehler 

(MSE) der Schätzer in der idealen und in der kontaminierten 

Situation durch die Stichprobenvarianz bzw. den 

Stichproben–MSE. 





 

 



Matthias Kohl 




935

A.9 Blatt 9 

Stoff bis einschließlich Abschnitt 6.6 — sich selbst verändernde 

Programme 

 

 



Matthias Kohl 




936

A.9.1 Berechnung eines Quantils 

Gegeben sei die Funktion pnorm(x) (die Verteilungsfunktion 

der Standard-Normalverteilung ). Berechnen Sie so, dass 

, d.h. ist das 95%-Quantil von (zur 

Kontrolle: qnorm(0.95)). Verwenden Sie hierzu folgende Verfahren: 

(a) Bisektionsverfahren 

(b) Newton-Verfahren 

Hinweis: Der -te Iterationsschritt im Newton-Verfahren lautet 

wobei dnorm(x). 

 

 

(c) Numerische Invertierung der Funktion 

 

 



Matthias Kohl 




937





 

 



Matthias Kohl 




938

A.9.2 Schätzung eines eindimensionalen 

Parameters 

Die Daten im truncpois Datensatz sind Realisationen einer an der 

Null abgeschnittenen Poisson-Variable , d.h. einer Zufallsvariable 

mit Wahrscheinlichkeitsfunktion 

und Erwartungswert 

 

 

 

 

 

 

 

(a) (freiwillig) Leiten Sie die Bestimmungsgleichung für den 

Maximum-Likelihood-Schätzer in dieser Situation her — einmal als 

Maximierungsproblem, einmal als Nullstellenproblem. 

Kontrolle: 

Maximierungsproblem: 

 

 

 

 

 

 

 

 

 

! 

 



Matthias Kohl 




939

Nullstellenproblem: 

 

 

mit dem arithmetischen Mittel der Realisationen von 

(b) Schreiben Sie eine Funktion, welche für eine gegebene 

Stichprobe den Maximum-Likelihood-Schätzer als 

Maximierungsproblem mit einer vorgegebenen Genauigkeit 

numerisch ermittelt; verwenden Sie einmal eine selbst 

geschriebene Gittersuche, einmal optim() oder optimize(). 

(c) Schreiben Sie eine Funktion, welche für eine gegebene 

Stichprobe den Maximum-Likelihood-Schätzer als 

Nullstellenproblem mit einer vorgegebenen Genauigkeit 

numerisch ermittelt; verwenden Sie einmal einen selbst 

geschriebenen Bisektionsalgorithmus, einmal ein ein selbst 

geschriebenes Newtonverfahren, einmal uniroot(). 

Kontrolle: Die Bestimmungsgleichung im Newtonverfahren lautet 

 

 

 



Matthias Kohl 




940

(d) Integrieren Sie in Ihre Funktionen einen Übergabeparameter, der 

die Ausgabe des Zwischenergebnisses für am Ende jedes 

Iterationsschrittes steuert. Realisieren Sie die folgenden 

Möglichkeiten: 

Ausgabe des Zwischenergebnisses [ print (), cat()] 

Anhalten der Programmausführung und Kontrolle der 

Variablen [browser()] 

Keine Ausgabe des Zwischenergebnisses 

(e) Welchen Wert erhalten Sie für den 

Maximum-Likelihood-Schätzer bei einer vorgegebenen 

Genauigkeit von ? 




 


 



Matthias Kohl 




941

A.9.3 Numerische Probleme mit dem 

Coupon-Collector 

Betrachten Sie das Coupon-Collector Problem: 

Eine Firma legt ihrem Produkt Sammelbilder bei ( verschiedene 

Coupons). Um Ihnen eine realistische Größenordnung zu geben: Bei 

der letzten Fußball-WM gab es ein PANINI -Sammelalbum mit 

Sammelbildern! Nehmen Sie an, dass Sie jedes Bild mit 

gleicher Wahrscheinlichkeit beim Kauf vorfinden. Die 

Wahrscheinlichkeit zum ersten Mal bei ( ) gekauften Bildern 

jeweils mindestens 1 Bild von allen zu besitzen, ergibt sich mit 

Hilfe der “Siebformel” als 

¡ falls 

 

 

 

 

 

 

 

 

 

 

 

 

¡ falls 

 



Matthias Kohl 




942

mit Erwartungswert 

¡ 

 

 

 

 

(b) Simulieren Sie nun mit Hilfe von R / S-Plus und der Funktion 

sample(), wie viele Bilder Sie kaufen müssen, um von jedem Bild 

mindestens 1 zu besitzen. Wiederholen Sie dies “mehrere” 

( ) Male und berechnen Sie Mittelwert und empirische 

Varianz. Vergleichen Sie Ihre Ergebnisse mit den Ergebnissen aus 

Teilaufgabe (b). 

 

 

 

 

¡ 

 

 

(a) Aufgrund numerischer Auslöschungseffekte ist die Formel 

numerisch unzuverlässig für . Um einen Eindruck von 

der Wahrscheinlichkeitsfunktion zu bekommen, werten Sie die 

Ausdrücke aus für und plotten Sie die 

Funktion im Bereich von und 

berechnen Sie jeweils auch den Erwartungswert 

sowie die Größe . Was legt dies für nahe? 

 



Matthias Kohl 




943

Zur Orientierung: 10 Durchläufe auf einem Pentium III benötigen etwa 9 

Minuten. 

(c) Fasst man als 

auf, wobei die Zahl der Käufe ist, 

die nötig sind, um ein Bild zu erhalten, welches sich von den 

verschiedenen Bildern unterscheidet, die man bereits 

erhalten hat, so erhält man die Darstellung als 

 

. Die besitzen dabei eine geometrische 

Verteilung mit sich ändernder Erfolgswahrscheinlichkeit. 

Offenbar ist diese Formel numerisch viel zuverlässiger! 

Berechnen Sie für den Erwartungswert exakt 

und näherungsweise, indem Sie die Approximation 

 

verwenden, wobei und 

die Eulersche Konstante ist. 

(d) Simulieren Sie die geometrisch verteilten Variablen ! 

 

 



Matthias Kohl 




944





 

 



Matthias Kohl 




945

A.9.4 Optimale Prognose 

Betrachten Sie das Modell , wobei und stochastisch 

unabhängige Zufallsvariablen seien. Gesucht ist eine Schätzung für 

auf der Basis von . Nun sei mit 

Dichte und 

(i) , mit Dichte 

(ii) ¡ ¡ , mit Dichte 

¡ ¡ 

(iii) , mit Dichte 

Führen Sie für die Fälle (i)-(iii) die folgenden Berechnungen durch: 

(a) Berechnen Sie den bedingten Erwartungswert , 

 

 



Matthias Kohl 




946

wobei 

 

 

 

 

auf einem -Gitter ( ), wobei Sie lediglich den Zähler 

 

 

 

(A.9.1) 

auf einem -Gitter ( ), indem Sie für jeden -Wert die 

Integrale in (A.9.1) mit Hilfe der Funktion 

berechnen. 

Hinweis: Verwenden Sie die Funktion bed.Erw(). Um diese im 

Fall (ii) anwenden zu können, müssen Sie die Dichte von als 

eine eigene Funktion implementieren. 

(b) Berechnen Sie den Posterior Modus , wobei 

 

 

 

 

 

 

(A.9.2) 

 



Matthias Kohl 




947

von (A.9.2) maximieren. Der Nenner nämlich ist konstant in 

und kann daher für die Maximierung vernachlässigt werden. 

Bestimmen Sie die Maximalstelle, indem Sie den Zähler von 

auf einem vorgegebenem -Gitter ( ) für 

jedes der maximieren. 

(c) Glätten Sie die Funktionen und 

mit Hilfe von Splines und plotten Sie die 

Ergebnisse. 

(d) Simulieren Sie Realisationen der Zufallsvariablen 

und und berechnen Sie ( ) für die 

Fälle (i)-(iii). Für jede der Stichproben bestimmen Sie dann mit 

Hilfe der 6 geglätteten Funktionen aus Teil (c) und Inter- bzw. 

Extrapolationsverfahren den bedingten Erwartungswert und den 

Posterior Modus für , d.h. Sie erhalten 18 

verschiedene Ergebnisse. 

 

(e) Vergleichen Sie die verschiedenen Schätzungen für , indem Sie 

 



Matthias Kohl 




948

den empirischen mean squared error berechnen, d.h. 

 

, wobei die Ergebnisse aus Teil (d) sind. 

Stellen Sie die Ergebnisse in einem Data.frame zusammen. 





 



Matthias Kohl 




949

A.10 Blatt 10 

Stoff bis einschließlich Abschnitt 7.1.1 (g) — Modellwahl 

 

 



Matthias Kohl 




950

A.10.1 Lineare Regression 

Plotten Sie den crabs.data Datensatz, d.h. plotten Sie die 

Variablen presz und postsz gegeneinander. Welches lineare Modell 

vermuten Sie? Geben Sie die entsprechende R-Formel hierfür an. 





 

 



Matthias Kohl 




951

A.10.2 Freier Fall eines Körpers 

Unter Vernachlässigung der Reibung ist die Höhe eines frei 

fallenden Körpers zum Zeitpunkt gegeben durch die Formel 

 

wobei die Höhe des Körpers zum Zeitpunkt ist, die 

Anfangsgeschwindigkeit des Körpers und die halbe 

Gravitationsbeschleunigung . 

Es liegt die folgende Serie annähernd gleich genauer Messungen 

während eines Fallvorgangs vor: 

t [s] h [cm] t [s] h [cm] t [s] h [cm] t [s] h [cm] t [s] h [cm] 

 

11.86 

26.69 

51.13 

85.44 

 

 

15.67 

33.71 

61.49 

99.08 

 

 

20.60 

41.93 

72.90 

113.77 

129.54 

146.48 

Schätzen Sie die Konstanten , , mit Hilfe der Methode der 

kleinsten Quadrate und versehen Sie Ihre Schätzung der 

 



Matthias Kohl 




952

Gravitationskonstante mit einem Schätzfehler. Lösungsvorschlag: 




 

 



Matthias Kohl 




953

A.10.3 Länge der alten Meile 

Entlang einer jahrhundertealten Straße befinden sich sechs 

Meilensteine an den folgenden Positionen: 

Meilenstein 1 784 m 

Meilenstein 2 2 460 m 





Der Nullpunkt ist dabei beliebig gewählt. Schätzen Sie die Länge der 

diesen Meilensteinen zugrundeliegenden alten Meile unter Annahme 

folgender Modelle: 

Modell 1. Die Steine wurden einst exakt an den richtigen 

Positionen eingesetzt, doch im Laufe der Zeit verrückt 

(beispielsweise ausgepflügt und wieder eingesetzt). 

 



Matthias Kohl 




954

Modell 2. Die Positionen der Steine wurden einst etwas ungenau 

bestimmt und blieben seither unverändert. 

Bestimmen Sie für jedes der beiden Modelle den besten linearen 

erwartungstreuen Schätzer der Länge der alten Meile, und versehen 

Sie beide Schätzungen mit einem Standardfehler. Lösungsvorschlag: 




 

 



Matthias Kohl 




955

A.10.4 Modellanpassung, Modellwahl 

Betrachten Sie den Datensatz model. 

(a) Vergleichen Sie die folgenden Modelle miteinander 

(a) 

(b) 

(c) 

 

Welches Modell erweist sich mit Hilfe der Funktionen update() 

(forward bzw. backward), step() (bzw. drop1()) und leaps () (in 

des Pakets leaps enthalten) jeweils als das beste? 

(b) Plotten Sie die Daten und die mit Modell (ii) (entspricht dem 

realen Modell) angepasste Kurve. 

(c) Die Daten enthalten eine Lücke, d.h. für liegen 

keine Daten vor. Bestimmen Sie mit Hilfe der angepassten Kurve 

aus Teil (b) den Wert für . Legen Sie im Bereich der 

Lücke ein 95% Konfidenzintervall um die angepasste Kurve. 

 



Matthias Kohl 




956

Hinweis: Verwenden Sie die Funktion predict (). 

(d) Im Datensatz luecke finden sich die fehlenden Werte für das 

Intervall . Ergänzen Sie zur Kontrolle den Plot aus Teil 

(c) um diese Daten. 





 



Matthias Kohl 




957

A.11 Blatt 11 

Stoff bis einschließlich Abschnitt 7.1.2 — Generalisiert lineare 

Modelle 

 

 



Matthias Kohl 




958

A.11.1 ANOVA 

Der Absatz von Produkten wird durch die Preispolitik und die Art 

der Werbung beeinflußt. Für eine Margarinesorte stehen der 

Marketing-Abteilung eines Konzerns bezüglich Preispolitik 

(Faktor A) drei Strategien (Faktorstufen), nämlich Niedrig-, Normalund 

Hochpreispolitik, und bezüglich der Art der Werbung (Faktor B) 

zwei Möglichkeiten (Faktorstufen), nämlich Postwurfsendungen und 

Anzeigenwerbung, zur Verfügung. Zur Untersuchung dieser Optionen 

hinsichtlich ihrer Wirkung wurden an 10 zufällig ausgewählten Tagen 

die abgesetzten Mengen der Margarinesorte in 6 Supermärkten 

erfaßt, wobei sichergestellt wurde, dass die Kunden eines jeden 

Supermarktes nur mit einer Kombination von Preis- und 

Werbestrategie konfrontiert wurden. Stellen Sie die Daten in 

margarine.txt geeignet graphisch dar und führen Sie eine ANOVA 

durch. Berücksichtigen Sie dabei auch eine mögliche Interaktion 

 



Matthias Kohl 




959

zwischen den beiden Faktoren. 





Beispiel stammt aus Fahrmeier, L., Hamerle, A.(1984), Multivariate 

Statistische Verfahren, p. 168 

 



Matthias Kohl 




960

A.11.2 Box–Cox–Transformation I 

Betrachten Sie den gauge Datensatz. 

(a) Passen Sie an die Daten ein einfaches lineares Modell an und 

plotten Sie die Residuen. Was fällt auf? 

(b) Finden Sie mit Hilfe der Funktion boxcox() aus dem MASS Paket 

eine geeignete Transformation für die Daten. 

(c) Passen Sie an die transformierten Daten ein einfaches lineares 

Modell an und plotten Sie die Residuen. 

(d) Plotten Sie nun die Daten und die angepassten Kurven aus Teil 

(a) und (c). 




 


 



Matthias Kohl 




961

A.11.3 Box–Cox–Transformation II 

Betrachten Sie noch einmal Aufgabe A.9.3; schließen Sie nun mit 

Hilfe der Box-Cox-Transformation auf die Asymptotik von . 





 

 



Matthias Kohl 




962

A.11.4 Generalisiert lineares Modell 

Betrachten Sie den adver Datensatz. Es handelt sich dabei um 

Daten, die im Zusammenhang mit einer Studie über Wirkung und 

Wahrnehmung der Werbung im Fernsehen erhoben wurden. Es 

wurde 66 Personen während eines Zeitraumes von 171 Wochen 

wöchentlich eine Frage zu Werbespots für einen bekannten 

Schokoladenriegel gestellt. Außerdem wurde noch der wöchentliche 

Werbeaufwand in einer skalaren, metrischen Größe erfasst. Da für 

einige Wochen die Antworten leider fehlen, wurden die 

entsprechenden fehlenden Werte mit "0"kodiert. 

Führen Sie eine Analyse mit Hilfe des Logit- und des Probit-Modells 

durch und vergleichen Sie die Ergebnisse. Verwenden Sie dabei auch 

geeignete graphische Darstellungen. 

 

 



Matthias Kohl 




963





 

 



Matthias Kohl 




964

A.12 Blatt 12 

Stoff bis einschließlich Abschnitt 7.2 — Elemente multivariater 

Statistik 

 

 



Matthias Kohl 




965

A.12.1 Multivariate Normalverteilung 

(a) Schreiben Sie selbst eine Funktion zur Erzeugung multivariater 

normalverteilter Daten zu vorgegebenem Mittelwert und 

Kovarianz. 

(b) Erzeugen Sie mit dieser Funktion bivariate Zufallsvariablen 

gemäß 

 

 

 

 

 

 

 

 

 

 

 

 

 

(d) Ergänzen Sie den Plot nun um die in Teil (b) generierten Daten. 

Dabei zeichnen Sie die Punkte aus der kontaminierenden 

 

 

 

 

 

 

 

wobei die erste Komponente einer idealen Verteilung, die zweite 

einer Kontamination entspricht, und protokollieren Sie bei der 

Simulation mit, welche Situation jeweils in einer einzelnen 

Beobachtung vorliegt. 

(c) Erzeugen Sie eine ellipsenförmige -Konfidenzregion für die 

ideale Verteilung . 

 

 



Matthias Kohl 




966

Verteilung rot, falls sie innerhalb der Ellipse liegen und orange, 

falls sie außerhalb liegen. Die Punkte aus der idealen Verteilung 

zeichnen Sie grün, falls Sie innerhalb der Ellipse liegen und blau, 

falls sie außerhalb liegen. 

(e) Finden Sie heraus, wie man die Aufgabe mit den Paketen 

mvtnorm, ellipse erledigt. 





 

 



Matthias Kohl 




967

A.12.2 Clustering, Diskriminanzanalyse 

Betrachten Sie den Banknoten-Datensatz bank2. Der Datensatz 

enthält Messungen von 100 echten und 100 falschen Schweizer 

Banknoten. Es wurden dabei 6 verschiedene Größen vermessen 

(Länge, Breite, Diagonale, ...). 

(a) Wenden Sie auf den gesamten bank2 Datensatz mindestens zwei 

verschiedene Clusteralgorithmen an. Vergleichen und 

interpretieren Sie die Ergebnisse. 

(b) Wenden Sie eine lineare Diskriminanzanalyse auf den bank2 

Datensatz an. Verwenden Sie die Beobachtungen 1 bis 70 und 

131 bis 200 als Trainingsstichprobe und die Beobachtungen 71 

bis 130 als Validierungsstichprobe. 



 


 



Matthias Kohl 




968


 

 



Matthias Kohl 




969

A.12.3 Hauptkomponentenanalyse, Faktoranalyse 

Betrachten Sie erneut den bank2 Datensatz. 

(a) Führen Sie für den gesamten bank2 Datensatz eine 

Hauptkomponentenanalyse durch und interpretieren Sie das 

Ergebnis. 

(b) Wenden Sie auf den gesamten bank2 Datensatz eine 

Faktoranalyse an und interpretieren Sie das Ergebnis. 





 

 



Matthias Kohl 




970

A.12.4 Normalisierte Hauptkomponentenanalyse 


http://www.uni-bayreuth.de/departments/math/org/mathe7/rkurs/SPlus0203/uscrime.dat 

den Datensatz uscrime.dat: 

Messungen von Variablen; es wird die Zahl der Verbrechen im Jahr 

1985 in jedem der Staaten der USA in verschiedenen Kategorien — 

X3–X7 angegeben: 

X1 Fläche des Staates X7 Einbrüche 

X2 Bevölkerung des Staates 1985 X8 Diebstahl (larcery) 

X3 Morde X9 Autodiebstahl (autothieft) 

X4 Vergewaltigungen X10 Region des Staates 

X5 Raubüberfälle X11 GebietsNr. des Staates 

X6 Anschläge 

Regionen codiert als 

1 

 

Nordosten 3 Süden 

2 Mittlerer Westen 4 Westen 

 



Matthias Kohl 




971

Gebiete codiert als 

1 Neuengland 6 East South Central 

2 Mittlere Atlantikküste 7 West South Central 

3 East North Central 8 Gebirgsregion 

4 West North Central 9 Pazifikküste 

5 Südliche Atlantikküste 

Daten nach 

Härdle, W. and Simar, L. (2003), S. B.18; die Werte liegen als ASCII–Text 

vor (ohne Kopfzeilen!). 

Wenden Sie eine normalisierte Hauptkomponentenanalyse (NPCA) 

auf den uscrime.dat Datensatz an. Dabei werden alle Variablen vor 

der eigentlichen Hauptkomponentenanalyse zuerst zentriert und 

standardisiert. Interpretieren Sie die Ergebnisse. Ist es nötig, die 

dritte PC zu betrachten? Können Sie Unterschiede zwischen den vier 

Regionen erkennen? Wiederholen Sie die Analyse ohne die Variable 

X1 

 

 



Matthias Kohl 




972





 

 



Matthias Kohl 




973

A.13 Blatt 13 

Stoff bis einschließlich Abschnitt 7.4.3 — Punktprozesse 

 

 



Matthias Kohl 




974

A.13.1 Zeitreihenanalyse I 


http://www.uni-bayreuth.de/departments/math/org/mathe7/rkurs/SPlus0203/daten01.txt 

den Datensatz daten01.txt mit einem Zeitindex und 

verschiedenen realen und simulierten Zeitreihen der Länge 

(a) Erstellen sie Plots des Zeitindexes gegen alle anderen Variablen. 

Welche Zeitreihen erscheinen (visuell) stationär? Bei welchen 

Zeitreihen liegt deutlich ein Trend vor, bei welchen ist (visuell) 

die Autokorrelation zum Lag stark positiv? 

(b) Lassen Sie sich von allen Zeitreihen die (empirische) 

Autokovarianzfunktion, Autokorrelationsfunktion und die 

paritelle Autokorrelationsfunktion ausgeben. Stimmen die 

Resultate mit den visuellen Eindrücken überein? 

(c) Bei welchen der in Teil (a) und (b) sich als nicht stationär 

erwiesenen Zeitreihen eleminiert Differenzenbildung den Trend? 

 



Matthias Kohl 




975





 

 



Matthias Kohl 




976

A.13.2 Zeitreihenanalyse II 

(a) Simulieren Sie mit Hilfe von arima.sim() Beobachtungen 

aus einem ARMA(1,1)-Modell mit AR-Parameter , 

MA-Parameter und Innovationen, welche normalverteilt 

sind mit Erwartungswert und Varianz . Schätzen Sie dann 

die Parameter und die Autokovarianzfunktion. 

(b) Betrachten Sie den LakeHuron Datensatz aus dem per default 

bereits eingeladenen Paket stats. Subtrahieren Sie von den 

Werten zuerst 570 und von den Ergebnissen dann das 

arithmetische Mittel dieser neuen Werte. Passen Sie nun an 

diesen zentrierten Datensatz mit Hilfe von arima0() bzw. arima() 

ein ARMA(1,1) Modell an und schätzen Sie die 

Autokovarianzfunktion. Berechnen Sie außerdem eine 5-Schritt 

Prognose. 

 



Matthias Kohl 




977





 

 



Matthias Kohl 




978

A.13.3 Räumliche Statistik 

Wiederholen Sie mit dem s101 Datensatz das Beispiel zur 

räumlichen Statistik aus der Vorlesung. Es handelt sich dabei um ein 

Objekt der Klasse geodata. Verwenden Sie daher zum Laden des 

Datensatzes den Befehl load()! 

Hinweis: Die Befehle finden sich im R Skript geoRintro.R. 





 

 



Matthias Kohl 




979

A.14 Blatt 14 

Stoff bis einschließlich Abschnitt 8.1 — Objektorientierung in R 

 

 



Matthias Kohl 




980

A.14.1 Entwurf einer Simulationsklasse 

(a) Entwerfen Sie eine Simulationsklasse; diese sollte als Slot die 

Daten enthalten, sowie den Stichprobenumfang und die Zahl der 

Runs, den Seed und einen Filenamen in dem die Informationen 

zur Erzeugung der Simulation abgelegt werden. Als Methoden 

sollte die Funktion, mit der gesampelt werden soll, eine Ausgabe 

vom Typ summary sowie eine plot-Methode angebunden sein. 

(b) Leiten Sie nun eine Klasse ab, bei der Sie geeignet kontaminierte 

/ und ideal verteilte Stichproben ziehen können und dabei 

geeignet mitprotokollieren, welche Daten kontaminiert sind und 

welche nicht. 




 


 



Matthias Kohl 




981

A.14.2 Indexoperator 

Definieren Sie einen Indexoperator für die Klasse Simulation, so dass 

bei einem Objekt dieser Klasse X[i] die -te Stichprobe (-ten 

Run) zurückgibt. 





 

 



Matthias Kohl 




982

A.14.3 Simulationsklasse II 

(a) Machen Sie die Gruppe der Math–Methoden für die Klasse 

verfügbar, so dass, falls X eine Instanz aus dieser Klasse ist, 

Ausdrücke wie Y

A.14.4 Schätzerauswertungsklasse 

(a) Definieren Sie eine Klasse DatenClass als Oberklasse von 

Simulation. Diese sollte die Slots Name, samplesize, Daten, 

runzahl enthalten. Damit könnte man dann auch reale Daten 

abdecken — runzahl dann als Versuchswiederholung 

interpretiert. 

(b) Definieren Sie eine Klasse AuswertungsClass mit Slots 

Schätzer — eine Funktion 

Schätzer 

die den Schätzer auf den Daten auswertet, DatenName — der 

Name des Datensatzes, und Ergebnis — das Ergebnis der 

Schätzerauswertung auf den Daten. 

(c) Schreiben eine Funktion Auswertung, 

 

¢ Schätzer SchätzerClass 

 



Matthias Kohl 




984

die eine Instanz vom Typ AuswertungsClass erzeugt, wobei sie 

die Slots Schätzer, DatenName und Ergebnis belegt. 

(d) Füllen Sie als proof of concept mit dem Median als Schätzer 

eine entsprechende Instanz vom Typ Ergebnis mit der Funktion 

Auswertung. 





 

 



Matthias Kohl 




985

A.15 Blatt 15 

Stoff bis einschließlich Abschnitt 8.2 — eigene Pakete in R 

 

 



Matthias Kohl 




986

A.15.1 Checken/Erstellen eines Pakets 

(a) Bereiten Sie ggf. Ihren Rechner wie in Abschnitt 8.2.12 

beschrieben auf die Anlage eines R-Pakets vor. 

(b) Legen Sie ein Directory Rtest an. Laden Sie 

sich auf Ihren Rechner die tar.gz-Version des Pakets distr unter 

http://cran.us.r-project.org/src/contrib/Descriptions/distr.html. 

Entpacken Sie dieses Archiv in einem Unter-Directory 

Rtest/mdistr. 

(c) Modifizieren Sie den Titel des Pakets im DESCRIPTION-File auf 

mdistr. 

(d) Checken Sie das Paket mit R CMD check und erstellen Sie es mit 

R CMD build als tar.gz bzw. als Windows-Binary (.zip-File). 

(e) Installieren Sie das neue Paket mdistr und testen Sie es mit den 

Demos. 

 

(f) Deinstallieren Sie das Paket mdistr wieder. 

 



Matthias Kohl 




987

Kopieren Sie dabei alle Konsolenergebnisse in eine Textdatei und 

schnüren Sie diese mit der tar.gz– und der zip–Version Ihres 

Paketes in ein zip-File. 


hier liegt noch keine Musterlösung vor. 

A.15.2 Anlegen eines Daten-Pakets 

Erstellen Sie aus dem Datensatz hills aus dem MASS-Paket ein 

neues Paket 

(a) Lassen Sie sich mit package.skeleton eine Hülle erstellen. 

(b) Legen Sie ein DESCRIPTION-File an. 

(c) Erstellen Sie ein Dokumentations- / rd-File 

(d) Checken und erstellen Sie das Paket (ungepackt und als Binary). 

 

(e) Installieren und deinstallieren Sie es. 

 



Matthias Kohl 




988

Kopieren Sie dabei alle Konsolenergebnisse in eine Textdatei und 

schnüren Sie diese mit der tar.gz– und der zip–Version Ihres 

Paketes in ein zip-File. 



A.15.3 Anlegen eines eigenen R-Pakets 

Fassen Sie alle Ihre Routinen zu Blatt A.14 in einem R–Paket 

zusammen. Gehen Sie vor wie bei Aufgabe 1 und erstellen Sie die 

notwendigen DESCRIPTION-Files und rd-Files. Erstellen Sie ein 

NAMESPACE-File. Checken und erstellen Sie das Paket (ungepackt 

und als Binary). Kopieren Sie dabei alle Konsolenergebnisse in eine 

Textdatei und schnüren Sie diese mit der tar.gz– und der 

 

zip–Version Ihres Paketes in ein zip-File. 

 



Matthias Kohl 




989



A.15.4 Arbeit mit Sweave 

Führen Sie mit der Schätzerklasse aus Blatt A.14 eine kleine 

Simulationsstudie durch und beschreiben die Ergebnisse in einem 

L ATEX-File, das Sie mit R-Code–Chunks versehen. Erstellen Sie jeweils 

ein .R-, ein .tex- und ein .txt-File (letzteres mit den Befehlen zur 

Erzeugung der Vignette). Schnüren Sie alle Files in ein zip-File. 



 

 



Matthias Kohl 




990

A.16 Blatt 16 

Stoff bis Ende des Kurses 

 

 



Matthias Kohl 




991

A.16.1 R und MySQL 

(a) Installieren Sie MySQL und RMySQL. 

(b) Erzeugen Sie bei sich die Sakila Datenbank 

http://dev.mysql.com/doc/sakila/en/sakila.html. 

(c) Finden Sie mit SQL-Anfragen die überfälligen DVDs heraus und 

importieren Sie das Ergebnis dieser Anfrage nach R. 

Erstellen Sie jeweils ein .txt- und ein .R-File (ersteres mit den 

SQL-Anfragen. Schnüren Sie alle Files in ein zip-File. 



A.16.2 Aufruf von C Code unter R 

(a) Bereiten Sie Ihren Rechner wie in Abschnitt 8.3.8 beschrieben 

auf die Anlage eines R-Pakets vor. 

 



Matthias Kohl 




992

(b) Schreiben Sie den Algorithmus aus Beispiel 3.6-2 um in C. 

(c) Schreiben Sie eine (einfache) R Funktion, die Ihre C-Funktion 

aus (b) mit mit der .C-Schnittstelle ansteuert. 

(d) Wiederholen Sie (c) nur jetzt mit der .Call-Schnittstelle 

Erstellen Sie jeweils ein .c-, ein .R- und ein .txt-File (letzteres mit 

den Befehlen zur Erzeugung des .so/.dll-Files). Schnüren Sie alle 

Files in ein zip-File. 



A.16.3 Aufruf von Fortran Code unter R 

(a) Laden Sie sich aus dem Netz den Fortran-Quelltext zur 

Integrations-Routine dqagse aus der Fortran-Bibliothek 

quadpack herunter. 

 



Matthias Kohl 




993

(b) Verwenden Sie dqagse, um das gleiche wie in Aufgabe A.16.3 

mit der .Fortran-Schnittstelle zu erreichen. 

Erstellen Sie ein .R- und ein .txt-File (letzteres mit den Befehlen 

zur Erzeugung des .so/.dll-Files). Schnüren Sie alle Files in ein 

zip-File. 



A.16.4 Paralleles Rechnen mit R 

(a) Verschaffen Sie sich Zugang zu einem Compute-Cluster mit 

bereits installiertem R ;-) 

(b) Richten Sie sich eine lokale Library ~/myRlibs ein, in die Sie die 

Pakete snow und Rmpi aus den Sourcen mit R CMD INSTALL 

installieren, und erstellen Sie in Ihrem Stammverzeichnis ein File 

.Renviron mit Inhalt R_LIBS="~/myRlibs:${R_LIBS}". 

 



Matthias Kohl 




994

(c) Wiederholen Sie Aufgabe A.5.1, allerdings diesmal mit 

Stichproben der Länge , für 

 

—auf mindestens Knoten. 

(d) Versuchen Sie mit boxcox das asymptotische Verhalten der 

Verteilungsfunktion in den Flanken in Abhängigkeit von zu 

beschreiben. 

Erstellen Sie jeweils ein .c-, ein .R- und ein .txt-File (letzteres mit 

den Befehlen zur Erzeugung des .so/.dll-Files). Schnüren Sie alle 

Files in ein zip-File. 



 

 



Matthias Kohl 




995

L Lösungen 

L.1 Lösungsvorschläge Blatt 1 

L.1.1 Arbeit mit R-Skripten am Beispiel eines 

beliebigen editors: (ohne direkte Anbindung 

an R) 

(a) Öffnen Sie eine neue Text-Datei – Benennen und speichern Sie 

die Datei mit der Dateiendung .R – Starten Sie R 

(b) Laden und Abarbeiten der kompletten (gespeicherten) Datei 

mit source( file ="c:/ ... /bsp.R", ...) , bzw. 

eval(parse( file ="c:/ ... /bsp.R", n= 1, ...)) 

(c) Laden und Abarbeiten der ersten Befehle mit 

eval(parse( file ="c:/ ... /bsp.R", n=m, ...)) 

 



Matthias Kohl 




996

(d) Laden und Abarbeiten Sie einzelner Befehle (am besten) mit 

cut and paste. 

 

 



Matthias Kohl 




997

L.1.2 Auffinden von Datensätzen 

(a) Zum Beispiel: http://www.oanda.com/convert/fxhistory?lang=de 

(b) Zum Beispiel: 

http://www.dwd.de/research/klis/daten/online/wwr/form deu.htm 

(c) Aufruf von library () liefert: 

In S-Plus 2000: 

The following sections are available in the library directory: 

SECTION BRIEF DESCRIPTION 

chron Functions to handle dates and times. 

class Functions for non-parametric classification from 

Venables and Ripley. 

design Functions for biostats and epidemiological 

modeling from Frank Harrel. 

examples Functions and objects from The New S Language. 

hmisc Miscellaneous functions from Frank Harrel. 

maps Display of maps with projections. 

MASS Functions and data sets from "Modern Applied 

Matrix Statistics with S-PLUS" by Venables and Ripley. 

New Matrix class functions for numerical linear 

 



Matthias Kohl 




998

algebra 

nlme2 Non-Linear Mixed Effects Functions version 2.1 

nnet Software for feed-forward neural networks from 

Venables and Ripley. 

olddates Date functions which use deprecated century 

handling rules. 

progdraw Sdraw example from Programmer’s Manual. 

progexam Examples from Programmer’s Manual. 

semantics Functions from chapter 11 of The New S Language. 

spatial Spatial statistics library from Venables 

and Ripley. 

For more information on each library section see the README 

file in each library section directory. You can also in 

S-PLUS run: \lstinline{library( help = )} 

In R 1.6.0: 

Packages in library ‘C:/PROGRAMME/R/RW1060/library’: 

acepack ace() and avas() for selecting regression 

transformations 

adapt adapt -- multidimensional numerical 

integration 

 



Matthias Kohl 




999

agce 

analysis of growth curve experiments 

akima Interpolation of irregularly spaced data 

AnalyzeFMRI Functions for analysis of fMRI datasets 

stored in the ANALYZE format. 

ape Analyses of Phylogenetics and Evolution 

ash David Scott’s ASH routines 

base The R base package 

Bhat General likelihood exploration 

bindata Generation of Artificial Binary Data 

blighty British Isles coastlines 

boot Bootstrap R (S-Plus) Functions (Canty) 

bootstrap Functions for the Book "An Introduction 

to the Bootstrap" 

bqtl Bayesian QTL mapping toolkit 

brlr Bias-reduced Logistic Regression 

car Companion to Applied Regression 

cclust Convex Clustering Methods and Clustering 

Indexes 

cfa Analysis of configuration frequencies (CFA) 

chron Chronological objects which can handle 

CircStats dates and times 

Circular Statistics 

 



Matthias Kohl 




1000

class 

Functions for classification 

cluster Functions for clustering (by Rousseeuw et al.) 

cmprsk Subdistribution Analysis of Competing Risks 

cobs COBS -- Constrained B-splines 

CoCoAn Constrained Correspondence Analysis 

coda Output analysis and diagnostics for MCMC 

combinat combinatorics utilities 

conf.design Construction of factorial designs 

cramer Multivariate nonparametric Cramer-Test 

ctest Classical Tests 

date Functions for handling dates 

dblcens Compute the NPMLE of distribution from doubly 

censored data 

deal Learning Bayesian Networks with Mixed 

Variables 

deldir Delaunay Triangulation and Dirichlet 

(Voronoi) Tesselation. 

Devore5 Data sets from Devore’s "Prob and Stat 

for Eng (5th ed)" 

diamonds Analysis and sampling grids from diamond 

dichromat partitions 

Color schemes for dichromats 

 



Matthias Kohl 




1001

dr 

Dimension reduction for regression 

dse1 Dynamic Systems Estimation (time series 

package) 

dse2 Dynamic Systems Estimation - extensions 

e1071 Misc Functions of the Department of 

Statistics (e1071), TU Wien 

eda Exploratory Data Analysis 

ellipse Functions to plot pairwise confidence 

regions 

emplik empirical likelihood ratio for 

censored/truncated data 

EMV Estimation of Missing Values for a 

Data Matrix 

evd Functions for extreme value distributions 

exactRankTests Exact Distributions for Rank and 

Permutation Tests 

fastICA FastICA algorithms to perform ICA and 

Projection Pursuit 

fdim Functions for calculating fractal dimension 

fields Tools for spatial data 

foreign fracdiff 

Read data stored by Minitab, SAS, SPSS, ... 

Fractionally differenced ARIMA (p,d,q) models 

 



Matthias Kohl 




1002

g.data 

Delayed-Data Packages 

gafit Genetic Algorithm for Curve Fitting 

gee Generalized Estimation Equation solver 

geepack Generalized Estimating Equation Package 

GeneSOM Clustering Genes using Self-Organizing Map 

GenKern Functions for generating and manipulating 

generalised kernel density estimates 

geoR geoR - functions for geostatistical analysis 

geoRglm geoRglm a package for generalised linear 

spatial models 

gld Basic functions for the generalised (Tukey) 

lambda distribution 

gllm Generalised log-linear model 

GLMMGibbs Generalised Linear Mixed Models by Gibbs 

Sampling 

gregmisc Greg’s Miscellaneous Functions 

grid The Grid Graphics Package 

gss General Smoothing Splines 

haplo.score Score Tests for Association of Traits with 

Haplotypes when Linkage Phase is Ambiguous. 

ifs ineq 

Iterated Function Systems estimator 

Measuring inequality, concentration and 

 



Matthias Kohl 




1003

ipred 

poverty 

Improved Predictors 

ISwR Data sets for "Introductory Statistics 

with R" 

KernSmooth Functions for kernel smoothing for 

Wand & Jones (1995) 

KMsurv Data sets from Klein and Moesschberger (1997), 

"Survival Analysis" 

knnTree k-nn classification with variable selection 

inside leaves of a tree 

lasso2 L1 constrained estimation aka ‘lasso’ 

lattice Lattice Graphics 

leaps regression subset selection 

lgtdl A set of methods for longitudinal data 

objects. 

lmtest Testing Linear Regression Models 

logspline Logspline density estimation 

lokern Kernel Regression Smoothing with Local or 

Global Plug-in Bandwidth 

lpridge Local Polynomial (Ridge) Regression 

lqs maptree 

Resistant Regression and Covariance Estimation 

Mapping, pruning, and graphing tree models 

 



Matthias Kohl 




1004

MASS 

Main Library of Venables and Ripley’s MASS 

Matrix A Matrix package for R 

maxstat Maximally Selected Rank- and Gauss statistics 

mda Mixture and flexible discriminant analysis 

meanscore Meanscore method for missing covariate 

data in logistic regression models 

methods Formal Methods and Classes 

mgcv Multiple smoothing parameter estimation 

and GAMs by GCV 

mlbench Machine Learning Benchmark Problems 

moc General Nonlinear Mixture of curves. 

modreg Modern Regression: Smoothing and Local 

Methods 

muhaz Hazard Function Estimation in Survival 

Analysis 

multcomp Multiple Tests and Simultaneous Confidence 

Intervals 

multiv Multivariate Data Analysis Routines 

mva Classical Multivariate Analysis 

mvnmle ML estimation for multivariate normal data 

mvtnorm with missing values. 

Multivariate Normal and T Distribution 

 



Matthias Kohl 




1005

netCDF 

read data in UCAR’s netCDF format 

NISTnls Nonlinear least squares examples from NIST 

nlme Linear and nonlinear mixed effects models 

nlrq Nonlinear quantile regression 

nls Nonlinear regression 

nnet Feed-forward neural networks and multinomial 

log-linear models 

norm Analysis of multivariate normal datasets with 

missing values 

normix Normal Mixture Models (1-d) {Classes and 

Methods} 

npmc Nonparametric Multiple Comparisons 

Oarray Arrays with arbitrary offsets 

odesolve Solvers for Ordinary Differential Equations 

oz Plot the Australian coastline and states 

panel Panel 

pastecs Package for Analysis of Space-Time 

Ecological Series 

pcurve Principal Curve analysis 

pear periodic autoregression library 

permax pinktoe 

permax 

convert S trees to HTML/perl for interactive 

 



Matthias Kohl 




1006

pixmap 

tree traversal 

Bitmap Images (‘‘Pixel Maps’’) 

polymars Polychotomous Regression based on MARS 

polynom A collection of functions to implement a class 

for univariate polynomial manipulations 

princurve Fits a Principal Curve in Arbitrary Dimension 

pspline Penalized Smoothing Splines 

PTAk Principal Tensor Analysis on k modes 

qtl Tools for analyzing QTL experiments 

quadprog Functions to solve Quadratic Programming 

Problems. 

quantreg Quantile Regression 

qvcalc Quasi-variances for Model Coefficients 

RadioSonde Tools for plotting skew-T diagrams and winds 

profiles 

RandomFields Simulation and Analysis of Random Fields 

randomForest Breiman’s random forest for classification and 

regression 

RArcInfo Functions to import data from Arc/Info V7.x 

binary coverages 

relimp Relative Contribution of Effects in a 

Regression Model 

 



Matthias Kohl 




1007

meta 

Meta-analysis 

RMySQL MySQL interface for R 

rpart Recursive partitioning 

Rwave Time-Frequency analysis of 1-D signals 

SASmixed Data sets from "SAS System for Mixed Models" 

scatterplot3d 3D Scatter Plot 

sem Structural Equation Models 

serialize Simple Serialization Interface 

sgeostat An Object-oriented Framework for 

Geostatistical Modeling in S+ 

sm kernel smoothing methods: Bowman & Azzalini 

(1997) 

sma Statistics for Microarray Analysis 

sn The skew-normal and skew-t distributions 

sna Tools for Social Network Analysis 

sound A Sound Interface for R 

spatial functions for kriging and point pattern 

analysis 

spatstat Analysis of spatial point patterns 

spdep Spatial dependence: weighting schemes, 

splancs statistics and models 

Spatial and Space-Time Point Pattern Analysis 

 



Matthias Kohl 




1008

splines 

Regression Spline Functions and Classes 

StatDataML alpha implementation of the StatDataML 

proposal 

stepfun Step Functions, including Empirical 

Distributions 

strucchange Testing for Structural Change 

subselect Selecting variable subsets. 

SuppDists Supplementary distributions 

survival Survival analysis, including penalised 

likelihood. 

syskern Coding Kernel for R/S Differences 

systemfit Simultaneous Equation Estimation Package 

tcltk Interface to Tcl/Tk 

tensor Tensor product of arrays 

tframe Time Frame coding kernel 

tkrplot TK Rplot 

tools Tools for Package Development and 

Administration 

tree Classification and regression trees 

tripack Triangulation of irregularly spaced data 

ts tseries 

Time series functions 

Time series analysis and computational finance 

 



Matthias Kohl 




1009

twostage 

Optimal design of two-stage-studies using the 

Mean Score method 

vegan Community Ecology Package 

VLMC VLMC -- Variable Length Markov Chains 

waveslim Basic wavelet routines for time series and 

image analysis 

wavethresh Software to perform wavelet statistics and 

transforms. 

wle Weighted Likelihood Estimation 

xgobi Interface to the XGobi and XGvis programs for 

graphical data analysis 

XML Tools for parsing and generating XML within R 

and S-Plus. 

xtable Export tables to LaTeX or HTML 

Ab R 1.4.1 gibt es auch noch die Möglichkeit sich die 

vorhandenen Pakete per .packages(all . available =TRUE) 

anzusehen. Die Pakete lassen sich mit der Funktion library () 

bzw. require () laden, wobei require () zusätzlich mitteilt, ob der 

Ladevorgang erfolgreich war (innerhalb von Funktionen!). 

 



Matthias Kohl 




1010

L.1.3 Datenimport 

(a) read. table () 

davon mit speziellen Optionen abgeleitet: 

(b) 

 

read.csv(), read.csv2(), read.delim(), read.delim2(), 

read.fwf() 

scan() 

############################################ 

# L o e s u n g s v o r s c h l a g zu B l a t t 1 Aufgabe 3( c ) 

############################################ 

# E i n l e s e n des D a t e n s a t z e s 

d o l l a r read . t a b l e ( 

f i l e ="C : . . . \ \ d o l l a r . data " , 

header=T, 

 



Matthias Kohl 




1011

c o l C l a s s e s = c ( " c h a r a c t e r " , " numeric " ) 

) 

# Handelt e s s i c h um e i n e n data . frame ? 

i s . data . frame ( d o l l a r ) 

# Spaltennamen 

names ( d o l l a r ) 

# Zeilennamen 

row . names ( d o l l a r ) 

 



Matthias Kohl 




1012

L.1.4 Mustererzeugung 

############################################ 

# L o e s u n g s v o r s c h l a g zu B l a t t 1 Aufgabe 4 

############################################ 

# Z e i l e 1 

M 1 : 2 0 

# Z e i l e 2 

M r b i n d (M, seq ( from =0.25 , to =5, by =0.25)) 

# oder auch 

M r b i n d (M, seq ( from =0.25 , to =5, l e n g t h =20)) 

# Z e i l e 3 

M r b i n d (M, rep ( 1 : 2 , rep ( 1 0 , 2 ) ) ) 

 

 



Matthias Kohl 




1013

# Z e i l e 4 

M r b i n d (M, rep ( rep ( 1 : 2 , rep ( 2 , 2 ) ) , 5 ) ) 

# oder auch 

M r b i n d (M, rep ( 1 : 2 , rep ( 2 , 2 ) ) ) 

# e r z e u g t nur : 1 1 2 2 

# j e d o c h : w i r d d i e Z e i l e a u t o m a t i s c h g e f u e l l t , 

# indem d i e s e r Vektor w i e d e r h o l t w i r d 

# Z e i l e 5 

M r b i n d (M, rep ( 1 : 6 , c ( 2 , 2 , 2 , 4 , 4 , 6 ) ) ) 

# Z e i l e 6 

M r b i n d (M, rep ( rep ( 1 : 3 , c ( 1 , 3 , 6 ) ) , 2 ) ) 

 

 



Matthias Kohl 




1014


L.2.1 Indexoperationen, Matrizen 

############################################ 


############################################ 

############################################ 

#T e i l ( a ) 

############################################ 

# Matrix 1) 

M1 d i a g ( 2 , nrow=6) 

M1[ c o l (M1)>row (M1) ] 1 

 

# oder auch 

 



Matthias Kohl 




1015

M1 M1 + upper . t r i (M1) 

# Matrix 2 

M2 d i a g ( 4 , nrow=6) 

M2[ ( c o l (M2) row (M2))==1] c ( 1 , 2 , 1 , 2 , 1 ) 

M2[ 1 , 1 ] 2 

M2[ 6 , 6 ] 2 

# oder auch 

M2 d i a g ( c ( 2 , rep ( 4 , 4 ) , 2 ) , nrow=6) 

M2[ ( c o l (M2) row (M2))==1] c ( 1 , 2 , 1 , 2 , 1 ) 

# Matrix 3 

M3 m a t r i x ( rep ( c ( 2 : 7 ) , rep ( 6 , 6 ) ) , nrow=6, n c o l =6) 

M3 M3^( row (M3) 1) 

############################################ 

#T e i l ( b ) 

 



Matthias Kohl 




1016

############################################ 


data ( p a i n t e r s ) 

namen row . names ( p a i n t e r s ) 

namen [ grep ( p a t t e r n= ’ e . £ e . £ e ’ , namen ) ] 

 

 



Matthias Kohl 




1017

L.2.2 Faktoren 

############################################ 


############################################ 

############################################ 

#T e i l ( a ) 

############################################ 

data ( i r i s ) 

a t t a c h ( i r i s ) 

t a p p l y ( S e p a l . Length , S p e c i e s , min ) 

t a p p l y ( S e p a l . Width , S p e c i e s , min ) 

t a p p l y ( S e p a l . Length , S p e c i e s , max) 

t a p p l y ( S e p a l . Width , S p e c i e s , max) 

############################################ 

 



Matthias Kohl 




1018

#T e i l ( b ) 

############################################ 

l e n as . m a t r i x ( t a p p l y ( 

S e p a l . Length , S p e c i e s , t a b l e ) $ s e t o s a ) 

l e n [ l e n==max( l e n ) ] 

# bzw . 

l e n [ which . max( l e n ) ] 

# g i b t j e d o c h nur e i n e s d e r b e i d e n Maxima aus 

wid as . m a t r i x ( t a p p l y ( 

S e p a l . Width , S p e c i e s , t a b l e ) $ s e t o s a ) 

wid [ wid==max( wid ) ] 

# bzw . 

wid [ which . max( wid ) ] 

# h i e r 

 

o . k . , da e s nur e i n Maximum g i b t 

 



Matthias Kohl 




1019

L.2.3 String-, Matrixoperationen 

############################################ 


############################################ 

#b i t t e beachten : Verwendung des Pfades 

# so koennen F i l e z u g r i f f e l e i c h t zum Laufen 

# a u f l o k a l e V e r z e i c h n i s s t r u k t u r e n g e b r a c h t werden 

###z . B . : 

PFAD "C : / e i g e n e ␣ D a t e i e n / A r b e i t /Uebungen/R/TeX/" 

Filename p a s t e (PFAD, "BL02Aufg3 . t x t " , 

c o l l a p s e="" , sep="" ) 

 

 



Matthias Kohl 




1020

# Matrix 3 aus Aufgabe 1 ( a ) 

M3 m a t r i x ( rep ( c ( 2 : 7 ) , rep ( 6 , 6 ) ) , nrow=6, 

n c o l =6) 

M3 M3^( row (M3) 1) 

L l i s t ( H i l b e r t=M3) 

EWs e i g e n ( L$ H i l b e r t ) $ v a l u e s 

# 1 . M o e g l i c h k e i t 

cat ( p a s t e ( " Die ␣ E i g e n w e r t e ␣ d e r ␣ Matrix " , 

names ( L ) , " s i n d ␣" ) , f i l e =Filename ) 

cat ( format (EWs, n s m a l l =2, d i g i t s =3) , 

sep=" , ␣" , f i l e =Filename , append=T) 


 

cat ( p a s t e ( " Die ␣ E i g e n w e r t e ␣ d e r ␣ Matrix " , 

names ( L ) , " s i n d ␣" ) , f i l e =Filename ) 

 



Matthias Kohl 




1021

cat ( round (EWs, 2 ) , sep=" , ␣" , 

 

f i l e =Filename , append=T) 

 



Matthias Kohl 




1022

L.2.4 Matrixoperationen 

############################################ 


############################################ 

# T e i l ( a ) 

M m a t r i x ( 0 , nrow=6, n c o l =6) 

M 1/ ( row (M)+ c o l (M) 1) 

#T e i l ( b ) 

det (M) 

#K o n d i t i o n 

v a l e i g e n (M, symmetric=TRUE) $ v a l u e s 

abs (max( v a l ) ) / abs ( min ( v a l ) ) 

##oder 

 

kappa (M, e x a c t=T) 

 



Matthias Kohl 




1023

#T e i l ( c ) 

b 1 : 6 

s o l v e (M, b ) 

#oder : 

qr . s o l v e (M, b ) 

#e v t l wegen d e r s c h l e c h t e n K o n d i t i o n 

 

 



Matthias Kohl 




1024

L.2.5 Schreiben von Daten auf File 

############################################ 


############################################ 

#b i t t e beachten : Verwendung des Pfades 

# so koennen F i l e z u g r i f f e l e i c h t zum Laufen 

# a u f l o k a l e V e r z e i c h n i s s t r u k t u r e n g e b r a c h t werden 

###z . B . : 

PFAD "C : / e i g e n e ␣ D a t e i e n / A r b e i t /Uebungen/R/TeX/" 

Filename p a s t e (PFAD, " e r g . t x t " , c o l l a p s e="" , sep="" ) 

# verwenden Matrix 3 aus Aufgabe 1 ( a ) 

 

M3 m a t r i x ( rep ( c ( 2 : 7 ) , rep ( 6 , 6 ) ) , nrow=6, n c o l =6) 

 



Matthias Kohl 




1025

M3 M3^( row (M3) 1) 

# Ausgabe 

cat ( " Die ␣ Matrix ␣M␣ l a u t e t ␣\n" , 

 

sep=c ( "" , rep ( c ( rep ( " , ␣" , 5 ) , "\n" ) , 6 ) ) , 

format ( t (M3) , d i g i t s =5, n s m a l l =3) , 

f i l e =Filename ) 

cat ( " Die ␣ E i g e n w e r t e ␣ d e r ␣ Matrix ␣M␣ s i n d ␣\n ( " , 

sep=c ( "" , rep ( " , ␣" , 5 ) , "\n" ) , 

format ( e i g e n (M3) $ v a l u e s , d i g i t s =5, 

n s m a l l =3) , " ) " , f i l e =Filename , append=T) 

 



Matthias Kohl 




1026


L.3.1 Skalenniveaus 

Geschlecht (kategorielles Merkmal): Modus 

Schulnoten, Semesteranzahl (ordinale Merkmale): Modus, 

Median, mit Einschraenkungen ist auch Mittelwert bzw. Note 

2.3 sinnvoll (ist die 1 von der 2 so "weit"weg wie die 3 von 

der 4) 

Ideale Normalverteilung (metrisches Merkmal): Mittelwert, 

Median, Modus nicht sinnvoll — es sei denn als Modus der 

Dichte!!! 

 

 



Matthias Kohl 




1027

L.3.2 Univariate Analyse 

############################################ 


############################################ 

############################################ 

# T e i l ( a ) 

############################################ 

# V o r a r b e i t : 

# Download von k r e d i t 1 . t x t aus Netz i n D a t e i 

# C : . . . \ k r e d i t 1 . t x t 

k r e d i t read . t a b l e ( f i l e ="C : . . . \ k r e d i t 1 . t x t " , 


 

names ( k r e d i t ) 

header=T) 

 



Matthias Kohl 




1028

stem ( L a u f z e i t ) 

summary ( L a u f z e i t ) 

stem ( K r e d i t h o e h e ) 

summary ( K r e d i t h o e h e ) 

t a b l e ( Zahlungsmoral ) 

############################################ 

# T e i l ( b ) 

############################################ 

par ( mfrow=c ( 2 , 2 ) ) 

b o x p l o t ( L a u f z e i t ) 

t i t l e ( " Boxplot ␣ d e r ␣ L a u f z e i t " ) 

h i s t ( L a u f z e i t ) 

 

b o x p l o t ( K r e d i t h o e h e ) 

t i t l e ( " Boxplot ␣ d e r ␣ K r e d i t h o e h e " ) 

 



Matthias Kohl 




1029

h i s t ( K r e d i t h o e h e ) 

detach ( ) 

 

 



Matthias Kohl 




1030

L.3.3 Elementare Datenanalyse 

############################################ 


############################################ 

############################################ 

# T e i l ( a ) 

############################################ 

# V o r a r b e i t : 

# Download von baby . t x t aus Netz i n D a t e i 

# C : . . . \ baby . t x t 

a read . t a b l e ( 

f i l e ="C : . . . / baby . t x t " , sep=" , " , 

header=F , s k i p =2) 

# U e b e r l e s e n d e r e r s t e n b e i d e n Z e i l e n ( s k i p = . . ) 

 



Matthias Kohl 




1031

# T r e n n u n g s z e i c h e n i s t " ," 

# Umwandeln i n e i n e Matrix 

a data . m a t r i x ( a ) 

M a [ , 1 ] # wie i n Angabe Masse b e i Geburt 

R a [ , 2 ] # wie i n Angabe r e l . Massezuwachs 

# i n d e r e r s t e n Woche 

############################################ 

# T e i l ( b ) 

############################################ 

# Histogramm von R 

h i s t (R) 

############################################ 

# T e i l ( c ) 

 



Matthias Kohl 




1032

############################################ 

# Berechnen e i n i g e r Kenngroessen 

# d e r e m p i r i s c h e n V e r t e i l u n g 

mean (M) 

median (M) 

v a r (M) 

sd (M) 

cor ( c b i n d (M, R) ) 

max(M) # n i c h t Modalwert ! 

# Modalwert 

modal as . m a t r i x ( t a b l e (M) ) 

modal modal [ modal==max( modal ) ] 

# bzw . 

modal 

 

modal [ which . max( modal ) ] 

 



Matthias Kohl 




1033

############################################ 

# T e i l ( d ) 

############################################ 

b o x p l o t (R) 

 

 



Matthias Kohl 




1034

L.3.4 Univariate Konvexkombinationen 

############################################ 


############################################ 

############################################ 

# T e i l ( a ) 

############################################ 

n 100 

X rnorm ( n , 0 + 3£ rbinom ( n , 1 , 0 . 1 ) , 1) 

############################################ 

# T e i l ( b ) 

############################################ 

stem (X) 

 

summary (X) 

 



Matthias Kohl 




1035

############################################ 

# T e i l ( c ) 

############################################ 

b o x p l o t (X) 

 

 



Matthias Kohl 




1036

L.3.5 Übungsaufgaben zur Stochastik 

############################################ 


############################################ 

############################################ 

# T e i l ( a ) 

############################################ 

# W a h r s c h e i n l i c h k e i t , d a s s w e n i g s t e n s n 

# am g l e i c h e n Tag G e b u r t s t a g haben f u e r 

# n = 1 , . . . , 3 6 5 

Pcum 1 cumprod (365 1:365) / 365^(1:365) 

Pcum [ i s . na (Pcum ) ] 1 

# a u f g r u n d n u m e r i s c h e r S c h w i e r i g k e i t e n muss 

# Pcum irgendwann von Hand 1 a u f g e s e t z t 

 

# werden ! 

 



Matthias Kohl 




1037

# e i n f a c h e r : 

PP0cumsum( l o g (365 1:365)) (1:365) £ l o g (365) 

Pcum 1 exp (PP0) 

# a l l e E r g e b n i s s e d i e k l e i n e r a l s 0 . 2 5 s i n d 

# und e i n e r dazu 

e r g e b n i s sum (Pcum

# k q 

pte 1 phyper ( q=23, m=120 , n =1:1000 , k=100) 

e r g e b n i s sum ( pte

N 20 

e i n z e l S o c k e 0 :N 

SockeninTrommel 2£N e i n z e l S o c k e 

PaarSockeninTrommel SockeninTrommel e i n z e l S o c k e 

# im S c h r i t t k kann entweder e i n b e r e i t s 

# a u s s e n l i e g e n d e r Socke gezogen werden und 

# e s g i b t e i n Paar > Ppaarcond 

# oder n i c h t > Pnpaarcond 

Ppaarcond e i n z e l S o c k e / SockeninTrommel 

Pnpaarcond 1 Ppaarcond 

# w i e d e r l o g T r a f o zum s t a b i l e r e n 

# Rechnen mit F a k u l t a e t e n 

lPnpaarcond 

 

l o g ( Pnpaarcond ) 

# W a h r s c h e i n l i c h k e i t b i s Zug k k e i n 

 



Matthias Kohl 




1040

# Paar bekommen zu haben 

Pncum exp (cumsum( lPnpaarcond ) ) 

# v e r s c h i e b e n um W a h r s c h e i n l i c h k e i t 

# d a s s i n Zug k e r s t e s Paar 

Ppaarcond c ( Ppaarcond , 0 ) 

Pncum c ( 1 , Pncum) 

pte Pncum£ Ppaarcond 

# W a h r s c h e i n l i c h k e i t e n 

# pte 

sum ( pte ) # K o n t r o l l e 

# W a h r s c h e i n l i c h k e i t b i s zum k ten Zug 

# e i n Paar = 1 Pncum 

# cumsum ( pte ) 

 

sum (cumsum( pte )


L.4.1 Visualisierung des (schwachen) Gesetzes der 

großen Zahlen 

############################################ 


############################################ 

# w i r s c h r e i b e n das ganze g l e i c h 

# a l s Funktion i n N und M 

LLN f u n c t i o n (N,M){ 

############################################ 

# T e i l ( a ) 

 

############################################ 

 



Matthias Kohl 




1042

# Ziehen d e r W u e r f e l e r g e b n i s s e 

# (M£N Stueck ) 

W sample ( seq ( 1 : 6 ) , s i z e=N£M, r e p l a c e=T) 

# d a r a u s A b l e i t e n des I n d i k a t o r s 

# "Habe e i n e 6" 

s (W==6) 

# i n Matrix > M^="r u n s " N^=S t i c h p r o b e n 

s m a t r i x ( s , M, N) 

############################################ 

# T e i l ( b ) 

############################################ 

# f u e r j e d e d e r M S t i c h p r o b e n : 

# Berechnen des S t i c h p r o b e n m i t t e l w e r t e s 

S 

 

a p p l y ( s , 1 , mean ) 

############################################ 

 



Matthias Kohl 




1043

# T e i l ( c ) 

############################################ 

h i s t ( S ) 

b o x p l o t ( S ) 

############################################ 

#T e i l ( d ) 

############################################ 

} 

VN mean ( ( S 1/ 6)^2) 

r e t u r n ( l i s t (VN, S ) ) 

############################################ 

 

# A u s f u e h ren d e r Funktion 

############################################ 

 



Matthias Kohl 




1044

# v e r s c h i e d e n e n Werte 

n c ( 1 , 3 , 5 , 1 0 , 5 0 , 1 0 0 , 1 0 0 0 ) 

# ohne f o r S c h l e i f e ! 

e r g s a p p l y ( n , LLN , M=10000) 

VNsim m a t r i x ( u n l i s t ( e r g [ 1 , ] ) , n c o l =1) 

SS data . frame ( m a t r i x ( u n l i s t ( e r g [ 2 , ] ) , 

nrow =10000 , n c o l=l e n g t h ( n ) ) ) 

names ( SS ) p a s t e ( n ) 

b o x p l o t ( SS ) 

dev . o f f ( ) 

## s u g g e r i e r t a b k l i n g e n mit 1/N 

# V o r f a k t o r e r r a t e n : 5/36 

 

# V e r g l e i c h T h e o r i e / S i m u l a t i o n 

 



Matthias Kohl 




1045

VNtheo 1/36/n 

VNa c b i n d ( VNsim , VNtheo ) 

matplot ( n , VNa , t y p e=" l " ) 

par ( new=T) 

par ( mfrow=c ( 3 , 2 ) ) 

myhist f u n c t i o n ( iS , XX, s i z , . . . ) { 

 

h i s t (XX[ , i S ] , main=p a s t e ( "n=" , s i z [ i S ] ) , . . . ) } 

s a p p l y ( 1 : 7 , myhist , XX=SS , s i z=n , 

x l a b="S_i=r e l . ␣ H a u e f i g k e i t ␣ e i n e r ␣6" , 

y l a b="#␣S_i =.. ␣ i n ␣ 10000 ␣ r u n s " ) 

 



Matthias Kohl 




1046

L.4.2 Numerische Integration: Berechnung von 

############################################ 


############################################ 

############################################ 

# T e i l ( a ) 

############################################ 

n 1000 

U m a t r i x ( r u n i f ( n=2£n , min=0, max=1) , 

nrow=n , n c o l =2) 

############################################ 

# T e i l ( b ) 

############################################ 

 

K ( (U[ ,1] 0.5)^2 + (U[ ,2] 0.5)^2

p i 4 sum (K) /n 

p i . emp 4£ p i 4 

############################################ 

# T e i l ( c ) 

############################################ 

# Normalapproximation : 

# s q r t ( n ) ( p_n p ) > N( 0 , p(1 p ) ) 

# mit p_n r e l a t i v e r A n t e i l s w e r t ; 

# k o n s e r v a t i v : p(1 p) 10^ 6)= 

# P( s q r t ( n ) | p_n p|> s q r t ( n ) 10^ 6) 

# ~ P ( | N(0 , 1 /4)| > s q r t ( n ) 10^ 6) != 0 . 9 5 

# Phi (2 s q r t ( n ) 10^ 6) >= 0.975 

# 2 s q r t ( n ) 10^ 6 >= Phi ^ 1(0.975) 

 



Matthias Kohl 




1048

# s q r t ( n ) >= 2 Phi ^ 1(0.975) 10^6 

# n >= 4 x 10^12 

# Z u s a e t z l i c h : ( E r l a e u t e r u n g s p a e t e r ) 

# e i n p l o t t e n i n e i n e n K r e i s 

############################################ 

# Berechnung und P l o t des K r e i s e s 

############################################ 

x seq ( from =0, to =1, by =0.001) 

y1 0 . 5 + s q r t ( x x ^2) 

y2 0 . 5 s q r t ( x x ^2) 

l i 0.2 

r e 1 . 3 

par ( c o l =1) 

 

p l o t ( x , y1 , t y p e=" l " , x l i m=c ( l i , r e ) , y l i m=c ( l i , r e ) , 

x l a b="x Achse " , y l a b="y Achse " , lwd =2) 

 



Matthias Kohl 




1049

l i n e s ( x , y2 , lwd =2) 

# P l o t des Quadrates 

l i n e s ( c ( 0 , 1 , 1 , 0 , 0 ) , c ( 0 , 0 , 1 , 1 , 0 ) , lwd =2) 

# P l o t d e r Punkte 

im . K r e i s U£K 

im . K r e i s m a t r i x ( im . K r e i s [ im . K r e i s !=0 ] , 

aus . K r e i s U£(1 K) 

par ( c o l =3, pch=4) 

 

nrow=sum (K) , n c o l =2) 

aus . K r e i s m a t r i x ( aus . K r e i s [ aus . K r e i s !=0 ] , 

par ( c o l =2, pch=1) 

nrow=sum(1 K) , n c o l =2) 

p o i n t s ( im . K r e i s [ , 1 ] , im . K r e i s [ , 2 ] ) 

p o i n t s ( aus . K r e i s [ , 1 ] , aus . K r e i s [ , 2 ] ) 

 



Matthias Kohl 




1050

par ( c o l =1) 

t i t l e ( p a s t e ( " Schaetzung ␣ d e r ␣ K r e i s z a h l ␣ p i ␣=␣" , 

 

round ( pi , 6 ) ) ) 

legend ( l i , re , legend=c ( "im␣ K r e i s " , " a u s s e r h a l b " ) , 

pch=c ( 1 , 4 ) , c o l=c ( 2 , 3 ) ) 

t e x t ( 0 . 5 , 0.1 , l a b e l s=p a s t e ( " Der ␣ a k t u e l l e ␣" , 

" S c h a e t z w e r t ␣ f u e r ␣ p i ␣ i s t " , p i . emp ) ) 

 



Matthias Kohl 




1051

L.4.3 Berechnung von ############################################ 


############################################ 

############################################ 

# T e i l ( a ) 

############################################ 

# X~N( 0 , 1 ) 

# E [Y]=E [X^2]=1 

############################################ 

# T e i l ( b ) 

############################################ 

 

M 10000 

 



Matthias Kohl 




1052

n 100 

x m a t r i x ( r c h i s q (M£n , df =1) , nrow=M, n c o l=n ) 

mws a p p l y ( x , 1 , mean ) 

v a r g v a r (mws) 

p r i n t ( c ( mean (mws) , v a r g ) ) 

# a n a l y t i s c h : 

# Var [ ave (Y_i ) ] = 

# = Var [ ave (X_i ^2)] = 

# = (E [X^4] E [X^2]^2) /n = 2/n 

############################################ 

# T e i l ( c ) 

############################################ 

#Abschneidepunkt wo 

 

# i n t_c^ I n f x f_x dx < 10^ 6 

# V a r i a b l e n t r a f o e r g i b t 

 



Matthias Kohl 




1053

# i n t_c ’^ I n f gamma( a=3/ 2 ) [ x ] dx < 10^ 6 

# Abschätzung des I n t e g r a l s durch 

# gamma( a=5/ 2 ) [ x ] 

T qgamma(1 10^ 6, shape=5/ 2) 

U m a t r i x ( r u n i f (M£n , min=0, max=T) , nrow=M, n c o l=n ) 

f s d c h i s q ( df =1, x=U) £U 

mws2 T£ a p p l y ( f s , 1 , mean ) 

varg2 v a r (mws2) 

p r i n t ( c ( mean (mws2 ) , varg2 ) ) 

############################################ 

# T e i l ( d ) 

############################################ 

U21 U [ , 1 : ( n/ 2 ) ] 

 

U22 T U21 

f s 1 d c h i s q ( df =1, x=U21 ) £U21 

 



Matthias Kohl 




1054

f s 2 d c h i s q ( df =1, x=U22 ) £U22 

mws3 T£ a p p l y ( c b i n d ( fs1 , f s 2 ) , 1 , mean ) 



############################################ 

# T e i l ( e ) 

############################################ 

x m a t r i x ( rnorm (M£n ) , nrow=M, n c o l=n ) 

mws4 a p p l y ( x ^2 , 1 , mean ) 



############################################ 

 

# E r w e i t e r u n g : a n t i t h e t i s c h mit c h i s q 

############################################ 

 



Matthias Kohl 




1055

V m a t r i x ( r u n i f (M£n ) , nrow=M, n c o l=n ) 

V21 V [ , 1 : ( n/ 2 ) ] 

V22 1 V21 

x21 q c h i s q ( p=V21 , df =1) 

x22 q c h i s q ( p=V22 , df =1) 

mws6 a p p l y ( c b i n d ( x21 , x22 ) , 1 , mean ) 



 

 



Matthias Kohl 




1056

L.4.4 Konfidenzintervalle, Bootstrap 

############################################ 


############################################ 

n 21 

############################################ 

# T e i l ( a ) 

############################################ 

s t i c h p a rnorm ( n ) 

meda median ( s t i c h p a ) 

# Berechnung d e r Bandweiten mit 

# v e r s c h i e d e n e n Methoden 

d1 d e n s i t y ( s t i c h p a , n=1, from=meda , 

 

to=(meda +0.01) , bw=bw . nrd0 ( s t i c h p a ) ) $y 

 



Matthias Kohl 




1057

d2 d e n s i t y ( s t i c h p a , n=1, from=meda , 

to=(meda +0.01) , bw=bw . nrd ( s t i c h p a ) ) $y 

#d1 d e n s i t y ( s t i c h p a , n=1, from=meda , 

# to=(meda +0.01) , bw=bw . ucv ( s t i c h p a ) ) $y 

#d2 d e n s i t y ( s t i c h p a , n=1, from=meda , 

# to=(meda0 . 0 1 ) , bw=bw . bcv ( s t i c h p a ) ) $y 

s t r e u a 1/ (2 £ s q r t ( n ) £ ( d1+d2 ) / 2) 

KIa c ( qnorm ( 0 . 0 2 5 ) £ s t r e u a , qnorm ( 0 . 9 7 5 ) £ s t r e u a ) 

############################################ 

# T e i l ( b ) 

############################################ 

N 10000 

s t i c h p b 

 

m a t r i x ( rnorm ( n£N) , nrow=N, n c o l=n ) 

medb a p p l y ( s t i c h p b , 1 , median ) 

medb . emp mean ( medb ) 

 



Matthias Kohl 




1058

s t r e u b sd ( medb ) 

KIb q u a n t i l e ( medb , c ( 0 . 0 2 5 , 0 . 9 7 5 ) ) 

############################################ 

# T e i l ( c ) 

############################################ 

M 1000 

s t i c h p c m a t r i x ( sample ( s t i c h p a , s i z e=n£M, 

r e p l a c e=T) , nrow=M, n c o l=n ) 

medc a p p l y ( s t i c h p c , 1 , median ) 

medc . bs mean ( medc ) 

s t r e u c sd ( medc ) 

KIc q u a n t i l e ( medc , c ( 0 . 0 2 5 , 0 . 9 7 5 ) ) 

############################################ 

# E r w e i t e r u n g 

 



Matthias Kohl 




1059

############################################ 

m 25 

medf . bs numeric (m) 

s t r e u f numeric (m) 

K I f m a t r i x ( 0 , nrow=m, n c o l =2) 

f o r ( i i n 1 :m) 

{ 

K I f [ i , ] 

 

q u a n t i l e ( medf , c ( 0 . 0 2 5 , 0 . 9 7 5 ) ) 

} 

s t i c h p f 1 rnorm ( n ) 

s t i c h p f m a t r i x ( sample ( s t i c h p f 1 , s i z e=n£M, 

r e p l a c e=T) , nrow=M, n c o l=n ) 

medf a p p l y ( s t i c h p f , 1 , median ) 

medf . bs [ i ] mean ( medf ) 

s t r e u f [ i ] sd ( medf ) 

 



Matthias Kohl 




1060

medf . bsm mean ( medf . bs ) 

s t r e u f . bsm mean ( s t r e u f ) 

K I f . bsm a p p l y ( KIf , 2 , mean ) 

############################################ 

# T e i l ( d ) : V e r g l e i c h d e r E r g e b n i s s e 

############################################ 

cat ( "============================================\n" ) 

cat ( " Die ␣ E r g e b n i s s e ␣ f u e r ␣ den ␣ Median : \ n" ) 

cat ( " T e i l ( a ) : \ t " , meda , "\n" ) 

cat ( " T e i l ( b ) : \ t " , medb . emp , "\n" ) 

cat ( " T e i l ( c ) : \ t " , medc . bs , "\n" ) 

cat ( " T e i l ( c ) ␣ E r w e i t e r u n g : \ t " , medf . bsm , "\n" ) 

cat ( "============================================\n" ) 

cat ( " Die ␣ E r g e b n i s s e ␣ f u e r ␣ d i e ␣ Streuung : \ n" ) 

 

cat ( " T e i l ( a ) : \ t " , s t r e u a , "\n" ) 

cat ( " T e i l ( b ) : \ t " , s t r e u b , "\n" ) 

 



Matthias Kohl 




1061

cat ( " T e i l ( c ) : \ t " , s t r e u c , "\n" ) 

cat ( " T e i l ( c ) ␣ E r w e i t e r u n g : \ t " , s t r e u f . bsm , "\n" ) 

cat ( "=============================================\n" ) 

cat ( " Die ␣ K o n f i d e n z i n t e r v a l l e : \ n" ) 

cat ( " T e i l ( a ) : \ t " , KIa , "\n" ) 

cat ( " T e i l ( b ) : \ t " , KIb , "\n" ) 

cat ( " T e i l ( c ) : \ t " , KIc , "\n" ) 

cat ( " T e i l ( c ) ␣ E r w e i t e r u n g : \ t " , K I f . bsm , "\n" ) 

cat ( "=============================================\n" ) 

 

 



Matthias Kohl 




1062


L.5.1 Maximale Lücke 

############################################ 


############################################ 

############################################ 

# z u e r s t mit " f o r " S c h l e i f e 

############################################ 

# Funktion z u r Berechnung d e r Minima 

# U1 i s t e i n Array d e r Dimension n x k x M 

minima f u n c t i o n (U1){ 

 

M dim (U1 ) [ 3 ] 

 



Matthias Kohl 




1063

n dim (U1 ) [ 1 ] 

minima v e c t o r ( " numeric " , l e n g t h=M) 

f o r ( i i n 1 :M){ 

U2 U1 [ , , i ] 

e r g I n f 

f o r ( j i n 1 : n ) 

f o r ( k i n 1 : n ){ 

i f ( k !=j ){ 

} 

e l s e { 

} 

vek U2 [ j ,] U2 [ k , ] 

e r g 1 t ( vek ) %£% vek 

e r g 1 I n f 

i f ( e r g > e r g 1 ) e r g e r g 1 

 



Matthias Kohl 




1064

} 

} 

k 2 

M 500 

# n = 5 

n 5 

} 

minima [ i ] e r g 

r e t u r n ( minima ) 

U1 

 

m a t r i x ( r u n i f (M£k£n , 0 , 1 ) , nrow=M£n , n c o l=k ) 

U1 a r r a y (U1 , dim=c ( n , k ,M) ) 

Min1 minima (U1) 

 



Matthias Kohl 




1065

# n = 25 

n 25 

U1 m a t r i x ( r u n i f (M£k£n , 0 , 1 ) , nrow=M£n , n c o l=k ) 



# n = 100 

n 100 




# n = 500 

n 500 

 



 



Matthias Kohl 




1066


summary ( Min1 ) 




# g r u p p i e r t e r Boxplot 

b o x p l o t ( l i s t ( Min1=Min1 , Min2=Min2 , Min3=Min3 , 

# neues G r a p h i k f e n s t e r 

windows ( ) 

par ( mfrow=c ( 2 , 2 ) ) 

 

Min4=Min4 ) , main=" B o x p l o t s " ) 

# 2 x 2 B i l d e r im G r a p h i k f e n s t e r 

h i s t ( Min1 , main="n=5" ) 

h i s t ( Min2 , main="n=25" ) 

 



Matthias Kohl 




1067

h i s t ( Min3 , main="n=100" ) 

h i s t ( Min4 , main="n=500" ) 

############################################ 

# v e k t o r w e r t i g e A l t e r n a t i v e im V e r g l e i c h 

# I d e e nur 2 d i m e n s i o n e n > h i e r " f o r " 

# n i c h t schlimm 

# a b e r v i e l e Beobachtungen > h i e r " f o r " 

# schlimm 

############################################ 

# v e k t o r w e r t i g e F o r m u l i e r u n g 

l u e c k e . vec f u n c t i o n ( n ) { #e r s t d i e x K o o r d i n a t e 

X . x r u n i f ( n ) 

# e r z e u g e e i n e Matrix mit i d e n t i s c h e n Z e i l e n 

X . xx1 m a t r i x (X . x , nrow=n , n c o l=n ) 

 



Matthias Kohl 




1068

# M a t r t i x mit i d e n t i s c h e n S p a l t e n 

X . xx2 t (X . xx1 ) 


X . xd (X . xx1 X . xx2 )^2 

# D i a g o n a l e aus Minimumbildung a u s s c h l i e s s e n 


# P l a t z machen 

rm(X . xx1 , X . xx2 ) 

# das g l e i c h e f u e r d i e y K o o r d i n a t e 

X . y r u n i f ( n ) 

X . yy1 

 

m a t r i x (X . y , nrow=n , n c o l=n ) 

X . yy2 t (X . yy1 ) 

X . yd (X . yy1 X . yy2 )^2 

 



Matthias Kohl 




1069



rm(X . yy1 , X . yy2 ) 

# A d d i t i o n d e r K o o r d i n a t e n 

} 

X . d X . xd + X . yd 


# Berechnen von M S i m u l a t i o n s d r u c h g a e n g e n 

# ohne " f o r " 

d l u e c k e . vec f u n c t i o n (X, n ){ l u e c k e . vec ( n )} 

Mluecke 

 

f u n c t i o n (M, n ){ 

s a p p l y ( 1 :M, d l u e c k e . vec , n=n )} 

 



Matthias Kohl 




1070

# Berechnen von M S i m u l a t i o n s d r u c h g a e n g e n 

# ohne " f o r " f u e r v e r s c h i e d e n e n 

Mnluecke f u n c t i o n (X, M, f k t=min ){ 

M 100 

 

f k t ( Mluecke (M=M, n=X) ) } 

n c ( 5 , 25 , 100 , 500) 

Minluecke f u n c t i o n (M, n , a f k t=min ){ 

s a p p l y ( n , Mnluecke ,M=M, f k t=a f k t )} 

Minluecke (M=M, n=n , summary ) 

Minluecke (M=M, n=n , h i s t ) 

Minluecke (M=M, n=n , b o x p l o t ) 

 



Matthias Kohl 




1071

L.5.2 Buffons Nadelproblem — Berechnung von 

II 

############################################ 


############################################ 

############################################ 

# H i l f e s t e l l u n g f u e r B u f f o n s Nadel Problem 

# Zeichnen d e r S t r e i f e n Enden 

############################################ 

# S t r e i f e n Abstand 

d 2 

############################################ 

 

# damit das ganze n i c h t p e r s p e k t i v i s c h 

 



Matthias Kohl 




1072

# v e r z e r r t w i r k t , s o l l das F e n s t e r e i n 

# Quadrat , h i e r [ 10 ,10]^2 , a b b i l d e n 

############################################ 

# x G i t t e r w e r t e 

x seq ( 10 , 10 , by=d ) 

m l e n g t h ( x ) 

# w i r verwenden d i e Funktion " l i n e s " 

# d i e s e v e r l a n g t j e w e i l s e i n Argument x und y : 

# j e w e i l s e i n e L i s t e d e r x [ y] K o o r d i n a t e n 

# d e r L i n i e n d e r Form 

# x1 1. Endpunkt , x1 2. Endpunkt ,NA (zum Trennen ! ) , 

# x2 1. Endpunkt , x2 2. Endpunkt ,NA (zum Trennen ! ) , 

# . . . 

# ( y e n t s p r e c h e n d ) 

 

# d i e Y K o o r d i n a t e n d e r S t r e i f e n Enden s i n d 

 



Matthias Kohl 




1073

# j e w e i l s 10 und 10 

y x£0 10 # d i e u n t e r e n K o o r d i n a t e n 

# j e t z t Erzeugung e i n e r Matrix xx d e r Form 

# x1 1,x1 2,NA 

# x2 2,x2 2,NA 

# . . . . 

# xm 1,xm 2,NA 

# 

# yy e n t s p r e c h e n d 

xx c b i n d ( x , x , x£NA) 

yy c b i n d ( y , y , y£NA) 

# Umwandeln i n d i e e n t s p r e c h e n d e n L i s t e n 

xx as . v e c t o r ( t ( xx ) ) 

 

yy as . v e c t o r ( t ( yy ) ) 

 



Matthias Kohl 




1074

# Erzeugen des K o o r d i n a t e n s s y s t e m s 

# ( e i g e n t l i c h P l o t d e r Punkte ( 10, 10) und ( 1 0 , 1 0 ) 

# a b e r d i e b e i d e n Punkte werden durch t y p e="n" 

# n i c h t g e p l o t t e t ; e b e n f a l l s k e i n e 

# x und y Achsenbezeichnung ) 



Matthias Kohl 

p l o t ( c ( 10 ,10) , c ( 10 ,10) , t y p e="n" , x l a b="" , y l a b="" ) R/S-plus für 

# nun d i e L i n i e n 

l i n e s ( x=xx , y=yy ) 

############################################ 

# T e i l ( a ) : Ziehung d e r Nadeln 

############################################ 

l 1 

N 10000 

 

# N a d e l m i t t e l p u n k t e 

 



1075

xmid r u n i f (N, min= 10, max=10) 

ymid r u n i f (N, min= 10, max=10) 

# Winkel 

a n g l r u n i f (N, min=0,max=2£ p i ) 

# Umrechnung i n Endpunkte 

c a n g l cos ( a n g l ) 

s a n g l s i n ( a n g l ) 

x l xmid l £ c a n g l /2 

x r xmid+l £ c a n g l /2 

y l ymid l £ s a n g l /2 

y r ymid+l £ s a n g l /2 

############################################ 

# T e i l ( b ) / ( c ) : S c h n i t t von Nadel i mit 

 



Matthias Kohl 




1076

# e i n e r S t r e i f e n g r e n z e j , f a l l s 

# s i g n ( x l [ i ] M[ i , j ]) s i g n ( x r [ i ] M[ i , j ] ) 

############################################ 

s x l s i g n ( x l t ( m a t r i x ( x , l e n g t h ( x ) , N) ) ) 

s x r s i g n ( x r t ( m a t r i x ( x , l e n g t h ( x ) , N) ) ) 

i n d a p p l y ( ( s x r £ s x l == 1), 1 , sum ) 

############################################ 

# T e i l ( d ) 

############################################ 

d l 1e 3 

dr 1e 3 

Pexakt f u n c t i o n ( n , pr=1/ pi , ob=1/ ( p i+d l ) , 

pbinom ( n£ob , s i z e=n , 

 

} 

unt=1/ ( p i+dr ) ) {# 

prob=pr ) pbinom ( n£ unt , s i z e=n , prob=pr ) 

 



Matthias Kohl 




1077

Pexakt (10^6) 

Pexakt (10^7) 

Pexakt (10^8) 

Pexakt ( . 8 5 £ 10^8) 

Pexakt ( . 8 2 £ 10^8) 

Pexakt ( . 8 1 £ 10^8) 

Pexakt ( . 8 1 5 £ 10^8) 

Pexakt ( . 8 1 3 £ 10^8) 

Pexakt ( . 8 1 2 £ 10^8) 

Pexakt ( . 8 1 2 5 £ 10^8) 

Pexakt ( . 8 1 2 3 £ 10^8) 

Pexakt ( . 8 1 2 1 £ 10^8) 

Pexakt ( . 8 1 2 0 £ 10^8) 

Pexakt ( . 8 1 2 0 5 £ 10^8) 

 

Pexakt ( . 8 1 2 0 1 £ 10^8) 

Pexakt (81201000) 

 



Matthias Kohl 




1078

Pexakt (81200000) 

# zu ungenau ! 

### 

############################################ 

# T e i l ( e ) 

############################################ 

# V o r b e r e i t u n g f u e r l i n e s 

XX c b i n d ( x l , xr , x r £NA) 

YY c b i n d ( y l , yr , y r £NA) 

l i n e s ( l i s t ( x=as . v e c t o r ( t (XX) ) , y=as . v e c t o r ( t (YY) ) ) , 

l t y =1) 

# S c h n i t t Nadeln i n r o t 

XXc XX[ i n d ==1,] 

YYc YY[ i n d ==1,] 

 

l i n e s ( l i s t ( x=as . v e c t o r ( t (XXc ) ) , y=as . v e c t o r ( t (YYc ) ) ) , 

l t y =1, c o l=" r e d " ) 

 



Matthias Kohl 




1079

1/mean ( i n d ) 

############################################ 

# T e i l ( f ) : Methode B l a t t 4 Aufgabe 2 v i e l 

# b e s s e r ( ca . Faktor 100 mal w e n i g e r 

# Beobachtungen n o e t i g f u e r g l e i c h e 

# G e n a u i g k e i t ) 

############################################ 

 

 



Matthias Kohl 




1080

L.5.3 Dichteplot 

############################################ 


############################################ 

############################################ 

# T e i l ( a ) 

############################################ 

d i c h t e p l o t f u n c t i o n ( v t l g , typ , . . . ) { 

q u a r t numeric ( 3 ) 

f o r ( i i n 1 : 3 ) 

e v a l ( p a r s e ( t e x t=p a s t e ( " q u a r t [ i ] q" , v t l g , 

" ( i / 4 , ␣ . . . ) " , sep="" ) ) ) 

e v a l ( p a r s e ( t e x t=p a s t e ( " l i n k s q" , 

 

v t l g , " ( 0 . 0 5 , ␣ . . . ) " , sep="" ) ) ) 

 



Matthias Kohl 




1081

e v a l ( p a r s e ( t e x t=p a s t e ( " r e c h t s q" , 

i f ( typ==" d i s k r e t " ){ 

} 

e l s e { 

v t l g , " ( 0 . 9 5 , ␣ . . . ) " , sep="" ) ) ) 

x seq ( from=l i n k s , to=r e c h t s , by=1) 


p a s t e ( " p l o t ( x , d" , v t l g , " ( x , . . . ) , " , 

" t y p e=\" s \" , ␣ y l a b=\"WS Funktion \" ) " , 

sep="" ) ) ) 

t i t l e ( p a s t e ( " B e i s p i e l ␣ e i n e r ␣WS Funktion " , 

" f u e r ␣ d i e ␣ V e r t e i l u n g s k l a s s e " , v t l g ) ) 

x seq ( from=l i n k s , to=r e c h t s , by =0.01) 


p a s t e ( " p l o t ( x , d" , v t l g , " ( x , . . . ) , " , 

" t y p e=\" l \" , ␣ y l a b=\" D i c h t e \" ) " , 

 



Matthias Kohl 




1082

} 

} 

sep="" ) ) ) 

t i t l e ( p a s t e ( " B e i s p i e l ␣ e i n e s ␣ D i c h t e p l o t s " , 

r e t u r n ( as . l i s t ( q u a r t ) ) 

" f u e r ␣ d i e ␣ V e r t e i l u n g s k l a s s e " , v t l g ) ) 

############################################ 

#T e i l ( b ) 

############################################ 

# prompt ( d i c h t e p l o t ) 

# E r z e u g t D a t e i d i c h t e p l o t . Rd im a k t u e l l e n 

# V e r z e i c h n i s 

# E i n f a c h e s 

 

E d i t i e r e n i n einem E d i t o r m o e g l i c h 

# A n s c h l i e s s e n d : K opieren d e r D a t e i i n das 

# V e r z e i c h n i s "man" 

 



Matthias Kohl 




1083

# d e r l i b r a r y , zu d e r d i e Funktion g e h o e r t 

 

 



Matthias Kohl 




1084

L.5.4 Schleifen – Schleifenvermeidung – 

Laufzeitvergleich 

############################################ 


############################################ 

############################################ 

# T e i l ( a ) 

############################################ 

f o r . s c h l e i f e f u n c t i o n ( a , b ){ 

n l e n g t h ( a ) 

m l e n g t h ( b ) 

s numeric (m) 

f o r ( i i n 1 :m) 

 

f o r ( j i n 1 : n ){ 

 



Matthias Kohl 




1085

} 

} 

i t e r i 0 

 

i f ( a [ j ]

} 

} 

i t e r j 0 

w h i l e ( i t e r j < n ){ 

} 

r e t u r n ( s ) 

s 

 

numeric (m) 

i t e r j i t e r j + 1 

i f ( a [ i t e r j ]

} 

r e p e a t { 

} 

i t e r i i t e r i + 1 

i t e r j 0 

r e p e a t { 

} 

i t e r j i t e r j + 1 

i f ( a [ i t e r j ]

} 

} 

M o u t e r ( as . numeric ( names ( at ) ) , b , "

############################################ 

# T e i l ( c ) 

############################################ 

a r p o i s (5000 , lambda=8) 

b r p o i s (50 , lambda =12) 

system . time ( e r g . f o r v e r g l e i c h ( a=a , b=b , 

v e r f a h r e n=" f o r . s c h l e i f e " ) ) 

system . time ( e r g . w h i l e v e r g l e i c h ( a=a , b=b , 

v e r f a h r e n=" w h i l e . s c h l e i f e " ) ) 

system . time ( e r g . r e p e a t v e r g l e i c h ( a=a , b=b , 

v e r f a h r e n=" r e p e a t . s c h l e i f e " ) ) 

system . time ( e r g . k e i n e 

 

v e r g l e i c h ( a=a , b=b , 

v e r f a h r e n=" k e i n e . s c h l e i f e " ) ) 

 



Matthias Kohl 




1090

L.5.5 Adaptives Verfahren zur 2-dimensionalen 


############################################ 


############################################ 

############################################ 

# T e i l ( a ) 

############################################ 

a r e a 2 f u n c t i o n ( f , a , b , c , d , M=10, l i m i t =10, 

{ 

# p r i n t ( i t e r ) 

i t e r =1, eps=1e 5, . . . ) 

x1 r u n i f (M, min=a , max=b ) 

y1 r u n i f (M, min=c , max=d ) 

 

i n t 1 ( b a ) £ ( d c ) £mean ( f ( x1 , y1 , . . . ) ) 

 



Matthias Kohl 




1091

# c a t (" i n t 1 : \ t " , i n t 1 , "\n ") 

x2 r u n i f (M, min=a , max=b ) 

y2 r u n i f (M, min=c , max=d ) 

i n t 2 ( b a ) £ ( d c ) £mean ( f ( x2 , y2 , . . . ) ) 

# c a t (" i n t 2 : \ t " , i n t 2 , "\n ") 

i f ( abs ( i n t 1 i n t 2 ) < eps ) r e t u r n ( ( i n t 1+i n t 2 ) / 2) 

i f ( l i m i t ==0) 

{ 

} 

i f ( ( i t e r%%2)==0) 

{ 

warning ( " Maximale ␣ R e k u r s i o n s t i e f e ␣ e r r e i c h t ! " ) 

r e t u r n ( ( i n t 1+i n t 2 ) / 2) 

 



Matthias Kohl 




1092

} 

} 

e l s e 

{ 

} 

m ( c+d ) /2 

( R e c a l l ( f , a , b , c , m, l i m i t=l i m i t 1, 

i t e r=i t e r +1, eps=eps , . . . ) + 

R e c a l l ( f , a , b , m, d , l i m i t=l i m i t 1, 

m ( a+b ) /2 

i t e r=i t e r +1, eps=eps , . . . ) ) 

( R e c a l l ( f , a , m, c , d , l i m i t=l i m i t 1, 

i t e r=i t e r +1, eps=eps , . . . ) + 

R e c a l l ( f , m, b , c , d , l i m i t=l i m i t 1, 

i t e r=i t e r +1, eps=eps , . . . ) ) 

 



Matthias Kohl 




1093

############################################ 

# T e i l ( b ) 

############################################ 

f b e t a . tmp f u n c t i o n ( x , y , alph , bet ) 

{ 

} 

a s s i g n ( " v a l x " , c ( v a l x , x ) , e n v i r=s y s . frame ( 0 ) ) 

a s s i g n ( " v a l y " , c ( v a l y , y ) , e n v i r=s y s . frame ( 0 ) ) 

i f ( x^2+y^2 > 1) 

{ 

} 

e l s e 

r e t u r n ( 0 ) 

{ ww s q r t ( x^2+y ^2)^( alph 1) 

wwww£(1 s q r t ( x^2+y ^2))^( bet 1) 

r e t u r n (ww) 

 



Matthias Kohl 




1094

} 

a s s i g n ( " v a l x " , NULL , e n v i r=s y s . frame ( 0 ) ) 

a s s i g n ( " v a l y " , NULL , e n v i r=s y s . frame ( 0 ) ) 

system . time ( i n t a r e a 2 ( f b e t a . tmp , a= 1, b=1, c= 1, 

par ( pch="£" ) 

p l o t ( v a l x , v a l y , t y p e="p" , 

 

d=1, M=10, l i m i t =10, a l p h =3, 

bet =2)) 

x l a b="x Achse " , y l a b="y Achse " ) 

t i t l e ( " A u s w e r t u n g s s t e l l e n ␣ d e r ␣ I n t e g r a t i o n " ) 

 



Matthias Kohl 




1095


L.6.1 Visualisierung 

############################################ 


############################################ 

# PFAD "C : / E i gene D a t e i e n / . . . /" 

############################################ 

# T e i l ( a ) 

############################################ 

# B l a t t 4 Aufgabe 2 

n 1000 

 

U m a t r i x ( r u n i f ( n=2£n , min=0, max=1) , 

 



Matthias Kohl 




1096

nrow=n , n c o l =2) 

############################################ 

# T e i l ( b ) 

############################################ 

K ( (U[ ,1] 0.5)^2 + (U[ ,2] 0.5)^2 N( 0 , p(1 p ) ) 

# mit p_n r e l a t i v e r A n t e i l s w e r t ; 

 



Matthias Kohl 




1097

# k o n s e r v a t i v : p(1 p) 10^ 6)= 

# P( s q r t ( n ) | p_n p|> s q r t ( n ) 10^ 6) 

# ~ P ( | N(0 , 1 /4)| > s q r t ( n ) 10^ 6) != 0 . 9 5 

# Phi (2 s q r t ( n ) 10^ 6) >= 0.975 

# 2 s q r t ( n ) 10^ 6 >= Phi ^ 1(0.975) 

# s q r t ( n ) >= 2 Phi ^ 1(0.975) 10^6 

# n >= 4 x 10^12 

############################################ 

# Berechnung und P l o t des K r e i s e s 

############################################ 

x seq ( from =0, to =1, by =0.001) 

 

y1 0 . 5 + s q r t ( x x ^2) 

y2 0 . 5 s q r t ( x x ^2) 

 



Matthias Kohl 




1098

l i 0.2 

r e 1 . 3 

par ( c o l =1) 

p l o t ( x , y1 , t y p e=" l " , x l i m=c ( l i , r e ) , y l i m=c ( l i , r e ) , 

x l a b="x Achse " , y l a b="y Achse " , lwd =2) 

l i n e s ( x , y2 , lwd =2) 

# P l o t des Quadrates 

l i n e s ( c ( 0 , 1 , 1 , 0 , 0 ) , c ( 0 , 0 , 1 , 1 , 0 ) , lwd =2) 

# P l o t d e r Punkte 

im . K r e i s U£K 

im . K r e i s m a t r i x ( im . K r e i s [ im . K r e i s !=0 ] , 

aus . K r e i s U£(1 K) 

 

nrow=sum (K) , n c o l =2) 

aus . K r e i s m a t r i x ( aus . K r e i s [ aus . K r e i s !=0 ] , 

nrow=sum(1 K) , n c o l =2) 

 



Matthias Kohl 




1099

par ( c o l =2, pch=1) 

p o i n t s ( im . K r e i s [ , 1 ] , im . K r e i s [ , 2 ] ) 

par ( c o l =3, pch=4) 

p o i n t s ( aus . K r e i s [ , 1 ] , aus . K r e i s [ , 2 ] ) 

par ( c o l =1) 

t i t l e ( p a s t e ( " Schätzung ␣ d e r ␣ K r e i s z a h l ␣ p i ␣=␣" , 

round ( pi , 6 ) ) ) 

legend ( l i , re , legend=c ( "im␣ K r e i s " , " a u s s e r h a l b " ) , 

t e x t ( 0 . 5 , 0.1 , 

pch=c ( 1 , 4 ) , c o l=c ( 2 , 3 ) ) 

l a b e l s=p a s t e ( " Der ␣ a k t u e l l e ␣ S c h ä t z w e r t ␣ f ü r ␣ p i ␣ i s t " , 

p i . emp ) ) 

#dev . o f f ( ) 

############################################ 

 



Matthias Kohl 




1100

# T e i l ( b ) 

############################################ 

# B l a t t 5 Aufgabe 1 

l u e c k e . vec f u n c t i o n ( n ) { #e r s t d i e x K o o r d i n a t e 

X . x r u n i f ( n ) 

# e r z e u g e e i n e Matrix mit i d e n t i s c h e n Z e i l e n 

X . xx1 m a t r i x (X . x , nrow=n , n c o l=n ) 

# M a t r t i x mit i d e n t i s c h e n S p a l t e n 

X . xx2 t (X . xx1 ) 


X . xd (X . xx1 X . xx2 )^2 

# D i a g o n a l e 

 

aus Minimumbildung a u s s c h l i e s s e n 


 



Matthias Kohl 




1101


rm(X . xx1 , X . xx2 ) 

# das g l e i c h e f u e r d i e y K o o r d i n a t e 

X . y r u n i f ( n ) 

X . yy1 m a t r i x (X . y , nrow=n , n c o l=n ) 

X . yy2 t (X . yy1 ) 

X . yd (X . yy1 X . yy2 )^2 



rm(X . yy1 , X . yy2 ) 

# A d d i t i o n d e r K o o r d i n a t e n 

X . d 

 

s q r t (X . xd + X . yd ) 

# Minimum und M i n i m a l s t e l l e 

 



Matthias Kohl 




1102

mi min (X . d ) 

i n d X . d==mi 

i n d [ row ( i n d )> c o l ( i n d ) ] FALSE 

i n d . x cumsum( a p p l y ( ind , 1 , sum ) ) 

i n d . x1 sum ( i n d . x==0) + 1 

i n d . y cumsum( a p p l y ( ind , 2 , sum ) ) 

i n d . y1 sum ( i n d . y==0) + 1 

# m o d i f i z i e r t : 

# png ( p a s t e (PFAD, "BL6Aufg1 . png " , 

# c o l l a p s e ="", sep ="")) 

# win . m e t a f i l e ( f i l e n a m e=p a s t e (PFAD, "BL6Aufg1 . wmf" , 

# c o l l a p s e ="", sep ="")) 

p l o t (X . x , X . y ) 

 

l i n e s ( c (X . x [ i n d . x1 ] , X . x [ i n d . y1 ] ) , 

c (X . y [ i n d . x1 ] , X . y [ i n d . y1 ] ) , c o l=" g r e e n " ) 

 



Matthias Kohl 




1103

e t u r n ( l i s t ( mat1=X . x , mat2=X . y , 

# dev . o f f ( ) 

} 

i n d 1=i n d . x1 , i n d 2=i n d . y1 ) ) 


e r g l u e c k e . vec ( 2 0 ) 

############################################ 

# T e i l ( c ) 

############################################ 

n 50 

M 10 

# l e i d e r g i b t e s u n s e r e s Wissens nach 

# k e i n e f o r / w h i l e f r e i e M o e g l i c h k e i t 

 



Matthias Kohl 




1104

# f e s t z u s t e l l e n , ob e s i n einem l o g i s c h e n 

# Vektor X Folgen d e r Laenge m von "TRUE" 

# g i b t daher : 

g i b t r u n s f u n c t i o n (X, m){ 

r e t u r n (wm) 

 

} 

i 0 

w1 0 

wm FALSE 

n l e n g t h (X) 

w h i l e ( ( i =m) 

 



Matthias Kohl 




1105

walk . 1 f u n c t i o n ( n ){ 

} 

s c h r i t t sample ( c ( 1 , 1 ) , n , r e p l a c e=T) 

pfad cumsum( s c h r i t t ) 

mwalks . 1 f u n c t i o n (X, n ){ mwalk . 1 ( n )} 

Pfade . 1 f u n c t i o n (M, n ){ s a p p l y ( 1 :M, mwalk . 1 , n=n )} 

e r g Pfade (M, n ) 

r w a l k f u n c t i o n ( n , M, f o l g =4){ 

Pfade . x Pfade (M, n ) 

Pfade . y Pfade (M, n ) 

missM numeric (M) 

missM [ 1 :M] NA 

 

x l i min ( Pfade . x ) 1 

 



Matthias Kohl 




1106

x r e max( Pfade . x ) + 1 

y l i min ( Pfade . y ) 1 

y r e max( Pfade . y ) + 1 

# Test im e r s t e n Quadranten 

p f . im1 ( Pfade . x >0)£ ( Pfade . y >0) 

v i e r . s p a l t e . im1 a p p l y ( pf . im1 , 2 , g i b t r u n s , 

# Test im d r i t t e n Quadranten 

m=f o l g )>0 

# e r g i b t I n d i k a t o r welche d e r S p a l t e n / Pfade 4 

# mal a u f e i n a n d e r f o l g e n d im 1 . Quadranten 

# Test im z w e i t e n Quadranten 

p f . im2 ( Pfade . x 0) 

v i e r . s p a l t e . im2 a p p l y ( pf . im2 , 2 , g i b t r u n s , 

m=f o l g )>0 

 



Matthias Kohl 




1107

p f . im3 ( Pfade . x >0)£ ( Pfade . y 0 

p f . im4 ( Pfade . x

Pfade4 . ym r b i n d ( j i t t e r ( Pfade . y [ , v i e r . s p a l t e ==1], 

# p r i n t ( Pfade4 . xm) 



Matthias Kohl 


# c o l l a p s e ="", sep ="")) 


# win . m e t a f i l e ( f i l e n a m e=p a s t e (PFAD, " BL6Aufg1_2 . wmf" , Fortgeschrittene 

# l i n e s ( Pfade4 . xm , Pfade4 . ym) 

 

amount =0.2) , missM [ v i e r . s p a l t e ==1]) 

p f z a h l ( dim ( Pfade4 . xm ) ) [ 2 ] 

# png ( p a s t e (PFAD, " BL6Aufg1_2 . png " , 

# c o l l a p s e ="", sep ="")) 

p l o t ( c ( x l i , x r e ) , c ( y l i , y r e ) , t y p e="n" , 

x l a b="" , y l a b="" ) 

# entweder a l l e a u f e i n m a l 

# oder a l s S c h l e i f e mit v e r s c h i e d e n e n Farben 

 

1109

i 0 

w h i l e ( i

L.6.2 Bundestagswahl 2002 

############################################ 


############################################ 

# Pfad 

PFAD "C : / E i gene ␣ D a t e i e n / . . . /" 

# 

Filename " wahlen2 . t x t " 

wahl read . t a b l e ( f i l e = 

p r i n t ( wahl ) 

wahl r b i n d ( wahl , wahl [3 ,] a p p l y ( wahl [ 4 : 8 , ] , 

 

2 , sum ) ) 

p a s t e (PFAD, Filename , c o l l a p s e="" , sep="" ) , 

row . names=1, h eader=T, s k i p =1, sep="\ t " ) 

 



Matthias Kohl 




1111

ow . names ( wahl ) [ 9 ] " S o n s t i g e " 

wahl r b i n d ( wahl , wahl [1 ,] wahl [ 2 , ] ) 

row . names ( wahl ) [ 1 0 ] " N i c h t w a e h l e r " 

p r i n t ( wahl ) 

############################################ 

# T e i l ( b )&( c ) 

############################################ 

# png ( p a s t e (PFAD, " BL6Aufg2 . png " , 

# c o l l a p s e ="", sep ="") , width =900 , h e i g h t =600) 

# win . m e t a f i l e ( f i l e n a m e=p a s t e (PFAD, " BL6Aufg2 . wmf" , 

# c o l l a p s e ="", sep ="")) 

d e f . par par ( no . r e a d o n l y = TRUE) 

# zu l a y o u t : mat Parameter r e g e l t , i n w e l c h e r 

# R e i h e n f o l g e d i e P a n e l s bemalt werden ; wenn 

# e i n e Zahl 2x a u f a u c h t h e i s s t das , d a s s d i e 

 



Matthias Kohl 




1112

# e n t s p r e c h e n d e n P a n e l s v e r e i n i g t werden und 

# b e p l o t t e t werden 

l a y o u t ( mat=m a t r i x ( c ( 1 , 2 , 1 , 3 ) , n c o l =2)) 

matplot ( l o g ( t ( wahl [ 4 : 1 0 , ] ) ) , t y p e=" l " , 

c o l=c ( " r e d " , " b l a c k " , " g r e e n " , " y e l l o w " , 

" p i n k " , " g r e y " , " b l u e " ) , lwd =2, 

x l a b=" Bundesland " , y l a b=" W a e h l e r z a h l " , 

a x e s=F , l t y =1, y l i m=c ( l o g (1 e3 ) , 

l o g ( 2 . 5 £10 e6 ) ) ) 

a x i s ( 1 , at =1:6 , l a b e l s=names ( wahl ) [ 1 : 6 ] ) 

a x i s ( 2 , at=l o g ( c (1 e3 , 1e4 , 1e5 , 1e6 , 5 e6 ) ) , 

box ( ) 

l a b e l s=as . c h a r a c t e r ( c (1 e3 , 1e4 , 1e5 , 1e6 , 5 e6 ) ) ) 

t i t l e ( p a s t e ( " Bundestagswahl ␣ 2002: ␣" , 

 

" a u s g e w a e h l t e ␣ B u n d e s l a e n d e r " ) ) 

legend ( 1 , l o g (1 e4 ) , legend=row . names ( wahl ) [ 4 : 1 0 ] , 

 



Matthias Kohl 




1113

n c o l =3, cex =0.6 , 

f i l l =c ( " r e d " , " b l a c k " , " g r e e n " , 

" y e l l o w " , " p i n k " , " g r e y " , " b l u e " ) ) 

# a b s o l u t e Zahlen i n f a r b i g e n Bar P l o t s 

names ( wahl ) c ( "BAY" , "B W" , "B" , "SAC" , 

"NRW" , "GES" ) 

wahl . gruppen as . m a t r i x ( wahl [ 4 : 1 0 , ] ) 

# U n t e r s c h e i d u n g mit Farben 

l o c b a r p l o t ( wahl . gruppen , 

c o l=c ( " r e d " , " b l a c k " , " g r e e n " , " y e l l o w " , 

" p u r p l e " , " g r e y " , " b l u e " ) , 

b e s i d e=T) 

t o t a l a p p l y ( wahl . gruppen , 2 , sum ) 

# t e x t ( l o c , 

 

t o t a l + par (" cxy " ) [ 2 ] , t o t a l , cex =0.5 , 

# xpd=T) 

t i t l e ( " Ausgewaehlte ␣ B u n d e s l a e n d e r " , cex =2) 

 



Matthias Kohl 




1114

# p r i n t ( l o c a t o r ( 1 ) ) 

i f ( i n t e r a c t i v e ()==T){ 

} 

e l s e { 

l e g e n d ( l o c a t o r ( 1 ) , legend=row . names ( wahl . gruppen ) , 

n c o l =2, cex =0.5 , f i l l =c ( " r e d " , " b l a c k " , 

" g r e e n " , " y e l l o w " , " p u r p l e " , " g r e y " , 

" b l u e " ) ) 

l e g e n d ( xy , 3 . 5 , max( wahl . gruppen ) , 

legend=row . names ( wahl . gruppen ) , n c o l =2, 

cex =0.5 , f i l l =c ( " r e d " , " b l a c k " , " g r e e n " , 

# U n t e r s c h e i d u n g 

 

mit S c h r a f f u r e n 

" y e l l o w " , " p u r p l e " , " g r e y " , " b l u e " ) ) } 

# r e l a t i v e Zahlen i n f a r b i g e n Bar P l o t s 

# a l l e b i s a u f N i c h t w a e h l e r b e z i e h e n s i c h 

# a u f g u e l t i g e Stimmen 

 



Matthias Kohl 




1115

wahl . gruppen . r e l t ( t ( wahl . gruppen ) / 

as . v e c t o r ( t ( as . m a t r i x ( wahl [ 3 , ] ) ) ) ) £ 100 

# N i c h t w a e h l e r b e z i e h e n a u f a l l e B e r e c h t i g t e n 

wahl . gruppen . r e l [ 7 , ] t ( t ( wahl . gruppen [ 7 , ] ) / 

as . v e c t o r ( t ( as . m a t r i x ( wahl [ 1 , ] ) ) ) ) £ 100 

p r i n t ( wahl . gruppen . r e l ) 



Matthias Kohl 


l o c b a r p l o t ( wahl . gruppen . r e l , a n g l e =(1:7) £ 360/ 7 , Einsteiger und 

d e n s i t y =(1:7) £ 5 , c o l=c ( " r e d " , " b l a c k " , Fortgeschrittene 

" g r e e n " , " y e l l o w " , " p u r p l e " , " g r e y " , 

" b l u e " ) ) 

t o t a l a p p l y ( wahl . gruppen . r e l , 2 , sum ) 

# t e x t ( l o c , t o t a l + par (" cxy " ) [ 2 ] , t o t a l , cex =0.5 , 

# xpd=T) 

t i t l e ( " Ausgewaehlte ␣ B u n d e s l a e n d e r " , cex =2) 

legend ( 1 . 5 , 

 

30 , legend=row . names ( wahl . gruppen ) , 

n c o l =2, cex =0.5 , 

f i l l =c ( " r e d " , " b l a c k " , " g r e e n " , 

 

1116

#dev . o f f ( ) 

 

" y e l l o w " , " p u r p l e " , " g r e y " , " b l u e " ) ) 

 



Matthias Kohl 




1117

L.6.3 Multivariate Konvexkombination 

############################################ 


############################################ 


n 100 

############################################ 

# T e i l ( a ) 

############################################ 

k 2 #Dimension 

r 0 . 1 #K o n t a m i n a t i o n s r a d i u s 

muid c ( 0 , 0 ) 

mucont c ( 1 , 1 ) 

 

Sid m a t r i x ( c (1 , 1 , 1 ,2) , nrow=k , n c o l=k ) 

 



Matthias Kohl 




1118

Scont d i a g ( rep ( 0 . 6 4 , k ) ) 

Y m a t r i x ( rnorm ( k£n ) , nrow=k , n c o l=n ) 

Xid S i d %£% Y + muid 

Xcont Scont %£% Y + mucont 

# " P r o t o k o l l " : Ub==1 Kontamination 

Ub rbinom ( n=n , s i z e =1, prob=r ) 

Ub r b i n d (Ub , Ub) 

Xb (1 Ub) £ Xid + Ub£ Xcont 

Xbcont Ub£ Xcont 

Xbcont m a t r i x ( Xbcont [ Xbcont !=0 ] , nrow=2) 

############################################ 

# T e i l ( b ) 

############################################ 

 

r qnorm (1 0.025) 

z e r l svd ( S i d%£%S i d ) 

 



Matthias Kohl 




1119

t h e t a seq ( from =0, to=2£ pi , by =0.01) 

X r b i n d ( r £ cos ( t h e t a ) £ s q r t ( z e r l $d [ 1 ] ) , 

r £ s i n ( t h e t a ) £ s q r t ( z e r l $d [ 2 ] ) ) 

X z e r l $u %£% X 

# Grenzen f ü r d i e P l o t s 

r e c e i l i n g (max(Xb [ 1 , ] , X [ 1 , ] ) ) 

l i f l o o r ( min (Xb [ 1 , ] , X [ 1 , ] ) ) 

ob c e i l i n g (max(Xb [ 2 , ] , X [ 2 , ] ) ) 

un f l o o r ( min (Xb [ 2 , ] , X [ 2 , ] ) ) 

# png ( p a s t e (PFAD, " BL6Aufg3 . png " , 

# c o l l a p s e ="", sep ="")) 

# win . m e t a f i l e ( f i l e n a m e=p a s t e (PFAD, 

# 

 

"BL6Aufg3 . wmf" , c o l l a p s e ="", sep ="")) 

par ( mfrow=c ( 1 , 1 ) , c o l=" dark ␣ r e d " ) 

 



Matthias Kohl 




1120

p l o t (X [ 1 , ] , X [ 2 , ] , t y p e=" l " , x l a b="X1" , y l a b="X2" , 

x l i m=c ( l i , r e ) , y l i m=c ( un , ob ) , lwd =2) 

############################################ 

#T e i l ( c ) 

############################################ 

Xbu z e r l $u %£% Xb 

i n d 1 ( ( Xbu [ 1 , ] ^ 2 / z e r l $d [ 1 ] + 

Xbu [ 2 , ] ^ 2 / z e r l $d [ 2 ] )

Xid . a2 (1 i n d 1 ) £Xb [ 2 , ] 

Xid . a1 Xid . a1 [ Xid . a1 !=0 ] 

Xid . a2 Xid . a2 [ Xid . a2 !=0 ] 

Xbcontu z e r l $u %£% Xbcont 

i n d 2 ( ( Xbcontu [ 1 , ] ^ 2 / z e r l $d [ 1 ] + 

Xbcontu [ 2 , ] ^ 2 / z e r l $d [ 2 ] )

par ( c o l=" b l a c k " ) 

p l o t ( 0 , 0 , t y p e="n" , x l a b="X1" , y l a b="X2" , 

 

x l i m=c ( l i , r e ) , y l i m=c ( un , ob ) ) 

par ( c o l=" g r e e n " ) 

p o i n t s ( Xid . i1 , Xid . i 2 ) 

par ( c o l=" b l u e " ) 

p o i n t s ( Xid . a1 , Xid . a2 ) 

par ( c o l=" r e d " ) 

p o i n t s ( Xbcont . i1 , Xbcont . i 2 ) 

par ( c o l=" orange " ) 

p o i n t s ( Xbcont . a1 , Xbcont . a2 ) 

par ( c o l=" b l a c k " ) 

t i t l e ( e x p r e s s i o n ( p a s t e ( " B i v a r i a t e ␣ Konvexkombination ␣" , 

 



Matthias Kohl 




(1 r ) , i t a l i c (N) , " ( " , mu[ i d ] , " , " , S [ i d ]^2 , " ) ␣" , 

+ r , i t a l i c (N) , 

" ) " ) ) ) 

" ( " , mu[ cont ] , " , " , S [ cont ]^2 , 

1123

t e x t ( 0 . 5 , 3 , "95%␣ K o n f i d e n z i n t e r v a l l " , c o l=" dark ␣ r e d " , 

 

cex =1.1) 

legend ( l i , un+4, legend=c ( " i d e a l ␣ i n n e r h a l b " , 

" i d e a l ␣ a u s s e r h a l b " , " kont ␣ i n n e r h a l b " , 

" kont ␣ a u s s e r h a l b " ) , pch =1, 

c o l=c ( " g r e e n " , " b l u e " , " r e d " , " orange " ) ) 


#dev . o f f ( ) 

" i d e a l ␣ a u s s e r h a l b " , " kont ␣ i n n e r h a l b " , 

" kont ␣ a u s s e r h a l b " ) , pch =1, 


 



Matthias Kohl 




1124

L.6.4 Regressionsplots 

############################################ 


############################################ 


############################################ 

# T e i l ( a ) 

############################################ 

n 16 

eps rnorm (16 , sd =2) 

X 5:10 

t h e t a 2 

 

a l p h a 1 

 



Matthias Kohl 




1125

Y t h e t a £X+a l p h a+eps 

############################################ 

# T e i l ( b ) 

############################################ 

Z exp (Y) 

p l o t (X, Z , t y p e="p" , y l i m=c ( min (Z ) , 

max(Z , exp ( t h e t a £X+a l p h a ) ) ) , 

x l a b="X" , y l a b="Z" ) 


# c o l l a p s e ="", sep ="")) 

par ( new=T) 

p l o t (X, exp ( t h e t a £X+a l p h a ) , t y p e=" l " , 

y l i m=c ( min (Z ) , max(Z , exp ( t h e t a £X+a l p h a ) ) ) , 

 

#dev . o f f ( ) 

x l a b="X" , y l a b="Z" ) 

 



Matthias Kohl 




1126

############################################ 

# T e i l ( c ) 

############################################ 


# c o l l a p s e ="", sep ="")) 

windows ( ) 

p l o t (X, Y, t y p e="p" , x l i m=c ( 5 , 10) , a x e s=F , 

y l i m=c ( min (Y) , max(Y) ) , x l a b="X" , 

y l a b="" ) 

a x i s ( 2 , at=c ( 10 , 5, 0 , 5 , 10 , 15 , 20 , 25) , 

l a b e l s=c ( " 10" , " 5" , "0" , "5" , "10" , 

"15" , "20" , "25" ) ) 

a x i s ( 4 , 

 

at=c ( 10 , 5, 0 , 5 , 10 , 15 , 20 , 25) , 

l a b e l s=c ( "4e 5" , "7e 3" , "1" , " 1 . 5 e2 " , 

" 2 . 2 e4 " , " 3 . 2 7 e7 " , " 4 . 8 5 e8 " , 

 



Matthias Kohl 




1127

" 7 . 2 0 e10 " ) ) 

a x i s ( 1 , at=c ( 5 , 1, 0 , 1 , 5 , 10) , 

box ( ) 

par ( new=T) 

l a b e l s=c ( 5 , 1, 0 , 1 , 5 , 1 0 ) ) 

p l o t (X, t h e t a £X+alpha , t y p e=" l " , 

x l i m=c ( 5 , 10) , a x e s=F , y l i m=c ( min (Y) , 

max(Y) ) , x l a b="X" , y l a b="" ) 

t i t l e ( " Nicht l i n e a r e ␣ R e g r e s s i o n " ) 

#dev . o f f ( ) 

 



Matthias Kohl 




1128

L.6.5 Powerpoint-Präsentation 

 

 



Matthias Kohl 




1129


L.7.1 Shapiro-Wilk, Kolmogorov-Smirnov, 

-Anpassungstest 

############################################ 


############################################ 


FILENAME " normal . t x t " 

# 

normal read . t a b l e ( f i l e =p a s t e (PFAD, FILENAME , 

a t t a c h ( normal ) 

 

names ( normal ) 

sep="" , c o l l a p s e="" ) , header=T) 

 



Matthias Kohl 




1130

e q u i r e ( c t e s t ) 

###################### 

### Shapiro Wilk Test 

###################### 

s h a p i r o . t e s t ( x ) 

# => k e i n e s w e g s a b l e h n e n 

############################## 

### Kolmogoroff S m i r n o f f Test 

############################## 

# Frage : NV mit welchen Parametern i n K S Test ? 

# mit 

 

vorgegebenen ( t h e o r e t i s c h e n ) 

ks . t e s t ( x , "pnorm" , mean=1, sd=s q r t ( 3 ) ) 

# => a b l e h n e n ( hoch s i g n i f i k a n t ! ) 

 



Matthias Kohl 




1131

# mit denen , so d a s s das Ablehnen am s c h w i e r i g s t e n i s t 

k s 2 d i s t f u n c t i o n ( theta , XX){ 

} 

ks . t e s t (XX, "pnorm" , mean=t h e t a [ 1 ] , 

############### 

 

sd=t h e t a [ 2 ] ) $ s t a t i s t i c 

k m i n 2 d i s t f u n c t i o n (XX, t h e t a 0=c ( 0 , 1 ) ) { 

} 

optim ( par=theta0 , f n=k s 2 d i s t , XX=XX) $ par 

th k m i n 2 d i s t ( x ) 

p r i n t ( th ) 

ks . t e s t ( x , "pnorm" , mean=th [ 1 ] , sd=th [ 2 ] ) 

# => k e i n e s w e g s a b l e h n e n 

### c h i ^2 Test 

############### 

 



Matthias Kohl 




1132

#U n t e r t e i l e n d e r Daten i n K l a s s e n 

#mit H i l f e von qnorm ( p , 1 , 3) 

#p =0.1 , 0 . 2 , 0 . 3 , . . . , 0 . 9 

k l a s s i e r u n g f u n c t i o n ( x , k l a s s ){ 

} 

n l e n g t h ( k l a s s ) 

y a p p l y ( o u t e r ( x , k l a s s , "

#oder w i e d e r mit den Parametern , so d a s s das 

#Ablehnen am s c h w i e r i g s t e n i s t 

c h i 2 d i s t f u n c t i o n ( theta , XX){ 

} 

k l a s s qnorm ( p , mean=t h e t a [ 1 ] , sd=t h e t a [ 2 ] ) 

y k l a s s i e r u n g (XX, k l a s s ) 

c h i s q . t e s t ( y ) $ s t a t i s i t c 

c h m i n 2 d i s t f u n c t i o n (XX, t h e t a 0=c ( 0 , 1 ) ) { 

} 

optim ( par=theta0 , f n=c h i 2 d i s t ,XX=XX) $ par 

th c h m i n 2 d i s t ( x ) 

p r i n t ( th ) 

k l a s s qnorm ( p , mean=th [ 1 ] , sd=th [ 2 ] ) 

y k l a s s i e r u n g ( x , k l a s s ) 

 

c h i s q . t e s t ( y ) 

# => n i c h t a b l e h n e n 

 



Matthias Kohl 




1134

########### 

### qq P l o t 

########### 

qqnorm ( x ) 

q q l i n e ( x ) 

detach ( ) 

 

 



Matthias Kohl 




1135

L.7.2 Wilcoxon und t-Test, - und F-Test 

############################################ 


############################################ 

############################################ 

# T e i l ( a ) 

############################################ 


FILENAME "uscomp . t x t " 

r e q u i r e ( c t e s t ) 

uscomp read . t a b l e ( f i l e =p a s t e (PFAD, FILENAME , 

a t t a c h ( uscomp ) 

 

names ( uscomp ) 


 



Matthias Kohl 




1136

X6 . l i s t e s p l i t (X6 , S e c t o r ) 

w i l c o x . t e s t (X6 . l i s t e $ Energy , X6 . l i s t e $ Finance , 

a l p h a 

 

0 . 1 

c o n f . l e v e l =0.9) 

# => n i c h t a b l e h n e n ! 

t . t e s t (X6 . l i s t e $ Energy , X6 . l i s t e $ Finance , 

c o n f . l e v e l =0.9) 


############################################ 

# T e i l ( b ) 

############################################ 

# c h i ^2 Test 

sigma0 100 

n l e n g t h (X6 . l i s t e $ Energy ) 

 



Matthias Kohl 




1137

c c r i t u q c h i s q ( p=( a l p h a / 2 ) , df=n 1) 

c c r i t o q c h i s q ( p=(1 a l p h a / 2 ) , df=n 1) 

T e s t s t a t i s t i k ( n 1)£ v a r (X6 . l i s t e $ Energy ) / sigma0 

pwert 2£ p c h i s q ( q=T e s t s t a t i s t i k , df=n 1) 

cat ( " c h i ^2 Test ␣zum␣ S i g n i f i k a n z n i v e a u ␣ von ␣ a l p h a=" , 

alpha , "%:\n" ) 

cat ( " u n t e r e r ␣ k r i t . ␣Wert : \ t " , c c r i t u , "\n" ) 

cat ( " o b e r e r ␣ k r i t . ␣Wert : \ t " , c c r i t o , "\n" ) 

cat ( " P r u e f g r o e s s e : \ t " , T e s t s t a t i s t i k , "\n" ) 

cat ( "P Value : \ t " , pwert , "\n" ) 


############################################ 

 

# T e i l ( c ) 

############################################ 

 



Matthias Kohl 




1138

# F Test 

v a r . t e s t (X6 . l i s t e $ Energy , X6 . l i s t e $ Finance , 

 

c o n f . l e v e l =0.9) 


detach ( ) 

 



Matthias Kohl 




1139

L.7.3 Fisher- und t-Test 

############################################ 


############################################ 

############################################ 

# T e i l ( a ) 

############################################ 


FILENAME " k r e d i t 1 . t x t " 

k r e d i t read . t a b l e ( f i l e =p a s t e (PFAD, FILENAME , 


names ( k r e d i t ) 

 


 



Matthias Kohl 




1140

# B e r u f s t a t u s ==1: a r b e i t s l o s 

B e r u f s t a t u s as . i n t e g e r ( B e r u f s t a t u s ==1) 

# Zusammenfassen d e r " K r e d i t w u e r d i g e n " 

# nach dem B e r u f s t a t u s 

j o b as . m a t r i x ( t a b l e ( K r e d i t w u e r d i g k e i t , 

B e r u f s t a t u s ) ) 

# A n t e i l d e r " K r e d i t w u e r d i g e n " bzw . 

# " K r e d i t u n w u e r d i g e n " 

j a 1 j o b [ 1 , 1 ] /sum ( j o b [ 1 , ] ) 

n e i n 1 j o b [ 2 , 1 ] /sum ( j o b [ 2 , ] ) 

cat ( " A n t e i l ␣ d e r ␣ K r e d i t w u e r d i g e n : \ t " , 

ja , "\n" ) 

cat ( " A n t e i l ␣ d e r ␣ K r e d i t u n w u e r d i g e n : \ t " , 

nein , "\n" ) 

 

 



Matthias Kohl 




1141

############################################ 

# T e i l ( b ) 

############################################ 

r e q u i r e ( c t e s t ) 

a l p h a 0 . 1 #S i g n i f i k a n z n i v e a u 

k r e d i t [ , 5 ] B e r u f s t a t u s 

# A u f s p a l t e n des K r e d i t d a t e n s a t z e s nach 

# K r e d i t w u e r d i g k e i t 

k r e d i t . l i s t e s p l i t ( k r e d i t , 

#t Test 

 

K r e d i t w u e r d i g k e i t ) 

k r e d i t 0 k r e d i t . l i s t e [ [ 1 ] ] [ , 5 ] 

k r e d i t 1 k r e d i t . l i s t e [ [ 2 ] ] [ , 5 ] 

t . t e s t ( k r e d i t 0 , k r e d i t 1 , 

c o n f . l e v e l =(1 a l p h a ) ) 

 



Matthias Kohl 




1142

#a s y m p t o t i s c h e r F i s h e r Test 

#V e r t a u s c h e n d e r S p a l t e n i n job Matrix , 

#um d i e A n t e i l e d e r A r b e i t s l o s e n zu t e s t e n 

j o b 1 j o b [ , 2 ] 

j o b 1 c b i n d ( job1 , j o b [ , 1 ] ) 

prop . t e s t ( job1 , c o n f . l e v e l =(1 a l p h a ) ) 

#e x a k t e r F i s h e r Test 

c c r i t u qhyper ( p=( a l p h a / 2 ) , m=sum ( j o b [ 1 , ] ) , 

n=sum ( j o b [ 2 , ] ) , k=sum ( j o b [ , 2 ] ) ) 

c c r i t o qhyper ( p=(1 a l p h a / 2 ) , m=sum ( j o b [ 1 , ] ) , 

n=sum ( j o b [ 2 , ] ) , k=sum ( j o b [ , 2 ] ) ) 

cat ( " u n t e r e r ␣ k r i t . ␣Wert : \ t " , c c r i t u , "\n" ) 

cat ( " o b e r e r ␣ k r i t . ␣Wert : \ t " , 

 

c c r i t o , "\n" ) 

cat ( " P r u e f g r o e s s e : \ t " , j o b [ 1 , 2 ] , "\n" ) 

 



Matthias Kohl 




1143

detach ( ) 

 

 



Matthias Kohl 




1144

L.7.4 Testvergleich durch Simulation 

############################################ 


############################################ 

n 10 

a l p h a 0 . 0 5 

############################################ 

# f r e i w i l l i g e r T e i l : 

############################################ 

# NPT 

# D i c h t q u o t i e n t : 

# D i c h t e d e r X1 . . Xn u n t e r H0 

# prod_i ( dnorm ( x i ) ) 

 

# = (2 p i )^( n/ 2) exp( sum_i ( x_i ^2)/ 2) 

 



Matthias Kohl 




1145

# 

# D i c h t e d e r X1 . . Xn u n t e r H1 

# prod_i ( dnorm ( x i 1)) 

# = (2 p i )^( n/ 2) exp( sum_i ( ( x_i 1)^2)/ 2) 

# 

# l o g DQ: 1/2 sum_i x_i ^2 (x_i 1)^2 = sum_i x_i n/2 

c qnorm(1 a l p h a ) / s q r t ( n ) 

 

= n ( mean (X) 1/ 2) 

# a l s o DQ >= c mean (X) >= c ’ 

# 

# a b e r mean (X)~ [ u n t e r H0 ] N(0 , 1 /n ) 

# 

# => c r i t i s c h e r Wert a l s P(N(0 , 1 /n)>c ’)= alpha , 

# => P(N(0,1) c ’=qnorm((1 a l p h a ) ) / s q r t ( n ) 

# c =0.5201 

 



Matthias Kohl 




1146

############################################ 

# VZT 

# 

# b e t r a c h t e Yi =1(Xi >0); 

# dann Yi u i v ~ [ u n t e r H0 ] Bin ( 1 , p0 ) 

# und p0=1/2 



Matthias Kohl 


# s c h r e i b e P_0 f u e r P u n t e r H0 und P_1 f u e r P u n t e r H1Einsteiger 

und 

# E_0 " E_1 " Fortgeschrittene 

# => N ~ [ u n t e r H0 ] Bin ( n , p0 ) , p0=1/2 

# => P_0(N=k)=dbinom ( x=k , s i z e=n , prob=1/ 2) 

p0 1/2 

# 

# u n t e r H1 w i r d im a l l g e m e i n e n N g r o e s s e r s e i n ! 

# => Test : l e h n e ab f a l l s N zu g r o s s ; 

# F e h l e r 

 

1 . Art !

# Niveau w i r d n i c h t a u s g e s c h o e p f t : 

# Ablehnen b e i N=8 ,9 ,10 

# ^= pbinom ( q=7, s i z e =10, prob=1/ 2)=0.9453125 

# Ablehnen b e i N=9 ,10 

# ^= pbinom ( q=8, s i z e =10, prob=1/ 2)=0.9892578 

# => u n r a n d o m i s i e r t Ablehnen b e i 9 ,10 

# => r a n d o m i s i e r t : immer Ablehnen b e i 9 ,10 , 

# b e i 8 mit Ws r0 ( wie a u f Angabe ) a b l e h n e n 

qbinom(1 alpha , n , p0 ) 

# 8 ! 

pbinom ( q=7, s i z e=n , prob=p0 ) 

pbinom ( q=8, s i z e=n , prob=p0 ) 

r0 ( pbinom ( 8 , n , p0 ) 0.95) /dbinom ( 8 , n , p0 ) 

# 

# MACHT 

 

# 

# Macht VZT u n r a n d o m i s i e r t : 

 



Matthias Kohl 




1148

# 

# E_1 [ 1 (N=9 oder 1 0 ) ] =P_1(N=9 oder 10) 

# N ~ [ u n t e r H1 ] Bin ( n , p1 ) , p1=P(N(1 ,1) >0) 

# 

############################################ 

# Bemerkung : nun T e s t s i t u a t i o n z w e i e r 

# Muenzen M0,M1 

# P(M0=1)=1/ 2 , P(M1=1)=0.841 

# nach n Wuerfen mit Muenze , d i e entweder 

# M0 oder M1 i s t 

# E n t s c h e i d u n g : War ’ s M0 oder M1 

############################################ 

p1 1 pnorm ( 0 , mean=1) # 0.8413 

# 

macht . v z t u 

 

1 pbinom ( 8 , n , p1 ) 

### 0.5129 

# 

 



Matthias Kohl 




1149

# Macht VZT r a n d o m i s i e r t : 

# 

# E_1 [ 1 (N=9 oder 10)+1(N=8)1(R=1)] = 

# = P_1(N=9 oder 10)+P_1(N=8)P(R=1)= 

# = p1+r0 dbinom ( 8 , n , p1 ) 

macht . v z t r macht . v z t u + r0 £dbinom ( 8 , n , p1 ) 

### 0.7669 

# 

# Macht NPT 

# 

macht . npt 1 pnorm ( c , mean=1, sd=1/ s q r t ( n ) ) 

### 0.9354 

# 

############################################ 

xa c ( 0 . 1 , 2 . 1 , 1.2 , 1 . 0 , 1 . 6 , 1 . 3 , 0 . 2 , 0 . 1 , 

0 . 3 , 2 . 2 ) 

 



Matthias Kohl 




1150

meana mean ( xa ) # 0 . 7 7 => NPT l e h n t ab 

p v a l u e . npt 1 pnorm ( meana , sd=1/ s q r t ( n ) ) 

### 0.0074 

Na sum ( xa >0) # 9 => VZTu VZTr l e h n e n ab 

p v a l u e . v z t 1 pbinom ( q=8, s i z e=n , prob=p0 ) 

### 0.0107 

xac c ( 20.2 , 2 . 1 , 1.2 , 1 . 0 , 1 . 6 , 1 . 3 , 0 . 2 , 0 . 1 , 

### 0.0547 

 

0 . 3 , 2 . 2 ) 

meanac mean ( xac ) # 1.26 => NPT l e h n t n i c h t ab 

p v a l u e c . npt 1 pnorm ( meanac , sd=1/ s q r t ( n ) ) 

### 1.0000 

Nac sum ( xac >0) # 8 => VZTu l e h n t ab 

p v a l u e c . v z t u 1 pbinom ( q=7, s i z e=n , prob=p0 ) 

R rbinom ( 1 , 1 , r0 ) 

R # f a l l s R=1 ablehnen , f a l l s R=0 annehmen . . . 

 



Matthias Kohl 




1151

# 

#Begruendung : 

# 

# i n NPT gehen d i e Beobachtungen u n b e s c h r a e n k t e i n 

# => b e l i e b i g e Auslenkung d e r T e s t s t a t i s t i k 

# durch e i n e Beobachtung 

# i n VZT gehen nur d i e V o r z e i c h e n e i n 

# => k e i n e b e l i e b i g e Auslenkung d e r T e s t s t a t i s t i k 

# durch e i n e Beobachtung 

############################################ 

# e i g e n t l i c h e Aufgabe 

############################################ 

# T e i l ( a ) 

 

############################################ 

 



Matthias Kohl 




1152

M 10000 

ve 0 . 0 5 

X . i d . 0 m a t r i x ( rnorm (M£n ) , nrow=M, n c o l=n ) 

X . i d . 1 m a t r i x ( rnorm (M£n , mean=1) , nrow=M, n c o l=n ) 

############################################ 

# T e i l ( b ) 

############################################ 

#NPT 

e n t s c h . i d . 0 . npt a p p l y (X . i d . 0 , 1 , mean)>c 

e m p f e h l e r . i d . 1 . npt mean ( e n t s c h . i d . 0 . npt ) 

cat ( " E m p i r i s c h e r ␣ F e h l e r ␣ 1 . Art ␣ b e i ␣NPT 

␣␣␣␣␣ ( i d e a l e ␣ S i t u a t i o n ) : " , 

 

e m p f e h l e r . i d . 1 . npt , "\n" ) 

e n t s c h . i d . 1 . npt a p p l y (X . i d . 1 , 1 , mean)>c 

e m p f e h l e r . i d . 2 . npt 1 mean ( e n t s c h . i d . 1 . npt ) 

 



Matthias Kohl 




1153


␣␣␣␣␣ ( i d e a l e ␣ S i t u a t i o n ) : " , e m p f e h l e r . i d . 2 . npt , "\n" ) 

#VZTu ( u n r a n d o m i s i e r t ) 

e n t s c h . i d . 0 . v z t u a p p l y ( (X . i d .0 >0) ,1 , sum)>8 

e m p f e h l e r . i d . 1 . v z t u mean ( e n t s c h . i d . 0 . v z t u ) 

cat ( " E m p i r i s c h e r ␣ F e h l e r ␣ 1 . Art ␣ b e i ␣VZTu 

␣␣␣␣␣ ( i d e a l e ␣ S i t u a t i o n ) : " , e m p f e h l e r . i d . 1 . vztu , "\n" ) 

e n t s c h . i d . 1 . v z t u a p p l y ( (X . i d .1 >0) ,1 , sum)>8 

e m p f e h l e r . i d . 2 . v z t u 1 mean ( e n t s c h . i d . 1 . v z t u ) 


␣␣␣␣␣ ( i d e a l e ␣ S i t u a t i o n ) : " , e m p f e h l e r . i d . 2 . vztu , "\n" ) 

#VZTr ( r a n d o m i s i e r t ) 

R. 0 m a t r i x ( rbinom (M, 1 , r0 ) , nrow=M, n c o l =1) 

 

# Aussondern d e r E r e i g n i s s e N=8 

e n t s c h . i d . 0 . v z t r 0 a p p l y ( (X . i d .0 >0) ,1 , sum)==8 

 



Matthias Kohl 




1154

e n t s c h . i d . 0 . v z t r e n t s c h . i d . 0 . v z t u 

+ e n t s c h . i d . 0 . v z t r 0 £R. 0 

e m p f e h l e r . i d . 1 . v z t r mean ( e n t s c h . i d . 0 . v z t r ) 

cat ( " E m p i r i s c h e r ␣ F e h l e r ␣ 1 . Art ␣ b e i ␣VZTr 

␣␣␣␣␣ ( i d e a l e ␣ S i t u a t i o n ) : " , e m p f e h l e r . i d . 1 . v z t r , "\n" ) 



e n t s c h . i d . 1 . v z t r 0 a p p l y ( (X . i d .1 >0) ,1 , sum)==8 

e n t s c h . i d . 1 . v z t r e n t s c h . i d . 1 . v z t u 

+ e n t s c h . i d . 1 . v z t r 0 £R. 1 

e m p f e h l e r . i d . 2 . v z t r 1 mean ( e n t s c h . i d . 1 . v z t r ) 


␣␣␣␣␣ ( i d e a l e ␣ S i t u a t i o n ) : " , e m p f e h l e r . i d . 2 . v z t r , "\n" ) 

############################################ 

 



Matthias Kohl 




1155

# T e i l ( c ) 

############################################ 

# nenne Y Xc ; 

# e s g i l t Yc0~(1 ve )N(0 ,1)+ ve N( 1 0 , 1 ) 

# Yc1~(1 ve )N(1 ,1)+ ve N( 10 ,1) 

U. 0 m a t r i x ( rbinom (M£n , 1 , ve ) , nrow=M, n c o l=n ) 

U. 1 m a t r i x ( rbinom (M£n , 1 , ve ) , nrow=M, n c o l=n ) 

X . c . 0 X . i d .0+U. 0 £10 

X . c . 1 X . i d .1 U. 1 £10 

############################################ 

# T e i l ( d ) 

############################################ 

#NPT 

 

e n t s c h . c . 0 . npt a p p l y (X . c . 0 , 1 , mean)>c 

e m p f e h l e r . c . 1 . npt mean ( e n t s c h . c . 0 . npt ) 

 



Matthias Kohl 




1156


␣␣␣␣␣␣␣␣ ( kont . ␣ S i t u a t i o n ) : " , e m p f e h l e r . c . 1 . npt , "\n" ) 

e n t s c h . c . 1 . npt a p p l y (X . c . 1 , 1 , mean)>c 

e m p f e h l e r . c . 2 . npt 1 mean ( e n t s c h . c . 1 . npt ) 


␣␣␣␣␣␣␣␣ ( kont . ␣ S i t u a t i o n ) : " , e m p f e h l e r . c . 2 . npt , "\n" ) 

#VZTu ( u n r a n d o m i s i e r t ) 

e n t s c h . c . 0 . v z t u a p p l y ( (X . c .0 >0) , 1 , sum)>8 

e m p f e h l e r . c . 1 . v z t u mean ( e n t s c h . c . 0 . v z t u ) 


␣␣␣␣␣␣␣␣ ( kont . ␣ S i t u a t i o n ) : " , e m p f e h l e r . c . 1 . vztu , "\n" ) 

e n t s c h . c . 1 . v z t u a p p l y ( (X . c .1 >0) , 1 , sum)>8 

e m p f e h l e r . c . 2 . v z t u 1 mean ( e n t s c h . c . 1 . v z t u ) 

 



Matthias Kohl 





␣␣␣␣␣␣␣␣ ( kont . ␣ S i t u a t i o n ) : " , e m p f e h l e r . c . 2 . vztu , "\n" ) 

1157

#VZTr ( r a n d o m i s i e r t ) 



e n t s c h . c . 0 . v z t r 0 a p p l y ( (X . c .0 >0) , 1 , sum)==8 

e n t s c h . c . 0 . v z t r e n t s c h . c . 0 . v z t u 

+ e n t s c h . c . 0 . v z t r 0 £R. 0 

e m p f e h l e r . c . 1 . v z t r mean ( e n t s c h . c . 0 . v z t r ) 

cat ( " E m p i r i s c h e r ␣ F e h l e r ␣ 1 . Art ␣ b e i ␣VZTr 

␣␣␣␣␣␣␣␣ ( kont . ␣ S i t u a t i o n ) : " , e m p f e h l e r . c . 1 . v z t r , "\n" ) 



e n t s c h . c . 1 . v z t r 0 a p p l y ( (X . c .1 >0) , 1 , sum)==8 

e n t s c h . c . 1 . v z t r e n t s c h . c . 1 . v z t u 

+ e n t s c h . c . 1 . v z t r 0 £R. 1 

e m p f e h l e r . c . 2 . v z t r 1 mean ( e n t s c h . c . 1 . v z t r ) 


 



Matthias Kohl 




1158

␣␣␣␣␣␣␣␣ ( kont . ␣ S i t u a t i o n ) : " , e m p f e h l e r . c . 2 . v z t r , "\n" ) 

 

 



Matthias Kohl 




1159


L.8.1 Indiskrete Umfrage 

############################################ 


############################################ 

############################################ 

# M1i : E r g e b n i s des 1 . Muenzwurfs b e i i tem Befragtem 

# M2i : E r g e b n i s des 2 . Muenzwurfs b e i i tem Befragtem 

# I i : Antwort a u f i n d i s k r . Frage b e i i tem Befragtem 

# Ai : gegebene Antwort 

# 

# " Kopf " ^= 1 , " Zahl " ^= 0 

 

# 

 



Matthias Kohl 




1160

# M1i , M2i , I i s t o unabh 

# M1i ~Bin (1 , 1 / 2) 

# M2i ~Bin (1 , 1 / 2) 

# I i ~Bin ( 1 , p ) , p g e s u c h t 

# 

# ( M1i , M2i , I i )_i i d e n t i s c h v e r t e i l t 

# 

# => Ai=M1i£ I i +(1 M1i ) £M2i u i v 

# 

# Ai nimmt e b e n f a l l s nur d i e Werte 0 ,1 an 

# 

# a l s o Ai ~Bin ( 1 , q ) 

# d a b e i 

# q=q ( p)= 

# =P( Ai=1)= 

 

# =P( ( M1i=1 und I i =1) oder ( M1i=0 und M2i=1))= 

# d a b e i oder ^= entweder oder 

 



Matthias Kohl 




1161

# a l s o =P( M1i=1 und I i =1)+P( M1i=0 und M2i=1)= 

# s t o . Unabh . von M1i , I i und M1i , M2i 

# =P( M1i=1)P( I i =1)+P( M1i=0)P( M2i=1)= 

# =p/2+1/4 

############################################ 

############################################ 

# ML Schaetzung 

############################################ 

# L i k e l i h o o d von A_1 . . . A_n 

# 

# P_p ( Ai=ai , i =1.. n ) =[ s t o u ] prod_i P_p ( Ai=a i ) 

# = prod_i [ q ( p )^(1{ Ai=1})+(1 q ( p ))^(1{ Ai =0})] 

# S= #{ i : a i =1} 

# = q ( p)^S+(1 q ( p ) ) ^ ( n S ) 

 

# a l s o 

# l o g P_p ( A_i=a_i , i =1.. n ) 

 



Matthias Kohl 




1162

# = S l o g ( q ( p ) ) ( n S ) l o g (1 q ( p ) ) 

# 

# und damit 

# 

# Lambda_p ( ( Ai )_i ) 

# = d/dp l o g P_p ( A_i=a_i , i =1.. n ) 

# = S/q £ 1/2 ( n S ) /(1 q ) £ 1/2 

# 

# und damit d/dp l o g P_p ( A_i=a_i , i =1.. n ) = 0 

# q^ML=S/n p^ML = 2 S/n 1/2 

# 

# d a b e i S ~ Bin ( n , q ) 

# 

# E_p [ p^ML]= 2 E_p [ S ] /n 1/2 = 2q 1/2 = p 

# a l s o 

 

p^ML b i a s f r e i 

# Var_p [ p^ML]= 4/n^2 Var_p [ S]= 4q(1 q ) /n 

# 

 



Matthias Kohl 




1163

# F i s h e r I n f o : 

# E_p [ ( Lambda_p ( ( Ai )_i ))^2]= 

# = E_p [ { ( S nq ) / (2 q(1 q ))}^2]= 

# = n/ ( 4 ( q(1 q ) ) = 1/Var_p [ p^ML] 

# 

# a l s o e r r e i c h t p^ML d i e Cramer Rao Schranke 

# 

################################################ 

############################################ 

# Normalapproximation f u e r p^ML 

############################################ 

# de Moivre L a p l a c e 

# 

# s q r t ( n ) ( S/n q ) => N( 0 , q(1 q ) ) 

# 

#=> s q r t ( n ) 2( S/n q ) => N( 0 , 4 q(1 q ) ) 

 



Matthias Kohl 




1164

# 

#a b e r 2( S/n q ) = p^ML p 

################################################# 

############################################ 

# a p p r o x i m a t i v e s K o n f i d e n z i n t e r v a l l 

############################################ 

# 

# P_p ( | p^ML p | < s ) ~= P ( | N( 0 , 1 ) | 

# < s /2 s q r t ( n/ ( q(1 q ) ) ) != 0.9756 

# s e i t=s /2 s q r t ( n/ ( q(1 q ) ) ) 

# P( t

# 

# V e r g l e i c h : " u n v e r s c h l e i e r t e " Befragung 

# 

# s0= Phi ^( 1)(1.9756 / 2) s q r t ( p(1 p ) /n ) 

# 

############################################ 

############################################ 

# e i g e n t l i c h e Berechnungen 

############################################ 

n 2300 

S 682 

pML 2£S/n 1/2 

qML S/n 

 

s 2£qnorm ( 1 . 9 7 5 6 / 2) £ s q r t (qML£(1 qML) /n ) 

s0 qnorm ( 1 . 9 7 5 6 / 2) £ s q r t (pML£(1 pML) /n ) 

 



Matthias Kohl 




1166

f a c s / s0 

cat ( " Schaetzung ␣ f u e r ␣p : " ,pML) 

cat ( "\n97.56% K o n f i d e n z i n t e r v a l l : ␣ [ " ,pML s , " ; " , 

 

pML+s , " ] " ) 

cat ( "\n97.56% K o n f i d e n z i n t e r v a l l ␣ ( b e i 

␣␣␣␣ u n v e r s c h l e i e r t e r ␣ Befragung ) : ␣ [ " , 

pML s0 , " ; " ,pML+s0 , " ] " ) 

cat ( "\n^=um␣ F aktor ␣" , fac , "␣␣ g r o e s s e r ␣und␣um␣ F a k t o r ␣" , 

f a c ^2 , "mehr␣ Beobachtungen ␣ n o e t i g ␣ f u e r ␣ g l e i c h e 

␣␣␣␣␣␣␣␣ G e n a u i g k e i t " ) 

 



Matthias Kohl 




1167

L.8.2 ML–Schätzer für aus 

############################################ 


############################################ 

############################################ 

# Umrechnung d e r Parameter i n Angabe ( S u f f i x a ) 

# i n Parameter i n R ( S u f f i x R) 

# 

# Na = mR +nR 

# Ka = mR 

# na = kR 

# ka = xR 

# 

############################################ 

 

 



Matthias Kohl 




1168

Na 30 

na 10 

ka c ( 3 , 4 , 6 , 4 , 7 ) 

#m o e g l i c h e Werte f u e r K 

Km 0 : 3 0 

############################################ 

# L i k e l i h o o d a l s Funktion i n Km 

# da w i r e s i n s a p p l y e i n s e t z e n w o l l e n : 

# a l s Argument X i n L i k e l 

############################################ 

L i k e l f u n c t i o n (X, N, n , k ){ 

kR n 

xR 

 

k 

mR X 

nR N X 

 



Matthias Kohl 




1169

} 

p dhyper ( x=xR , m=mR, n=nR , k=kR ) 

r e t u r n ( prod ( p ) ) 

# Berechnung des L i k e l i h o o d v e k t o r s 

LV s a p p l y (Km, L i k e l , N=Na , n=na , k=ka ) 

i which . max(LV) 

KML Km[ i ] 

p r i n t (KML) 

############################################ 

# E r w e i t e r u n g : Bestimmung d e r G e n a u i g k e i t 

# mit B o o t s t r a p 

############################################ 

 

r e s a m p l f u n c t i o n (X, k , N, n , Km){ 

l e l e n g t h ( k ) 

 



Matthias Kohl 




1170

} 

 

ks sample ( k , l e , r e p l a c e=T) 

LV s a p p l y (Km, L i k e l , N=Na , n=na , k=ks ) 

r e t u r n (Km[ which . max(LV ) ] ) 

z a h l b o o t s t r a p 1000 

kboot s a p p l y ( 1 : z a h l b o o t s t r a p , resampl , 

Kmb mean ( kboot ) 

Kmv v a r ( kboot ) 

k=ka , N=Na , n=na , Km=Km) 

cat ( " M i t t e l w e r t : " , Kmb, "\ t V a r i a n z : " , Kmv, "\n\n" ) 

 



Matthias Kohl 




1171

L.8.3 Simulationsstudie 

############################################ 


############################################ 

############################################ 

# T e i l ( a ) 

############################################ 

# i m p l e m e n t i e r e summe_i p s i_t h e t a ( x_i ) 

# mit p s i_m, t h e t a ( x)= max( m, min ( ( x t h e t a ) ,m) ) 

# ( v e r g l e i c h e Uebung ) 

psim f u n c t i o n ( theta , y , m0=0.7){ 

# s c h n e l l e r a l s mean ( ) ! 

 

} 

sum ( pmin ( pmax( m0, y t h e t a ) ,m0) ) / l e n g t h ( y ) 

 



Matthias Kohl 




1172

# f i n d e N u l l s t e l l e t h e t a_0 so d a s s 

# summe_i p s i_{m, t h e t a_0}( x_i ) = 0 

Mschaetz f u n c t i o n ( x , m=0.7){ 

} 

u n i r o o t ( psim , low= 20, up=20, t o l =1e 10, 

#z u r b e s s e r e n L e s b a r k e i t 

y=x , m0=m, m a x i t e r =20)$ r o o t 

############################################ 

# T e i l ( b ) ( e ) 

############################################ 

# w i l l w i e d e r mit s a p p l y a r b e i t e n => X s t a t t n 

t u e a l l e s f u n c t i o n (X, M, ve =0.1 , m0=0.7){ 

n X 

 



Matthias Kohl 




1173

# T e i l ( b ) 

Xid m a t r i x ( rnorm (M£n ) , nrow=M, n c o l=n ) 

# Auswahlmechanismus wie i n B l a t t 2 

R m a t r i x ( rbinom ( n=M£n , s i z e =1, p=ve ) , 

nrow=M, n c o l=n ) 

Xct m a t r i x ( rcauchy (M£n ) , nrow=M, n c o l=n ) 

Xc (1 R) £ Xid + R£ Xct 

# T e i l ( c ) 

# S c h a e t z e r a u s w e r t u n g 

Xqid a p p l y ( Xid , 1 , mean ) 

Medid a p p l y ( Xid , 1 , median ) 

Mid a p p l y ( Xid , 1 , Mschaetz , m=m0) 

S i d 

 

c b i n d (Xq=Xqid , Med=Medid , M=Mid ) 

b o x p l o t ( data . frame ( Sid ) ) 

 



Matthias Kohl 




1174

# T e i l ( d ) 

t i t l e ( main=" i d e a l e ␣ S i t u a t i o n " , 

sub=p a s t e ( "n=" , n , c o l l a p s e="" ) ) 

Xqc a p p l y ( Xc , 1 , mean ) 

Medc a p p l y ( Xc , 1 , median ) 

Mc a p p l y ( Xc , 1 , Mschaetz , m=m0) 

Sc c b i n d (Xq=Xqc , Med=Medc , M=Mc) 

b o x p l o t ( data . frame ( Sc ) ) 

t i t l e ( main="kontam . ␣ S i t u a t i o n " , 


b o x p l o t ( data . frame ( Sc [ , 2 : 3 ] ) ) 

t i t l e ( main="kontam . ␣ S i t u a t i o n " , 

# i d e a l e S i t u a t i o n 


 



Matthias Kohl 




1175

a s v a r n X i d n£ v a r ( Xqid ) 

a s B i a s X i d s q r t ( n ) £mean ( Xqid ) 

asvarnMedid n£ v a r ( Medid ) 

asBiasMedid s q r t ( n ) £mean ( Medid ) 

asvarnMid n£ v a r ( Mid ) 

asBiasMid s q r t ( n ) £mean ( Mid ) 

cat ( " E m p i r i s c h e ␣ Werte ␣ f u e r ␣ Varianz , ␣ B i a s 

␣␣␣␣␣␣␣␣␣␣␣␣und␣MSE: ␣ ␣ i d e a l e ␣ S i t u a t i o n ␣ ␣ [ ␣n␣=" , 

n , " ] \ n\n" ) 

cat ( "n␣x␣ V a r i a n z : \ tXq : ␣" , asvarnXid , "\ t \tMed : ␣" , 

asvarnMedid , "\ t \tM Sch : ␣" , asvarnMid , "\n" ) 

 



Matthias Kohl 




cat ( "n ^0.5 ␣x␣ B i a s : \ t \tXq : ␣" , asBiasXid , "\ t \tMed : ␣" , 

 

asBiasMedid , "\ t \tM Sch : ␣" , asBiasMid , 

cat ( "n␣x␣MSE: \ t \tXq : ␣" , a s v a r n X i d+a s B i a s X i d ^2 , 

"\n" ) 

"\ t \tMed : ␣" , 

1176

asvarnMedid+asBiasMedid ^2 , "\ t \tM Sch : ␣" , 

asvarnMid+asBiasMid ^2 , "\n\n\n" ) 

# k o n t a m i n i e r t e S i t u a t i o n 

asvarnXc n£ v a r ( Xqc ) 

asBiasXc s q r t ( n ) £mean ( Xqc ) 

asvarnMedc n£ v a r ( Medc ) 

asBiasMedc s q r t ( n ) £mean ( Medc ) 

asvarnMc n£ v a r (Mc) 

asBiasMc s q r t ( n ) £mean (Mc) 

cat ( " E m p i r i s c h e ␣ Werte ␣ f u e r ␣ Varianz , ␣ B i a s 

␣␣␣␣␣␣␣␣␣␣␣␣und␣MSE: ␣ ␣ kont . ␣ S i t u a t i o n ␣ ␣ [ ␣n␣=" , 

 

n , " ] \ n\n" ) 

cat ( "n␣x␣ V a r i a n z : \ tXq : ␣" , asvarnXc , "\ t \tMed : ␣" , 

 



Matthias Kohl 




1177

} 

m 0 . 7 

 

asvarnMedc , "\ t \tM Sch : ␣" , asvarnMc , "\n" ) 

 

cat ( "n ^0.5 ␣x␣ B i a s : \ t \tXq : ␣" , asBiasXc , "\ t \tMed : ␣" , 

asBiasMedc , "\ t \tM Sch : ␣" , asBiasMc , "\n" ) Mathematik VII 

cat ( "n␣x␣MSE: \ t \tXq : ␣" , asvarnXc+asBiasXc ^2 , "\ t \tMed : ␣" , 

# gesamter A b l a u f 

asvarnMedc+asBiasMedc ^2 , "\ t \tM Sch : ␣" , 

asvarnMc+asBiasMc ^2 , "\n\n\n" ) 

#PFAD "C : / E i gene D a t e i e n / . . . /" 

#FILENAME " BL8Aufg3plot . png" 

M 1000 

n c ( 5 , 1 0 , 1 0 0 ) 

ve 0 . 1 

# png ( f i l e n a m e=p a s t e (PFAD, FILENAME , c o l l a p s e ="", 

# sep ="") , width =900 , h e i g h t =900) 


Matthias Kohl 




1178

par ( new=F , mar=c ( 5 . 1 , 4 . 1 , 6 . 7 , 2 . 1 ) ) 

par ( mfrow=c ( 3 , 3 ) ) 

g s a p p l y (X=n , t u e a l l e s , M=M, ve=ve , m0=m) 

par ( mfrow=c ( 1 , 1 ) ) 

par ( new=F , mar=c ( 5 . 1 , 4 . 1 , 1 . 8 , 2 . 1 ) ) 

mtext ( " V e r s c h i e d e n e ␣ S c h a e t z e r ␣ i n ␣ i d . [ N( 0 , 1 ) ] 

␣␣␣␣␣␣␣␣&␣ kont . S i t . [ 0 . 9 N(0 ,1)+0.1 Cauchy ] " ) 

#dev . o f f ( ) 

 

 



Matthias Kohl 




1179


L.9.1 Berechnung eines Quantils 

############################################ 


############################################ 

############################################ 

# T e i l ( a ) 

############################################ 

# B i s e k t i o n s a l g o r i t h m u s 

q u a n t i l . b i s e k t i o n f u n c t i o n ( a l p h a =0.95 , s t a r t =0, 

t e s t 1.0 

 

ende =5, d e l t a =1e 8){ 

 



Matthias Kohl 




1180

x s t a r t 

x . l i s t a r t 

x . r e ende 

i t e r 0 

w h i l e ( abs ( t e s t ) > d e l t a ){ 

i t e r i t e r + 1 

i f ( t e s t < 0){ 

} 

e l s e { 

} 

x . l i x 

x ( x . l i + x . r e ) /2 

x . r e x 

x ( x . l i + x . r e ) /2 

t e s t pnorm ( x) a l p h a 

 



Matthias Kohl 




1181

} 

} 

cat ( " I t e r a t i o n e n ␣ f u e r ␣ B i s e k t i o n : \ t " , i t e r , "\n" ) 

r e t u r n ( x ) 

############################################ 

# T e i l ( b ) 

############################################ 

# Newton A l g o r i t h m u s 

q u a n t i l . newton f u n c t i o n ( a l p h a =0.95 , s t a r t =1, 

t e s t 

 

1 . 0 

x . a l t s t a r t 

d e l t a =1e 8){ 

 



Matthias Kohl 




1182

} 

i t e r 0 

w h i l e ( t e s t > d e l t a ){ 

} 


x . neu x . a l t 

( pnorm ( x . a l t ) 0.95) /dnorm ( x . a l t ) 

t e s t abs ( x . neu x . a l t ) 

x . a l t x . neu 

cat ( " I t e r a t i o n e n ␣ f u e r ␣Newton : \ t " , i t e r , "\n" ) 

r e t u r n ( x . a l t ) 

############################################ 

# T e i l ( c ) 

 



Matthias Kohl 




1183

############################################ 

# Numerische I n v e r t i e r u n g 

x seq ( from =0, to =5, by =0.01) 

y pnorm ( x ) 

q u a n t i l . i n v e r t s p l i n e f u n ( y , x ) 

############################################ 

# I t e r a t i o n s a l g o r i t h m u s 

############################################ 

# Achtung : pnorm ( x . a l t ) ! ! ! 

q u a n t i l . i t e r a t i o n f u n c t i o n ( a l p h a =0.95 , 

t e s t 1 . 0 

x . a l t 

 

s t a r t 

i t e r 0 

s t a r t =1.5 , d e l t a =1e 8){ 

 



Matthias Kohl 




1184

} 


} 


x . neu s i g n ( dnorm ( x . a l t ) ) £ 

( pnorm ( x . a l t ) a l p h a ) + x . a l t 

t e s t abs ( x . neu x . a l t ) 

x . a l t x . neu 

cat ( " I t e r a t i o n e n ␣ f u e r ␣ I t e r a t i o n : \ t " , i t e r , "\n" ) 

r e t u r n ( x . a l t ) 

############################################ 

 

# Verwendung d e r Funktion u n i r o o t 

############################################ 

 



Matthias Kohl 




1185

f k t f u n c t i o n ( x , a l p h a ){ pnorm ( x ) a l p h a } 

# Zur K o n t r o l l e 

a l p h a 0 . 9 5 

qnorm ( a l p h a ) 

q u a n t i l . b i s e k t i o n ( a l p h a=a l p h a ) 

q u a n t i l . newton ( a l p h a=a l p h a ) 

q u a n t i l . i n v e r t ( a l p h a ) 

q u a n t i l . i t e r a t i o n ( a l p h a=a l p h a ) 

u n i r o o t ( f=f k t , l o wer =0, upper =5, t o l =1e 8, 

 

a l p h a=a l p h a ) 

 



Matthias Kohl 




1186

L.9.2 Schätzung eines eindimensionalen 

Parameters 

############################################ 


############################################ 

############################################ 

# T e i l ( a )&( b ) 

############################################ 

# H i l f s f u n k t i o n z u r Berechnung von Y_i ! 

# i n d e r Maximum Suche 

f a c t o r i a l f u n c t i o n ( x ){ 

i f e l s e ( x==0, e r g 1 , 


e r g prod ( seq ( from =1, to=x , by =1))) 

 



Matthias Kohl 




1187

} 

l i k e l i h o o d f u n c t i o n ( lambda , Y){ 

} 

1/ ( exp ( lambda ) 1)^ l e n g t h (Y) £ lambda ^(sum (Y) ) / 

prod ( s a p p l y (Y, f a c t o r i a l ) ) 

n s g l e i c h u n g f u n c t i o n ( lambda , Y){ 

} 

lambda mean (Y) £(1 exp( lambda ) ) 

#Maximum Suche 

maximum f u n c t i o n (Y, s t a r t =1, ende =5, 

n 

 

l e n g t h (Y) 

#lambda G i t t e r 

d e l t a =1e 4, k o n t r o l l e=" k e i n e " ){ 

 



Matthias Kohl 




1188

lambda c ( s t a r t , ( ende s t a r t ) / 2 , ende ) 

g i t t e r ( ende s t a r t ) /2 #G i t t e r w e i t e 

t e s t 1 . 0 

maxalt 1 

w h i l e ( ( g i t t e r > d e l t a ) | | ( t e s t > d e l t a ) ) { 

l g i t l i k e l i h o o d ( lambda , Y) 

maxneu max( l g i t ) 

t e s t abs ( maxalt maxneu ) 

#Berechnung des neuen lambda G i t t e r s 

i f ( t e s t > 0 . 0 ) { 

maxalt maxneu 

m i t t e lambda [ l g i t==maxneu ] 

 



Matthias Kohl 




1189

} 

 

} 

e l s e { 

} 

g i t t e r g i t t e r /2 

lambda c ( mitte g i t t e r , mitte , 

m i t t e+g i t t e r ) 

m i t t e lambda [ l g i t==maxneu ] 

g i t t e r g i t t e r /2 

lambda c ( mitte g i t t e r , mitte , 

m i t t e+g i t t e r ) 

s w i t c h ( k o n t r o l l e , ausgabe= 

r e t u r n ( m i t t e ) 

cat ( "Das␣ a k t u e l l e ␣ lambda : \ t " , 

mitte , "\n" ) , browser=browser ( ) ) 

 



Matthias Kohl 




1190

} 

#Newton A l g o r i t h m u s 

newton f u n c t i o n (Y, s t a r t =2.5 , d e l t a =1e 4, 

 

t e s t 1 . 0 

lambda . a l t s t a r t 


k o n t r o l l e=" k e i n e " ){ 

lambda . neu lambda . a l t ( lambda . a l t 

mean (Y) £(1 exp( lambda . a l t ) ) ) / 

(1 mean (Y) £ exp( lambda . a l t ) ) 

t e s t abs ( lambda . neu lambda . a l t ) 

lambda . a l t lambda . neu 



 



Matthias Kohl 




1191

} 

} 

lambda . l i 

 

s t a r t 

lambda . a l t , "\n" ) , browser=browser ( ) ) 

r e t u r n ( lambda . a l t ) 

#B i s e k t i o n s a l g o r i t h m u s 

b i s e k t i o n f u n c t i o n (Y, s t a r t =1, ende =5, 

t e s t 1 . 0 

t e s t 1 1.0 

lambda s t a r t 

lambda . r e ende 

d e l t a =1e 4, k o n t r o l l e=" k e i n e " ){ 

 



Matthias Kohl 




1192

} 


i f ( t e s t 1 < 0){ 

} 

e l s e { 

} 

lambda . l i lambda 

lambda ( lambda . l i + lambda . r e ) /2 

lambda . r e lambda 

lambda ( lambda . l i + lambda . r e ) /2 

t e s t 1 lambda mean (Y) £(1 exp( lambda ) ) 

t e s t abs ( t e s t 1 ) 



lambda , "\n" ) , browser=browser ( ) ) 

 



Matthias Kohl 




1193

} 

r e t u r n ( lambda ) 

############################################ 

#T e i l ( c ) 

############################################ 


FILENAME " t r u n c p o i s . t x t " 

Y read . t a b l e ( f i l e =p a s t e (PFAD, FILENAME , sep="" , 

d e l t a 1e 4 

s t a r t w mean (Y [ , 1 ] ) 

Z Y [ , 1 ] 

c o l l a p s e="" ) , header=F) 

 



Matthias Kohl 




1194

lambda1 maximum(Y [ , 1 ] , d e l t a=d e l t a , 

k o n t r o l l e=" ausgabe " ) 

n l i k e l i h o o d f u n c t i o n ( lambda , Y){ 

} 

l i k e l i h o o d ( lambda , Y) 

optim ( s t a r t w , n l i k e l i h o o d , Y=Z) 

lambda2 optim ( s t a r t w , n l i k e l i h o o d , Y=Z) $ par 

lambda3 b i s e k t i o n (Y [ , 1 ] , d e l t a=d e l t a , 


lambda4 newton (Y [ , 1 ] , d e l t a=d e l t a , 


l w e r t e 

 

seq ( 0 , max(Y [ , 1 ] ) , 0 . 0 3 ) 

l b w e r t e s a p p l y ( l w e r t e , n s g l e i c h u n g , Y=Z) 

p l o t ( l w e r t e , l b w e r t e ) 

 



Matthias Kohl 




1195

i n t e r v c ( 1 , max(Y [ , 1 ] ) ) 

lambda5 u n i r o o t ( n s g l e i c h u n g , Y=Z , 

 

i n t e r v a l=i n t e r v , t o l=d e l t a ) $ r o o t 

c ( lambda1 , lambda2 , lambda3 , lambda4 , lambda5 ) 

 



Matthias Kohl 




1196

L.9.3 Numerische Probleme mit dem 

Coupon-Collector 

############################################ 


############################################ 

############################################ 

# T e i l ( a ) 

############################################ 

S i e b f o r m e l f u n c t i o n (N, n ){ 

i f (N==n ){ 

} 

e l s e { 

 

k 0 : n 

e r g ( 1)^k£ choose ( n , k ) £(1 k/n)^N 

k 0 : ( n 1) 

 



Matthias Kohl 




1197

} 

} 

e r g ( 1)^k£ choose ( ( n 1) , k ) 

e r g e r g £(1 (k+1)/n )^(N 1) 

r e t u r n (max ( 0 , sum ( e r g ) ) ) 

S i e b f o r m e l . erw f u n c t i o n ( n ){ 

} 

k 1 : ( n 1) 

e r g ( 1)^(k 1)£ choose ( n , k ) £(1 k/n)^n/k 

r e t u r n ( n£ ( sum ( e r g )+1)) 

############################################ 

 

# n i c h t B e s t a n d t e i l d e r Aufgabe 

############################################ 

 



Matthias Kohl 




1198

S i e b f o r m e l . v a r f u n c t i o n ( n ){ 

} 

k 1 : ( n 1) 

e r g 0 ( 1)^(k 1)£ choose ( n , k ) £(1 k/n)^n/k 

e r g 1 sum ( e r g 0 ) 

e r g 2 ( 1)^(k 1)£ choose ( n , k ) £(1 k/n)^n/k^2 

e r g (2 £sum ( e r g 2 ) e r g 1 ^2)£n^2 n£ e r g 1 


n c ( 2 , 3 , 5 , 20 , 50 , 75) 

erw numeric ( l e n g t h ( n ) ) 

s t r e u numeric ( l e n g t h ( n ) ) 

par ( mfrow=c ( 3 , 2 ) ) 

i t e r 0 

 



Matthias Kohl 




1199

f o r ( i i n n ){ 

} 

 

WS numeric (10 £ i i +1) 

f o r ( j i n seq ( from=i , to=10£ i , by =1)) 

WS[ j i +1] S i e b f o r m e l (N=j , n=i ) 


erw [ i t e r ] S i e b f o r m e l . erw ( i ) 

s t r e u [ i t e r ] s q r t ( S i e b f o r m e l . v a r ( i ) ) 

p r i n t (WS) 

p l o t ( seq ( from=i , to=l e n g t h (WS)+ i 1, by =1) , 

WS, t y p e=" s " , x l a b="N" , y l a b="WS" ) 

t i t l e ( p a s t e ( " W a h r s c h e i n l i c h k e i t s f u n k t i o n 

␣␣␣␣␣␣␣␣␣␣␣␣␣␣␣␣ f u e r ␣n=" , i ) ) 

cat ( " Die ␣ E r w a r t u n g s w e r t e ␣ l a u t e n : \ t " , erw , "\n" ) 

 



Matthias Kohl 




1200

cat ( " Die ␣ Streuung ␣ i s t : \ t " , s t r e u , "\n" ) 

cat ( " V e r h a e l t n i s ␣E(N) /n : \ t " , erw /n , "\n" ) 

# L o g a r i t h m i s c h e s Wachstum 

# Zum V e r g l e i c h : 

cat ( " V e r g l e i c h ␣ mit ␣ l o g ( n )+0.6:\ t " , l o g ( n )+0.6 , "\n" ) 

# A l s o f u e r n=576 g i l t n a e h e r u n g s w e i s e : 

# erw /n i n [ 6 . 5 , 7 ] 

# A l s o E r w a r t u n g s w e r t : erw i n [ 3 7 4 4 , 4032] 

############################################ 

# T e i l ( b ) 

############################################ 

n 576 

x 1 : n 

 

i t e r 100 

c o u n t e r rep ( n , i t e r ) 

 



Matthias Kohl 




1201

# z u r V e r a n s c h a u l i c h u n g : 

# 30 Ziehungen aus 1 : 2 0 

sample ( 1 : 2 0 , 3 0 , r e p l a c e=T) 

# T a b e l l e d e r angenommen Werte 

t a b l e ( sample ( 1 : 2 0 , 3 0 , r e p l a c e=T) ) 

# a l s Matrix 

as . m a t r i x ( t a b l e ( sample ( 1 : 2 0 , 3 0 , r e p l a c e=T) ) ) 

# Album v o l l Matrix hat n Z e i l e n 

f o r ( i i n 1 : i t e r ){ 

 

t e s t 1 

y sample ( x , n , r e p l a c e=T) 

w h i l e ( t e s t

} 

} 

p r i n t ( i ) 

y as . i n t e g e r ( row . names ( y ) ) 

t e s t l e n g t h ( y ) 

cat ( " M i t t e l w e r t : \ t " , mean ( c o u n t e r ) , "\n" ) 

cat ( " E m p i r i s c h e ␣ V a r i a n z : \ t " , v a r ( c o u n t e r ) , "\n" ) 

############################################ 

# T e i l ( c ) 

############################################ 

# E e x a k t 

Eexakt f u n c t i o n ( n ){ n£sum (1 / ( 1 : n ) ) } 

Emacheron 

 

f u n c t i o n ( n ){ n£ ( l o g ( n )+0.5772)} 

n c ( 2 , 3 , 5 , 20 , 50 , 75 , 576) 

s a p p l y ( n , Eexakt ) 

 



Matthias Kohl 




1203

s a p p l y ( n , Emacheron ) 

############################################ 

# T e i l ( d ) 

############################################ 

ziehgeom1 f u n c t i o n ( n , N){ 

 

rgeom (1 ,1 (n 1)/N)+1 

} # Ziehung von X_n 

ziehgeomn f u n c t i o n ( a , N){ 

} 

geoms s a p p l y ( 1 : N, ziehgeom1 ,N=N ) ; sum ( geoms ) 

ziehgeomo f u n c t i o n (M, N){ 

} 

s a p p l y ( 1 :M, ziehgeomn ,N=N) 

 



Matthias Kohl 




1204

L.9.4 Optimale Prognose 

############################################ 


############################################ 

############################################ 

# T e i l ( a ) 

############################################ 

y seq ( from =0, to =10, by =0.1) 

bed . Erw f u n c t i o n ( y , Fkt , . . . ) 

{ 

{ 

 

i n t e g r a n d 1 f u n c t i o n ( x , y , Fkt , . . . ) 

e v a l ( p a r s e ( t e x t=p a s t e ( "x£" , Fkt , 

 



Matthias Kohl 




1205

} 

 

" ( y x , ␣ . . . ) £dnorm ( x ) " , sep="" ) ) ) 

i n t 1 i n t e g r a t e ( i n t e g r a n d 1 , lower= I n f , 

upper=I n f , r e l . t o l =1e 12, y=y , 

Fkt=Fkt , . . . ) $ v a l u e 

i n t e g r a n d 2 f u n c t i o n ( x , y , Fkt , . . . ) 

{ 

} 

e v a l ( p a r s e ( t e x t=p a s t e ( Fkt , 

" ( y x , ␣ . . . ) £dnorm ( x ) " , 

sep="" ) ) ) 

i n t 2 i n t e g r a t e ( i n t e g r a n d 2 , lower= I n f , 

upper=I n f , r e l . t o l =1e 12, y=y , 

Fkt=Fkt , . . . ) $ v a l u e 

 



Matthias Kohl 




1206

} 

# T e i l ( b ) 

 

r e t u r n ( i n t 1 / i n t 2 ) 

f . konv f u n c t i o n ( x , r =0.1 , sd =3) 

{ 

} 

(1 r ) £dnorm ( x ) + r £dnorm ( x , sd =3) 

g . i s a p p l y ( y , bed . Erw , Fkt="dnorm" ) 

g . i i s a p p l y ( y , bed . Erw , Fkt=" f . konv " ) 

g . i i i s a p p l y ( y , bed . Erw , Fkt=" dcauchy " ) 

############################################ 

############################################ 

 



Matthias Kohl 




1207

postmod f u n c t i o n ( y , x . l i =0, x . r e =5, 

{ 

} 

w e i t e =0.01 , Fkt , . . . ) 

x seq ( from=x . l i , to=x . re , by=w e i t e ) 

e v a l ( p a r s e ( t e x t=p a s t e ( " h i l f ␣ ␣" , Fkt , 

" ( y x , ␣ . . . ) £dnorm ( x ) " , sep="" ) ) ) 

postmod x [ o r d e r ( h i l f ) ] [ l e n g t h ( x ) ] 

r e t u r n ( postmod ) 

h . i s a p p l y ( y , postmod , Fkt="dnorm" ) 

h . i i s a p p l y ( y , postmod , Fkt=" f . konv " ) 

h . i i i 

 

s a p p l y ( y , postmod , Fkt=" dcauchy " ) 

 



Matthias Kohl 




1208

############################################ 

# T e i l ( c ) 

############################################ 

g . i . g l a t t s p l i n e ( y , g . i , n=5£ l e n g t h ( y ) ) 

g . i i . g l a t t s p l i n e ( y , g . i i , n=5£ l e n g t h ( y ) ) 

g . i i i . g l a t t s p l i n e ( y , g . i i i , n=5£ l e n g t h ( y ) ) 

h . i . g l a t t s p l i n e ( y , h . i , n=5£ l e n g t h ( y ) ) 

h . i i . g l a t t s p l i n e ( y , h . i i , n=5£ l e n g t h ( y ) ) 

h . i i i . g l a t t s p l i n e ( y , h . i i i , n=5£ l e n g t h ( y ) ) 

par ( c o l=" g r e e n " ) 

p l o t ( g . i . g l a t t $x , g . i . g l a t t $y , t y p e=" l " , 

x l i m=c ( min ( y ) , max( y ) ) , 

y l i m=c ( 0 , 5 ) , x l a b="" , y l a b="" ) 

par ( new=T, c o l=" b l u e " ) 

p l o t ( g . i i . g l a t t $x , g . i i . g l a t t $y , t y p e=" l " , 

 



Matthias Kohl 




1209



par ( new=T, c o l=" p u r p l e " ) 

p l o t ( g . i i i . g l a t t $x , g . i i i . g l a t t $y , t y p e=" l " , 



par ( new=T, c o l=" y e l l o w " , l t y =2) 

p l o t ( h . i . g l a t t $x , h . i . g l a t t $y , t y p e=" l " , 



par ( new=T, c o l=" orange " , l t y =1) 

p l o t ( h . i i . g l a t t $x , h . i i . g l a t t $y , t y p e=" l " , 



par ( new=T, c o l=" r e d " ) 

 

p l o t ( h . i i i . g l a t t $x , h . i i i . g l a t t $y , t y p e=" l " , 


 



Matthias Kohl 




1210

n 5000 


par ( new=T, c o l=" b l a c k " ) 

p l o t ( 0 , 0 , t y p e="n" , x l i m=c ( min ( y ) , max( y ) ) , 


t i t l e ( " B e d i n g t e r ␣ E r w a r t u n g s w e r t ␣und␣ P o s t e r i o r ␣Modus" ) 

legend ( min ( y ) , 5 , legend=c ( " ( a ) , i " , " ( a ) , i i " , 

" ( a ) , i i i " , " ( b ) , i " , " ( b ) , i i " , " ( b ) , i i i " ) , 

n c o l =2, f i l l =c ( " g r e e n " , " b l u e " , " p u r p l e " , 

" y e l l o w " , " orange " , " r e d " ) ) 

############################################ 

# T e i l ( d ) 

############################################ 

 



Matthias Kohl 




1211

X rnorm ( n ) 

eps . i rnorm ( n ) 

r rbinom ( n , prob =0.1 , s i z e =1) 

eps . i i (1 r ) £ rnorm ( n ) + r £ rnorm ( n , sd =3) 

eps . i i i rcauchy ( n ) 

Y . i X + eps . i 

Y . i i X + eps . i i 

Y . i i i X + eps . i i i 

g . i . f k t s p l i n e f u n ( g . i . g l a t t $x , g . i . g l a t t $y ) 

g . i i . f k t s p l i n e f u n ( g . i i . g l a t t $x , g . i i . g l a t t $y ) 

g . i i i . f k t s p l i n e f u n ( g . i i i . g l a t t $x , g . i i i . g l a t t $y ) 

h . i . f k t s p l i n e f u n ( h . i . g l a t t $x , h . i . g l a t t $y ) 

h . i i . f k t 

 

s p l i n e f u n ( h . i i . g l a t t $x , h . i i . g l a t t $y ) 

h . i i i . f k t s p l i n e f u n ( h . i i i . g l a t t $x , h . i i i . g l a t t $y ) 

 



Matthias Kohl 




1212

k . a . i . i g . i . f k t (Y . i ) 

k . a . i . i i g . i . f k t (Y . i i ) 

k . a . i . i i i g . i . f k t (Y . i i i ) 

k . a . i i . i g . i i . f k t (Y . i ) 

k . a . i i . i i g . i i . f k t (Y . i i ) 

k . a . i i . i i i g . i i . f k t (Y . i i i ) 

k . a . i i i . i g . i i i . f k t (Y . i ) 

k . a . i i i . i i g . i i i . f k t (Y . i i ) 

k . a . i i i . i i i g . i i i . f k t (Y . i i i ) 

k . b . i . i h . i . f k t (Y . i ) 

k . b . i . i i h . i . f k t (Y . i i ) 

k . b . i . i i i h . i . f k t (Y . i i i ) 

k . b . i i . i h . i i . f k t (Y . i ) 

k . b . i i . i i h . i i . f k t (Y . i i ) 

 

k . b . i i . i i i h . i i . f k t (Y . i i i ) 

k . b . i i i . i h . i i i . f k t (Y . i ) 

 



Matthias Kohl 




1213

k . b . i i i . i i h . i i i . f k t (Y . i i ) 

k . b . i i i . i i i h . i i i . f k t (Y . i i i ) 

############################################ 

# T e i l ( e ) 

############################################ 

emp . mse as . data . frame ( m a t r i x ( 

c ( mean ( (Y . i k . a . i . i )^2) , 

mean ( (Y . i i k . a . i . i i )^2) , 

mean ( (Y . i i i k . a . i . i i i )^2) , 

mean ( (Y . i k . a . i i . i )^2) , 

mean ( (Y . i i k . a . i i . i i )^2) , 

mean ( (Y . i i i 

 

k . a . i i . i i i )^2) , 

mean ( (Y . i k . a . i i i . i )^2) , 

mean ( (Y . i i k . a . i i i . i i )^2) , 

 



Matthias Kohl 




1214

) ) 

 

mean ( (Y . i i i k . a . i i i . i i i )^2) , 

mean ( (Y . i k . b . i . i )^2) , 

mean ( (Y . i i k . b . i . i i )^2) , 

mean ( (Y . i i i k . b . i . i i i )^2) , 

mean ( (Y . i k . b . i i . i )^2) , 

mean ( (Y . i i k . b . i i . i i )^2) , 

mean ( (Y . i i i k . b . i i . i i i )^2) , 

mean ( (Y . i k . b . i i i . i )^2) , 

mean ( (Y . i i k . b . i i i . i i )^2) , 

mean ( (Y . i i i k . b . i i i . i i i ) ^ 2 ) ) , 

n c o l =3, byrow=T, 

dimnames= l i s t ( c ( " ( a ) , i " , " ( a ) , i i " , " ( a ) , i i i " , 

" ( b ) , i " , " ( b ) , i i " , " ( b ) , i i i " ) , 

c ( " normal " , " konvex " , " cauchy " ) ) 

 



Matthias Kohl 




1215


L.10.1 Lineare Regression 

############################################ 


############################################ 


FILENAME " c r a b s . data " 

c r a b s read . t a b l e ( f i l e =p a s t e (PFAD, FILENAME , 

a t t a c h ( c r a b s ) 

names ( c r a b s ) 

 


p l o t ( p o s t s z , p r e s z , t y p e="p" ) 

 



Matthias Kohl 




1216

# Vermutung : 

# p r e s z = c o n s t + t h e t a £ p o s t s z + F e h l e r 

# R Formel 

# p o s t s z ~ p r e s z 

 

 



Matthias Kohl 




1217

L.10.2 Freier Fall eines Körpers 

############################################ 


############################################ 

# Z e i t p u n k t e 

t seq ( from=1/ 30 , to=14/ 30 , by=1/ 30) 

t 

# Höhe 

h c ( 1 1 . 8 6 , 1 5 . 6 7 , 2 0 . 6 , 2 6 . 6 9 , 3 3 . 7 1 , 

h 

# D e s i g n m a t r i x 

4 1 . 9 3 , 5 1 . 1 3 , 6 1 . 4 9 , 7 2 . 9 0 , 8 5 . 4 4 , 

9 9 . 0 8 , 1 1 3 . 7 7 , 1 2 9 . 5 4 , 1 4 6 . 4 8 ) 

 



Matthias Kohl 




1218

e i n s rep ( 1 , l e n g t h ( h ) ) 

X m a t r i x ( c ( e i n s , t , t ^2) , n c o l =3) 

X 

# K l e i n s t e Quadrate S c h ä t z e r 

beta . l s s o l v e ( t (X)%£%X)%£%t (X)%£%h 

beta . l s 

# Schätzung f ü r G r a v i t a t i o n s k o n s t a n t e g 

g 2£ beta . l s [ 3 ] /100 

g 

# Streung von beta_1 

V a r i a n z sum ( ( h beta . l s [ 1 ] beta . l s [ 2 ] £ t 

V a r i a n z 

beta . l s [ 3 ] £ t ^2)^2) / ( l e n g t h ( h) 3) 

K o v a r i a n z s o l v e ( t (X)%£%X) £ V a r i a n z 

 



Matthias Kohl 




1219

K o v a r i a n z 

Streuung 2£ s q r t ( K o v a r i a n z [ 3 , 3 ] ) /100 

Streuung 

 

 



Matthias Kohl 




1220

L.10.3 Länge der alten Meile 

############################################ 


############################################ 

# D e s i g n m a t r i x f ü r Modell 1 

X1 m a t r i x ( c ( 1 , 1 , 1 , 1 , 1 , 1 , 

X1 

1 , 2 , 3 , 4 , 5 , 6 ) , n c o l =2) 

# B e o b a c h t u n g s v e k t o r 

y c (784 , 2460 , 4147 , 5826 , 7515 , 9187) 

y 


 

beta . l s 1 s o l v e ( t (X1)%£%X1)%£%t (X1)%£%y 

 



Matthias Kohl 




1221

eta . l s 1 


V a r i a n z 1 sum ( ( y beta . l s 1 [ 1 ] 

V a r i a n z 1 

X2 

 

c ( 1 : 6 ) £ beta . l s 1 [ 2 ] ) ^ 2 ) /(6 2) 

K o v a r i a nz1 s o l v e ( t (X1)%£%X1) £ V a r i a n z 1 

K o v a r i a n z 1 

Streuung1 s q r t ( K ovarianz1 [ 2 , 2 ] ) 

Streuung1 

# D e s i g n m a t r i x f ü r Modell 2 

X2 m a t r i x ( rep ( 1 , 5 ) , n c o l =1) 

# B e o b a c h t u n g s v e k t o r 

 



Matthias Kohl 




1222

z y [2:6] y [ 1 : 5 ] 

z 


beta . l s 2 s o l v e ( t (X2)%£%X2)%£%t (X2)%£%z 

beta . l s 2 


V a r i a n z 2 sum ( ( z beta . l s 2 )^2) /(5 1) 

V a r i a n z 2 

K o v a r i a n z2 s o l v e ( t (X2)%£%X2) £ V a r i a n z 2 

K o v a r i a n z2 

Streuung2 s q r t ( K ovarianz2 ) 

Streuung2 

 

 



Matthias Kohl 




1223

L.10.4 Modellanpassung, Modellwahl 

############################################ 


############################################ 


FILENAME " model . t x t " 

model read . t a b l e ( f i l e =p a s t e (PFAD, FILENAME , 

a t t a c h ( model ) 

model 

# T e i l ( a ) 

 


############################################ 

############################################ 

 



Matthias Kohl 




1224

# backward s e l e c t i o n 

lm . i i i lm (Y ~ X + I (X^2)) 

summary ( lm . i i i ) 

lm . i i update ( lm . i i i , . ~ . I (X^2)) 

summary ( lm . i i ) 

# f o r w a r d s e l e c t i o n 

lm . i lm (Y ~ 1) 

summary ( lm . i ) 

lm . i i update ( lm . i , . ~ . + X) 

summary ( lm . i i ) 

lm . i i i update ( lm . i i , . ~ . + I (X^2)) 

summary ( lm . i i i ) 

# AIC K r i t e r i u m 

 

s t e p ( lm . i i i ) 

drop1 ( lm . i i i , t e s t="F" ) 

 



Matthias Kohl 




1225

drop1 ( lm . i i i , t e s t=" Chisq " ) 

# Cp K r i t e r i u m 

r e q u i r e ( l e a p s ) 

lm1 l e a p s ( m a t r i x ( c (X, X^2) , n c o l =2) , Y) 

# nehme das Modell mit cp=p a l s o h i e r y=ax+b 

############################################ 

# T e i l ( b ) 

############################################ 

p l o t (X, Y) 

l i n e s (X, f i t t e d ( lm . i i ) ) 

t i t l e ( " P l o t ␣ d e r ␣ a n g e p a s s t e n ␣ Kurve " ) 

############################################ 

 

# T e i l ( c ) 

############################################ 

 



Matthias Kohl 




1226


#k u r v e s p l i n e f u n (X, f i t t e d ( lm . i i ) ) 

#p o i n t s ( 2 , k u r v e ( 2) , c o l ="r e d ") 


neu1 data . frame (X = 2) 

p o i n t s ( 2 , p r e d i c t ( lm . i i , neu1 , se . f i t =T) $ f i t , 

# T e i l ( d ) 

 

c o l=" r e d " ) 

neu data . frame (X = seq ( 3 , 1, 0 . 1 ) ) 

pred . KI p r e d i c t ( lm . i i , neu , i n t e r v a l=" p r e d i c t i o n " ) 

l i n e s ( neu $X, pred . KI [ , 2 ] , c o l=" r e d " ) 

l i n e s ( neu $X, pred . KI [ , 3 ] , c o l=" r e d " ) 

############################################ 

############################################ 

FILENAME " l u e c k e . t x t " 

 



Matthias Kohl 




1227

l u e c k e read . t a b l e ( f i l e =p a s t e (PFAD, FILENAME , 

 


p o i n t s ( l u e c k e [ , 2 ] , l u e c k e [ , 1 ] , c o l=" b l u e " ) 

 



Matthias Kohl 




1228


L.11.1 ANOVA 

############################################ 


############################################ 


FILENAME " m a r g a r i n e . t x t " 

m a r g a r i n e read . t a b l e ( f i l e =p a s t e (PFAD, FILENAME , 

m a r g a r i n e 


# K o v a r i a t e a l s Faktoren k o d i e r e n 

 



Matthias Kohl 




1229

m a r g a r i n e [ , 2 ] f a c t o r ( m a r g a r i n e [ , 2 ] ) 

m a r g a r i n e [ , 3 ] f a c t o r ( m a r g a r i n e [ , 3 ] ) 

a t t a c h ( m a r g a r i n e ) 

par ( mfrow=c ( 2 , 1 ) ) 

p l o t (Y ~ FaktorA £ FaktorB ) 

windows ( ) 

par ( mfrow=c ( 2 , 1 ) ) 

i n t e r a c t i o n . p l o t ( FaktorA , FaktorB , Y) 

i n t e r a c t i o n . p l o t ( FaktorB , FaktorA , Y) 

# Geraden n i c h t p a r a l l e l e s g i b t I n t e r a k t i o n e n 

lm1 lm (Y ~ FaktorA £ FaktorB ) 

p r i n t ( lm1 ) 

summary ( lm1 ) 

p l o t ( lm1 ) 

 

anova ( lm1 ) 

 



Matthias Kohl 




1230

windows ( ) 

par ( mfrow=c ( 2 , 1 ) ) 

qqnorm ( lm1$ r e s ) 

q q l i n e ( lm1$ r e s ) 

p l o t ( lm1$ f i t t e d , lm1$ r e s , x l a b=" g e f i t t e t e ␣ Werte " , 

 


t i t l e ( " R e s i d u e n p l o t " ) 

 



Matthias Kohl 




1231

L.11.2 Box–Cox–Transformation I 

############################################ 


############################################ 


FILENAME " gauge . t x t " 

gauge read . t a b l e ( f i l e =p a s t e (PFAD, FILENAME , 

a t t a c h ( gauge ) 

gauge 

# T e i l ( a ) 

 


############################################ 

############################################ 

 



Matthias Kohl 




1232

lm1 lm ( g a i n ~ d e n s i t y ) 


par ( mfrow=c ( 2 , 1 ) ) 

p l o t ( d e n s i t y , lm1$ r e s i d , x l a b=" d e n s i t y " , 


t i t l e ( main=" R e s i d u e n p l o t s ␣ f ü r ␣ d i e ␣ O r i g i n a l d a t e n " ) 

p l o t ( lm1$ f i t t e d , lm1$ r e s i d , x l a b=" g e f i t t e t e ␣ Werte " , 


# q u a d r a t i s c h e Funktion i n d e n s i t y . . . 

############################################ 

# T e i l ( b ) 

############################################ 

r e q u i r e (MASS) 

# 1 . Versuch : lambda=d e f a u l t=seq ( 3 , 3 , 0 . 1 ) 

windows ( ) 

 



Matthias Kohl 




1233

par ( mfrow=c ( 1 , 3 ) ) 

boxcox ( o b j e c t=g a i n ~ d e n s i t y ) 

# 2 . Versuch : 

boxcox ( o b j e c t=g a i n ~ d e n s i t y , 

# 3 . Versuch : 

# T e i l ( c ) 

 

lambda=seq ( 0.2 , 0 , 0 . 0 1 ) ) 

boxcox ( o b j e c t=g a i n ~ d e n s i t y , 

g a i n 1 g a i n ^( 0.09) 

lambda=seq ( 0.1 , 0.05 , 0 . 0 1 ) ) 

############################################ 

############################################ 

lm2 lm ( g a i n 1 ~ d e n s i t y ) 

 



Matthias Kohl 




1234


windows ( ) 

par ( mfrow=c ( 2 , 1 ) ) 

p l o t ( d e n s i t y , r e s i d ( lm2 ) , x l a b=" d e n s i t y " , 

y l a b=" r e s i d u e n ( g a i n ) " ) 

t i t l e ( " R e s i d u e n p l o t ␣ f ü r ␣ d i e ␣ t r a n s f o r m i e r t e n ␣ Daten " ) 

p l o t ( lm2$ f i t t e d , lm2$ r e s i d , x l a b=" g e f i t t e t e ␣ Werte " , 


############################################ 

# T e i l ( d ) 

############################################ 

windows ( ) 

p l o t ( d e n s i t y , g a i n ) 

l i n e s ( d e n s i t y , 

 

f i t t e d ( lm1 ) , c o l=" b l u e " ) 

l i n e s ( d e n s i t y , f i t t e d ( lm2)^( 1/ 0 . 0 9 ) , c o l=" r e d " ) 

t i t l e ( " Der ␣ gauge ␣ Datensatz ␣ mit ␣ a n g e p a s s t e n ␣ Kurven " ) 

 



Matthias Kohl 




1235

legend ( min ( d e n s i t y ) , 100 , legend=c ( " o r i g i n a l " , 

 

" t r a n s f o r m i e r t " ) , f i l l =c ( " b l u e " , " r e d " ) ) 

 



Matthias Kohl 




1236

L.11.3 Box–Cox–Transformation II 

############################################ 


############################################ 

# aus B l a t t 9 Aufgabe 3 

# E e x a k t 

Eexakt f u n c t i o n ( n ){ n£sum (1 / ( 1 : n ) ) } 

n 1:100 

y s a p p l y ( n , Eexakt ) 

yn s a p p l y ( n , Eexakt ) /n 


# ACHTUNG boxcox t r a n s f o r m i e r t d i e y ’ s n i c h t d i e x ’ s 

 



Matthias Kohl 




1237

# > Vertauschung von y > x 

par ( mfrow=c ( 1 , 2 ) ) 

boxcox ( o b j e c t=n ~ y ) # => u e b e r l i n e a r 

boxcox ( o b j e c t=n ~ yn ) # ~ 0 a l s o l o g 

par ( mfrow=c ( 1 , 1 ) ) 

# a l s o E( n)= a £ l o g ( n ) £n + c ? 

lm ( y~ I ( l o g ( n ) £n ) ) 

p l o t ( n , yn ) 

par ( new="T" ) 

p l o t ( n , 1 . 1 2 £n£ l o g ( n )+4.724) 

matplot ( n , c b i n d ( y , 1 . 1 2 £n£ l o g ( n )+4.724)) 

r e s y 1 . 1 2 £n£ l o g ( n ) 4 . 7 2 

p l o t ( r e s ) 

 

# so noch n i c h t b e f r i e d i g e n d . . . 

 



Matthias Kohl 




1238

# a l s o E( n ) /n= a £ l o g ( n ) + c ? 

lm ( yn~ I ( l o g ( n ) ) ) 

r e s 2 1 yn 0 . 9 6 £ l o g ( n ) 0 . 7 6 

r e s 2 n£ ( yn 0 . 9 6 £ l o g ( n ) 0 . 7 6 ) 

p l o t ( r e s 2 1 ) 

p l o t ( r e s 2 ) 

# oder : E( n)= a £ n£ l o g ( n ) + b£n + c ? 

lm ( y~ I ( n£ l o g ( n))+n ) 

r e s 3 lm ( yn~ I ( n£ l o g ( n))+n ) $ r e s 

p l o t ( r e s 3 ) 

# gar n i c h t s c h l e c h t , a b e r . . . 

# Asymptotik n i c h t gut f u e r k l e i n e s n? 

e r g lm ( y [ 1 0 : 1 0 0 ] ~ I ( n [ 1 0 : 1 0 0 ] £ l o g ( n [ 1 0 : 1 0 0 ] ) ) 

 


+ n [ 1 0 : 1 0 0 ] ) 

 



Matthias Kohl 




1239

e s 4 y e r g $co [ 1 ] e r g $co [ 2 ] £n£ l o g ( n ) 

p l o t ( r e s 4 ) 

N 1:100000 

 

n£ e r g $co [ 3 ] 

# schon f a s t prima . . . 

e r g 2 lm ( y [ 2 0 : 1 0 0 ] ~ I ( n [ 2 0 : 1 0 0 ] £ l o g ( n [ 2 0 : 1 0 0 ] ) ) 

p r i n t ( e r g 2 ) 

+ n [ 2 0 : 1 0 0 ] ) 

r e s 5 y e r g 2 $co [ 1 ] e r g 2 $co [ 2 ] £n£ l o g ( n ) 

p l o t ( r e s 5 ) 

p l o t ( e r g 2 $ r e s ) 

# prima , oder ? 

n£ e r g 2 $co [ 3 ] 

mach sum (1 /N) l o g (100000) 

p r i n t ( c ( mach=mach , gesch=e r g 2 $co [ 3 ] , 

 



Matthias Kohl 




1240

d i f f=mach e r g 2 $co [ 3 ] ) ) 

# > a u f 3 S t e l l e n genau ! 

 



Matthias Kohl 




1241

L.11.4 Generalisiert lineares Modell 

############################################ 


############################################ 


FILENAME " a d v e r . t x t " 

a d v e r read . t a b l e ( f i l e =p a s t e (PFAD, FILENAME , 

a t t a c h ( a d v e r ) 

a d v e r 


# e r s t e S p a l t e : Wochenzaehler , 

# z w e i t e S p a l t e : Anzahl d e r "JA" 

 

# d r i t t e S p a l t e : Budget 

 



Matthias Kohl 




1242

# e r z e u g e n d e r Response V a r i a b l e n : aus 

# t e c h n i s c h e n Gruenden ( MISSINGS ! ) 

# b e n o e t i g t R d i e Zahl d e r ja ’ s i n e i n e r S p a l t e , 

# d i e Zahl d e r nein ’ s i n e i n e r z w e i t e n 

p e r s o n e n m a t r i x ( c ( pers , 66 p e r s ) , n c o l =2) 

glm1 glm ( formula=p e r s o n e n ~ aufw , f a m i l y=b i n o m i a l ) 

glm2 glm ( formula=p e r s o n e n ~ aufw , 

summary ( glm1 ) 

summary ( glm2 ) 

windows ( ) 

 

par ( mfrow=c ( 2 , 2 ) ) 

p l o t ( glm1 ) 

f a m i l y=b i n o m i a l ( l i n k=p r o b i t ) ) 

 



Matthias Kohl 




1243

windows ( ) 

par ( mfrow=c ( 2 , 2 ) ) 

p l o t ( glm2 ) 

# U n t e r s t e l l t e r Zusammenhang 

x seq ( 0 , max( aufw ) £ 1 . 1 , 0 . 1 ) 

# l i n e a r e P r e d i k t o r e n 

l p r e d 1 glm1$ coe [ 1 ] + glm1$ coe [ 2 ] £x 

l p r e d 2 glm2$ coe [ 1 ] + glm2$ coe [ 2 ] £x 

# L i n k 

l i n k 1 exp ( l p r e d 1 ) / (1 + exp ( l p r e d 1 ) ) 

l i n k 2 pnorm ( l p r e d 2 ) 

windows ( ) 

matplot ( x , c b i n d ( l i n k 1 , l i n k 2 ) , t y p e=" l " , 

 

y l i m=c ( 0.05 , max( p e r s / 66)+0.05) , 

y l a b=" Prognose ␣ f u e r ␣ d i e ␣ Wirksamkeit " , 

x l a b=" Budget " ) 

 



Matthias Kohl 




1244

p o i n t s ( aufw , p e r s / 66) 

detach ( ) 

# kaum U n t e r s c h i e d e z w s i c h e n P r o b i t und l o g i t 

 

 



Matthias Kohl 




1245


L.12.1 Multivariate Normalverteilung 

############################################ 


############################################ 

############################################ 

# T e i l ( a ) 

############################################ 

# z i e h t d i e Wurzel aus e i n e r p o s i t i v d e f i n i t e n 

# Matrix mit svd 

w u r z e l f u n c t i o n ( x ){# D i a g n o s t i k : 

i f ( nrow ( x ) !=n c o l ( x ) ) 

 

stop ( " k e i n e ␣ q u a d r a t i s c h e ␣ Matrix ! " ) 

 



Matthias Kohl 




1246

} 

i f ( sum ( t ( x ) !=x )>0) 

stop ( " k e i n e ␣ s ymmetrische ␣ Matrix ! " ) 

e r g svd ( x ) 

i f ( sum ( e i g e n ( x , symmetric=T) $ v a l u e s 0) 

stop ( " k e i n e ␣ pos . ␣ s e m i d e f i n i t e ␣ Matrix ! " ) 

r e t u r n ( e r g $u %£% d i a g ( s q r t ( e r g $d ) ) %£% t ( e r g $v ) ) 

# z i e h t d i e Wurzel aus e i n e r p o s i t i v d e f i n i t e n 

# Matrix mit c h o l e s k i 

w u r z e l 2 f u n c t i o n ( x ){# D i a g n o s t i k : 

i f ( nrow ( x ) !=n c o l ( x ) ) 

stop ( " k e i n e ␣ q u a d r a t i s c h e ␣ Matrix ! " ) 

i f ( sum ( t ( x ) !=x )>0) 

 

stop ( " k e i n e ␣ s ymmetrische ␣ Matrix ! " ) 

e r g t ( c h o l ( x ) ) 

 



Matthias Kohl 




1247

} 


# m e h r d i m e n s i o n a l e N o r m a l v e r t e i l u n g 

rnnorm f u n c t i o n ( n , mu, sigma ){ 

} 

# T e i l ( b ) 

 

d l e n g t h (mu) 

X0 m a t r i x ( rnorm ( d£n ) , d , n ) 

X t ( w u r z e l ( sigma )%£%X0 + mu) 

r e t u r n (X) 

############################################ 

############################################ 

# m e h r d i m e n s i o n a l e Konvexkombination von 

 



Matthias Kohl 




1248

# N o r m a l v e r t e i l u n g e n 

contnorm f u n c t i o n ( n , mu . id , sigma . id , mu . c , 

} 

sigma . c , r ){ 

X . i d rnnorm ( n , mu . id , sigma . i d ) 

X . c rnnorm ( n , mu . c , sigma . c ) 

U rbinom ( n , 1 , r ) 

X (1 U) £X . i d + U£X . c 

r e t u r n ( l i s t ( r=X, i d=X . id , c=X . c , U=U) ) 

S . i d m a t r i x ( c ( 1 , 1, 1, 2 ) , 2 , 2) 

m. i d c ( 0 , 0 ) 

S . c m a t r i x ( c ( 0 . 1 , 0 . 1 5 , 0 . 1 5 , 4 ) , 2 , 2) 

m. c c (5 , 2) 

X contnorm ( n=200 , mu . i d=m. id , sigma . i d=S . id , 

 

mu . c=m. c , sigma . c=S . c , r =0.1) 

 



Matthias Kohl 




1249

############################################ 

# T e i l ( c ) 

############################################ 

rad qnorm (1 0 . 0 2 5 ) 

z e r l svd ( S . i d ) 

t h e t a seq ( from =0, to=2£ pi , by =0.01) 

e l l i p s e r b i n d ( rad £ cos ( t h e t a ) £ s q r t ( z e r l $d [ 1 ] ) , 

rad £ s i n ( t h e t a ) £ s q r t ( z e r l $d [ 2 ] ) ) 

e l l i p s e t ( z e r l $u %£% e l l i p s e ) 

#Grenzen f ü r d i e P l o t s 

r e c e i l i n g (max( e l l i p s e [ , 1 ] , X$ r [ , 1 ] , X$ i d [ , 1 ] ) + 0 . 5 ) 

l i f l o o r ( min ( e l l i p s e [ , 1 ] , X$ r [ , 1 ] , X$ i d [ , 1 ] ) 0 . 5 ) 

ob c e i l i n g (max( e l l i p s e [ , 2 ] , X$ r [ , 2 ] , X$ i d [ , 2 ] ) + 0 . 5 ) 

un f l o o r ( min ( e l l i p s e [ , 2 ] , X$ r [ , 2 ] , X$ i d [ , 2 ] ) 0 . 5 ) 

 

par ( mfrow=c ( 1 , 1 ) , c o l=" dark ␣ r e d " ) 

 



Matthias Kohl 




1250

p l o t ( e l l i p s e , t y p e=" l " , x l a b="X1" , y l a b="X2" , 

x l i m=c ( l i , r e ) , y l i m=c ( un , ob ) , lwd =2) 

# f e s t s t e l l e n ob i n oder n i c h t i n E l l i p s e 

############################################ 

# T e i l ( d ) 

############################################ 

X . im . u t ( z e r l $u %£% t (X$ r ) ) 

i n d . i n . e l l ( (X . im . u [ , 1 ] ^ 2 / z e r l $d [ 1 ] + 

X . im . u [ , 2 ] ^ 2 / z e r l $d [ 2 ] )

X . aus . c X$ r [ ( ! i n d . i n . e l l )&(X$U==1) ,] 

par ( new=T, c o l=" g r e e n " ) 

p l o t (X . im . id , t y p e="p" , x l a b="X1" , y l a b="X2" , 

par ( new=T, c o l =1) 

 


par ( new=T, c o l=" b l u e " ) 

p l o t (X . aus . id , t y p e="p" , x l a b="X1" , y l a b="X2" , 


par ( new=T, c o l=" r e d " ) 

p l o t (X . i n . c , Xbcont . i2 , t y p e="p" , x l a b="X1" , 

y l a b="X2" , x l i m=c ( l i , r e ) , y l i m=c ( un , ob ) ) 

par ( new=T, c o l=" orange " ) 

p l o t (X . aus . c , t y p e="p" , x l a b="X1" , 

y l a b="X2" , x l i m=c ( l i , r e ) , y l i m=c ( un , ob ) ) 

p l o t ( 0 , 0 , t y p e="n" , x l a b="X1" , y l a b="X2" , 


 



Matthias Kohl 




1252

t i t l e ( e x p r e s s i o n ( p a s t e ( " B i v a r i a t e ␣ Konvexkombination ␣" , 

 

(1 r ) , i t a l i c (N) , " ( " , mu[ i d ] , " , " , Sigma [ i d ] , 

" ) ␣" , + r , i t a l i c (N) , " ( " , mu[ cont ] , " , " , 

Sigma [ cont ] , " ) " ) ) ) 

t e x t ( 0 . 5 , 3 , "95%␣ K o n f i d e n z i n t e r v a l l " , 

c o l=" dark ␣ r e d " , cex =1.1) 


" i d e a l ␣ a u ß e r h a l b " , " kont ␣ i n n e r h a l b " , 

" kont ␣ a u ß e r h a l b " ) , pch =1, 



" i d e a l ␣ a u ß e r h a l b " , " kont ␣ i n n e r h a l b " , 

" kont ␣ a u ß e r h a l b " ) , pch =1, 


 



Matthias Kohl 




1253

L.12.2 Clustering, Diskriminanzanalyse 

############################################ 


############################################ 


FILENAME " bank2 . t x t " 

bank2 read . t a b l e ( f i l e =p a s t e (PFAD, FILENAME , 

# complete l i n k a g e 

 

sep="" , c o l l a p s e="" ) , header=F) 

############################################ 

# T e i l ( a ) 

############################################ 

r e q u i r e ( mva) 

h1 h c l u s t ( d i s t ( bank2 ) , method=" complete " ) 

 



Matthias Kohl 




1254

p l o t ( h1 , main=" Complete ␣ L i n k a g e " ) 

# s i n g l e l i n k a g e 

h2 h c l u s t ( d i s t ( bank2 ) , method=" s i n g l e " ) 

windows ( ) 

p l o t ( h2 , main=" S i n g l e ␣ L i n k a g e " ) 

# a v e r a g e l i n k a g e 

h3 h c l u s t ( d i s t ( bank2 ) , method=" a v e r a g e " ) 

windows ( ) 

p l o t ( h3 , main=" Average ␣ L i n k a g e " ) 

# Ward A l g o r i t h m u s 

h4 h c l u s t ( d i s t ( bank2 ) , method=" ward " ) 

windows ( ) 

 

p l o t ( h4 , main="Ward A l g o r i t h m u s " ) 

 



Matthias Kohl 




1255

# C e n t r o i d A l g o r i t h m u s 

h5 h c l u s t ( d i s t ( bank2 ) , method=" c e n t r o i d " ) 

windows ( ) 

p l o t ( h5 , main=" C e n t r o i d A l g o r i t h m u s " ) 

# McQuitty A l g o r i t h m u s 

h6 h c l u s t ( d i s t ( bank2 ) , method=" m c q u i t t y " ) 

windows ( ) 

p l o t ( h6 , main=" McQuitty A l g o r i t h m u s " ) 

# Median A l g o r i t h m u s 

h7 h c l u s t ( d i s t ( bank2 ) , method=" median " ) 

windows ( ) 

p l o t ( h7 , main="Median A l g o r i t h m u s " ) 

############################################ 

# T e i l ( b ) 

 



Matthias Kohl 




1256

############################################ 

#e = e c h t e und f = f a l s c h e Banknoten 

groups c ( rep ( " e " , 1 0 0 ) , rep ( " f " , 1 0 0 ) ) 

bank c b i n d ( bank2 , groups ) 

# T r a i n i n g s und V a l i d i e r u n g s s t i c h p r o b e 

t r a i n c ( 1 : 7 0 , 1 3 1 : 2 0 0 ) 

v a l i d c ( 7 1 : 1 3 0 ) 


# L i n e a r e DA 

l l d a ( groups ~ . , bank , s u b s e t=t r a i n ) 

l . p r e p r e d i c t ( l , bank [ v a l i d , ] ) 

# Q u a d r a t i s c h e DA 

 

q qda ( groups ~ . , bank , s u b s e t=t r a i n ) 

q . p r e p r e d i c t ( q , bank [ v a l i d , ] ) 

 



Matthias Kohl 




1257

l . p r e $ c l a s s 

q . p r e $ c l a s s 

 

 



Matthias Kohl 




1258

L.12.3 Hauptkomponentenanalyse, Faktoranalyse 

############################################ 


############################################ 


FILENAME " bank2 . t x t " 

bank2 read . t a b l e ( f i l e =p a s t e (PFAD, FILENAME , 


############################################ 

# T e i l ( a ) 

############################################ 


bank . pr prcomp ( s c a l e ( bank2 , c e n t e r=T, s c a l e=T) ) 

 

bank . pr 

 



Matthias Kohl 




1259

summary ( bank . pr ) 

bank . pr1 prcomp ( bank2 , c e n t e r=T) 

bank . pr1 

summary ( bank . pr1 ) 

# e q u a l s c a l e d p l o t 

e q s c p l o t ( bank . pr $x [ , 1 : 2 ] , t y p e="n" , 

x l a b=" 1 . ␣Hauptkomp . " , 

y l a b=" 2 . Hauptkomp . " ) 

t e x t ( bank . pr $x [ , 1 : 2 ] , c ( rep ( " e " , 1 0 0 ) , rep ( " f " , 1 0 0 ) ) ) 

t i t l e ( " Hauptkomponentenanalyse ␣ f ü r ␣ Banknoten " ) 

windows ( ) 

e q s c p l o t ( bank . pr1 $x [ , 1 : 2 ] , t y p e="n" , 

x l a b=" 1 . ␣Hauptkomp . " , 

y l a b=" 2 . Hauptkomp . " ) 

t e x t ( bank . pr1 $x [ , 1 : 2 ] , c ( rep ( " e " , 1 0 0 ) , rep ( " f " , 1 0 0 ) ) ) 

t i t l e ( " Hauptkomponentenanalyse ␣ f ü r ␣ Banknoten " ) 

 



Matthias Kohl 




1260


bank . p r i n princomp ( bank2 ) 

summary ( bank . p r i n ) 

p l o t ( bank . p r i n ) 

b i p l o t ( bank . p r i n ) 

bank . p r i n 1 princomp ( bank2 , cor=T) 

summary ( bank . p r i n 1 ) 

p l o t ( bank . p r i n 1 ) 

b i p l o t ( bank . p r i n 1 ) 

############################################ 

# T e i l ( b ) 

############################################ 

 

# 2 Faktoren 

f a c t 2 f a c t a n a l ( bank2 , f a c t o r s =2) 

 



Matthias Kohl 




1261

f a c t 2 

l o a d i n g s ( f a c t 2 ) 

varimax ( f a c t 2 $ l o a d i n g s , n o r m a l i z e = FALSE) 

varimax ( f a c t 2 $ l o a d i n g s ) 

promax ( f a c t 2 $ l o a d i n g s ) 

# 3 Faktoren 

f a c t 3 f a c t a n a l ( bank2 , f a c t o r s =3) 

f a c t 3 

l o a d i n g s ( f a c t 3 ) 

varimax ( f a c t 3 $ l o a d i n g s , n o r m a l i z e = FALSE) 

varimax ( f a c t 2 $ l o a d i n g s ) 

promax ( f a c t 3 $ l o a d i n g s ) 

 

 



Matthias Kohl 




1262

L.12.4 normalisierte Hauptkomponentenanalyse 

############################################ 


############################################ 


FILENAME " u s c r i m e . dat " 

u s c r i m e read . t a b l e ( f i l e =p a s t e (PFAD, FILENAME , 


############################################ 

# T e i l ( a ) 

############################################ 

crime0 as . m a t r i x ( u s c r i m e [ , c ( 1 : 9 ) ] ) 

 



Matthias Kohl 




1263

#s t a n d a r d i s i e r u n g 

crimem a p p l y ( crime0 , 2 , mean ) 

c r i m e s a p p l y ( crime0 , 2 , sd ) 

c r i m e t ( ( t ( crime0) crimem ) / c r i m e s ) 

R cor ( c r i m e ) 

# E i g e n w e r t e und E i g e n v e k t o r e n d e r 

# K o r r e l a t i o n s m a t r i x 

EWR e i g e n (R) $ v a l u e s 

EVktR e i g e n (R) $ v e c t o r s 

EWR 

 

EVktR 

 



Matthias Kohl 




1264

#E r k l ä r t e V a r i a n z 

p s i 1 EWR[ 1 ] /sum (EWR) 

p s i 2 (EWR[1]+EWR[ 2 ] ) /sum (EWR) 

p s i 3 (EWR[1]+EWR[2]+EWR[ 3 ] ) /sum (EWR) 

p s i 1 

p s i 2 

p s i 3 

#U n t e r s c h i e d e z w i s c h e n den Regionen 

#Berechnung d e r NPCs 

NPC1 c r i m e %£% EVktR [ , 1 ] 



i n d 1 u s c r i m e [ ,10]==1 

 

i n d 2 u s c r i m e [ ,10]==2 

i n d 3 u s c r i m e [ ,10]==3 

 



Matthias Kohl 




1265

i n d 4 u s c r i m e [ ,10]==4 

#P l o t s 

par ( mfrow=c ( 2 , 2 ) ) 

p l o t (NPC1 , NPC2 , t y p e="p" , x l a b="NPC1" , 

y l a b="NPC2" , main=" e r s t e ␣ gegen ␣ z w e i t e ␣NPC" ) 

t e x t (NPC1 [ i n d 1 ==1], NPC2 [ i n d 1 ==1], 

( u s c r i m e [ , 1 0 ] ) [ i n d 1 ==1], c o l=" r e d " ) 


( u s c r i m e [ , 1 0 ] ) [ i n d 2 ==1], c o l=" g r e e n " ) 


( u s c r i m e [ , 1 0 ] ) [ i n d 3 ==1], c o l=" b l a c k " ) 


( u s c r i m e [ , 1 0 ] ) [ i n d 4 ==1], c o l=" b l u e " ) 


y l a b="NPC3" , main=" z w e i t e ␣ gegen ␣ d r i t t e ␣NPC" ) 

 



Matthias Kohl 




1266










y l a b="NPC3" , main=" e r s t e ␣ gegen ␣ d r i t t e ␣NPC" ) 





 



 



Matthias Kohl 




1267



p l o t ( c ( 1 : 9 ) , EWR, t y p e="p" , x l a b=" I n d e x " , 

y l a b="Lambda" , main=" E i g e n w e r t e " ) 

############################################ 

# T e i l ( b ) 

############################################ 

#Ohne V a r i a b l e a r e a o f s t a t e 

crimeb c r i m e [ , 2 : 9 ] 

Rb cor ( crimeb ) 

# E i g e n w e r t e 

 

und E i g e n v e k t o r e n d e r 

# K o r r e l a t i o n s m a t r i x 

EWRb e i g e n (Rb) $ v a l u e s 

 



Matthias Kohl 




1268

EVktRb e i g e n (Rb) $ v e c t o r s 

EWRb 

EVktRb 

#E r k l ä r t e V a r i a n z 

p s i 1 b EWRb[ 1 ] /sum (EWRb) 

p s i 2 b (EWRb[1]+EWRb [ 2 ] ) /sum (EWRb) 

p s i 3 b (EWRb[1]+EWRb[2]+EWRb [ 3 ] ) /sum (EWRb) 

p s i 1 b 

p s i 2 b 

p s i 3 b 

#U n t e r s c h i e d e z w i s c h e n den Regionen 

#Berechnung d e r NPCs 

NPC1b crimeb %£% EVktRb [ , 1 ] 

 



 



Matthias Kohl 




1269

#P l o t s 

par ( mfrow=c ( 2 , 2 ) ) 

p l o t (NPC1b , NPC2b , t y p e="p" , x l a b="NPCb1" , 

y l a b="NPC2b" , main=" e r s t e ␣ gegen ␣ z w e i t e ␣NPC␣ ␣b" ) 

t e x t (NPC1b [ i n d 1 ==1], NPC2b [ i n d 1 ==1], 








 



Matthias Kohl 




p l o t (NPC2b , NPC3b , t y p e="p" , x l a b="NPC2" , 

 

y l a b="NPC3" , main=" z w e i t e ␣ gegen ␣ d r i t t e ␣NPC␣ ␣b" ) 

 


1270








p l o t (NPC1b , NPC3b , t y p e="p" , x l a b="NPC1" , 

y l a b="NPC3" , main=" e r s t e ␣ gegen ␣ d r i t t e ␣NPC␣ ␣b" ) 






 



 



Matthias Kohl 




1271


p l o t ( c ( 1 : 8 ) , EWRb, t y p e="p" , x l a b=" I n d e x " , 

y l a b="Lambda" , main=" E i g e n w e r t e " ) 

 



Matthias Kohl 




1272


L.13.1 Zeitreihenanalyse I 

############################################ 


############################################ 


FILENAME " daten01 . t x t " 

z e i t d read . t a b l e ( f i l e =p a s t e (PFAD, FILENAME , 

############################################ 

 

# T e i l ( a ) 


 



Matthias Kohl 




1273

############################################ 

par ( mfrow=c ( 4 , 3 ) ) 

p l o t ( z e i t d $"V1" , z e i t d $"V1" , t y p e=" l " ) 












 

par ( mfrow=c ( 1 , 1 ) ) 

 



Matthias Kohl 




1274

#" s t a t " : 2 4 8 9 10 11 

## ab j e t z t i n d i e s e r R e i h e n f o l g e 

par ( mfrow=c ( 4 , 3 ) ) 











 



 



Matthias Kohl 




1275

par ( mfrow=c ( 1 , 1 ) ) 

############################################ 

# T e i l ( b ) 

############################################ 

par ( mfrow=c ( 4 , 3 ) ) 

a c f ( z e i t d $"V1" , t y p e=" c o v a r i a n c e " ) 







 



 



Matthias Kohl 




1276




par ( mfrow=c ( 1 , 1 ) ) 

par ( mfrow=c ( 4 , 3 ) ) 

a c f ( z e i t d $"V1" , t y p e=" c o r r e l a t i o n " ) 






par ( mfrow=c ( 1 , 1 ) ) 

par ( mfrow=c ( 4 , 3 ) ) 

 

a c f ( z e i t d $"V1" , t y p e=" p a r t i a l " ) 


 



Matthias Kohl 




1277











par ( mfrow=c ( 1 , 1 ) ) 

## nur d i e s t a t i o n a e r e n 

par ( mfrow=c ( 4 , 3 ) ) 

 



 



Matthias Kohl 




1278











par ( mfrow=c ( 1 , 1 ) ) 

#=> 

#2 w e i s s e s Rauschen ? 

#4 AR( 1 ) 

 

mit pos . K o e f f ? 

#8 w e i s s e s Rauschen ? 

#9 AR( 1 ) mit pos . K o e f f ? 

 



Matthias Kohl 




1279

#10 MA( 1 ) mit pos . K o e f f ? 

#11 ARMA( 1 , 1 ) oder ( 2 , 2 ) ? 

############################################ 

# T e i l ( c ) 

############################################ 

W1 d i f f ( z e i t d $"V1" , 1 , 1 ) 

W3 d i f f ( z e i t d $"V3" , 1 , 1 ) 

W5 d i f f ( z e i t d $"V5" , 1 , 1 ) 

W6 d i f f ( z e i t d $"V6" , 1 , 1 ) 

W7 d i f f ( z e i t d $"V7" , 1 , 1 ) 

W12 d i f f ( z e i t d $"V12" , 1 , 1 ) 

WW1 d i f f ( z e i t d $"V1" , 1 , 2 ) 

 



Matthias Kohl 




1280

WW3 d i f f ( z e i t d $"V3" , 1 , 2 ) 

WW5 d i f f ( z e i t d $"V5" , 1 , 2 ) 

WW6 d i f f ( z e i t d $"V6" , 1 , 2 ) 

WW7 d i f f ( z e i t d $"V7" , 1 , 2 ) 

WW12 d i f f ( z e i t d $"V12" , 1 , 2 ) 

z e i t d d l i s t (W1=W1,W3=W3,W5=W5,W6=W6, 

par ( mfrow=c ( 4 , 3 ) ) 

W7=W7, W12=W12, 

WW1=WW1,WW3=WW3,WW5=WW5, 

WW6=WW6,WW7=WW7,WW12=WW12) 

p l o t ( 2 : 1 0 0 , z e i t d d $"W1" , t y p e=" l " ) 



 



 



Matthias Kohl 




1281


p l o t ( 3 : 1 0 0 , z e i t d d $"WW1" , t y p e=" l " ) 






par ( mfrow=c ( 1 , 1 ) ) 

 

 



Matthias Kohl 




1282

L.13.2 Zeitreihenanalyse II 

############################################ 


############################################ 

############################################ 

# T e i l ( a ) 

############################################ 

r e q u i r e ( t s ) 

X arima . sim ( n=100 , l i s t ( a r =.7 , ma=.35) , 

X 

p l o t (X) 

ac1 a c f (X, t y p e=" c o r r e l a t i o n " ) 

 

pac1 p a c f (X) 

sd=s q r t ( 0 . 5 ) ) 

 



Matthias Kohl 




1283

e s t arima (X, o r d e r=c ( 1 , 0 , 1 ) ) 

e s t 

p l o t ( e s t $ r e s i d u a l s ) 

############################################ 

# T e i l ( b ) 

############################################ 

data ( LakeHuron ) 

LH2 LakeHuron 570 

LH2z LH2 mean (LH2) 

p l o t ( LH2z ) 

e s t 2 arima (LH2 , o r d e r=c ( 1 , 0 , 1 ) ) 

e s t 2 

p l o t ( e s t 2 $ r e s i d u a l s ) 

ac2 a c f (LH2 , t y p e=" c o r r e l a t i o n " ) 

 

pac2 p a c f (LH2) 

 



Matthias Kohl 




1284

# V o r h e r s a g e 

p r e d i c t ( est2 , n . ahead = 5) 

prog p r e d i c t ( est2 , n . ahead = 5) $ pred 

 

+ mean (LH2) + 570 

 



Matthias Kohl 




1285

L.13.3 Räumliche Statistik 

############################################ 


############################################ 

# Nach S k r i p t f i l e g e o R i n t r o . R 

## 

## 

## Commands i n c l u d e d i n the g e o R i n t r o web page 

## 

## 

## 1 . S o u r c i n g the package 

## 

r e q u i r e ( geoR ) 


 

FILENAME " s101 . RData" 

 



Matthias Kohl 




1286

l o a d ( f i l e =p a s t e (PFAD, FILENAME , sep="" , c o l l a p s e="" ) ) 

par . o r i par ( no . r e a d o n l y=TRUE) 

## 

## 2 . D e s c r i p t i v e p l o t s 

## 

p l o t ( s101 ) 

## 

par ( mfrow = c ( 2 , 2 ) , mar=c ( 3 , 3 , 1 , 1 ) , mgp=c ( 2 , 1 , 0 ) ) 

p o i n t s ( s101 , x l a b = " Coord ␣X" , y l a b = " Coord ␣Y" ) 

p o i n t s ( s101 , x l a b = " Coord ␣X" , y l a b = " Coord ␣Y" , 

pt . d i v i d e = " rank . prop " ) 

p o i n t s ( s101 , x l a b = " Coord ␣X" , y l a b = " Coord ␣Y" , 

cex . max = 1 . 7 , 

c o l = gray ( seq ( 1 , 0 . 1 , l =100)) , 

pt . d i v i d e = " e q u a l " ) 

p o i n t s ( s101 , pt . d i v i d e = " q u i n t i l e " , 

x l a b = " Coord ␣X" , y l a b = " Coord ␣Y" ) 

 



Matthias Kohl 




1287

par ( par . o r i ) 

## 

## 3 . Variograms 

## 

c l o u d 1 v a r i o g ( s101 , o p t i o n = " c l o u d " , max . d i s t =1) 

c l o u d 2 v a r i o g ( s101 , o p t i o n = " c l o u d " , 

e s t i m a t o r . t y p e = " modulus " , max . d i s t =1) 

b i n 1 v a r i o g ( s101 , uvec=seq ( 0 , 1 , l =11)) 

b i n 2 v a r i o g ( s101 , uvec=seq ( 0 , 1 , l =11) , 

par ( mfrow=c ( 2 , 2 ) ) 

e s t i m a t o r . t y p e= " modulus " ) 

p l o t ( cloud1 , main = " c l a s s i c a l ␣ e s t i m a t o r " ) 

p l o t ( cloud2 , main = " modulus ␣ e s t i m a t o r " ) 

p l o t ( bin1 , main = " c l a s s i c a l ␣ e s t i m a t o r " ) 

p l o t ( bin2 , main = " modulus ␣ e s t i m a t o r " ) 

 


## 

 



Matthias Kohl 




1288

i n 1 v a r i o g ( s101 , uvec = seq ( 0 , 1 , l =11) , 

b i n . c l o u d = T) 

b i n 2 v a r i o g ( s101 , uvec = seq ( 0 , 1 , l =11) , 

par ( mfrow = c ( 1 , 2 ) ) 

e s t i m a t o r . t y p e = " modulus " , 

b i n . c l o u d = T) 

p l o t ( bin1 , b i n . c l o u d = T, 

main = " c l a s s i c a l ␣ e s t i m a t o r " ) 

p l o t ( bin2 , b i n . c l o u d = T, 

main = " modulus ␣ e s t i m a t o r " ) 


## 

b i n 1 v a r i o g ( s101 , uvec = seq ( 0 , 1 , l =11)) 

p l o t ( b i n 1 ) 

l i n e s . v a r i o m o d e l ( l i s t ( nugget = 0 , 

 

cov . p a r s = c ( 1 , 0 . 3 ) , max . d i s t = 1 , 

cov . model = " exp " ) , lwd = 3) 

 



Matthias Kohl 




1289

smooth v a r i o g ( s101 , o p t i o n = " smooth " , 

max . d i s t = 1 , n . p o i n t s = 100 , 

k e r n e l = " normal " , band = 0 . 2 ) 

l i n e s ( smooth , t y p e =" l " , l t y = 2) 

legend ( 0 . 3 , 0 . 4 , 

## 

c ( " e m p i r i c a l " , " e x p o n e n t i a l ␣ model " , " smoothed " ) , 

l t y = c ( 1 , 1 , 2 ) , lwd = c ( 1 , 3 , 1 ) ) 

v a r i o 6 0 v a r i o g ( s101 , max . d i s t = 1 , d i r e c t i o n=p i / 3) 

v a r i o . 4 v a r i o g 4 ( s101 , max . d i s t = 1) 

p l o t ( v a r i o . 4 ) 

## 

## 4 . Parameter e s t i m a t i o n 

## 

## F i t t i n g 

 

models with nugget f i x e d to z e r o 

ml l i k f i t ( s101 , i n i = c ( 1 , 0 . 5 ) , f i x . nugget = T) 

reml l i k f i t ( s101 , i n i = c ( 1 , 0 . 5 ) , f i x . nugget = T, 

 



Matthias Kohl 




1290

method = "RML" ) 

o l s v a r i o f i t ( bin1 , i n i = c ( 1 , 0 . 5 ) , f i x . nugget = T, 

w e i g h t s=" e q u a l " ) 

w l s v a r i o f i t ( bin1 , i n i = c ( 1 , 0 . 5 ) , f i x . nugget = T) 

## F i t t i n g models with a f i x e d v a l u e f o r the nugget 

ml . f n l i k f i t ( s101 , i n i = c ( 1 , 0 . 5 ) , f i x . nugget = T, 

nugget = 0 . 1 5 ) 

reml . f n l i k f i t ( s101 , i n i = c ( 1 , 0 . 5 ) , 

f i x . nugget = T, nugget = 0 . 1 5 , 


o l s . f n v a r i o f i t ( bin1 , i n i = c ( 1 , 0 . 5 ) , 

f i x . nugget = T, nugget = 0 . 1 5 , 


w l s . f n v a r i o f i t ( bin1 , i n i = c ( 1 , 0 . 5 ) , 

f i x . nugget = T, nugget = 0 . 1 5 ) 

## F i t t i n g models e s t i m a t e d nugget 

ml . n l i k f i t ( s101 , i n i = c ( 1 , 0 . 5 ) , nug = 0 . 5 ) 

 



Matthias Kohl 




1291

eml . n l i k f i t ( s101 , i n i = c ( 1 , 0 . 5 ) , nug = 0 . 5 , 

## 


o l s . n v a r i o f i t ( bin1 , i n i = c ( 1 , 0 . 5 ) , nugget =0.5 , 


w l s . n v a r i o f i t ( bin1 , i n i = c ( 1 , 0 . 5 ) , nugget =0.5) 

## 

par ( mfrow = c ( 1 , 3 ) ) 

p l o t ( bin1 , main = 

e x p r e s s i o n ( p a s t e ( tau ^2 == 0 , "␣␣ ( f i x e d ) " ) ) ) 

l i n e s ( ml , max . d i s t = 1) 

l i n e s ( reml , lwd = 2 , max . d i s t = 1) 

l i n e s ( o l s , l t y = 2 , max . d i s t = 1) 

l i n e s ( wls , l t y = 2 , lwd = 2 , max . d i s t = 1) 

legend ( 0 . 5 , 0 . 4 , 

legend = c ( "ML" , "REML" , "OLS" , "WLS" ) , 

l t y = c ( 1 , 1 , 2 , 2 ) , lwd = c ( 1 , 2 , 1 , 2 ) ) 

 



Matthias Kohl 




1292


e x p r e s s i o n ( p a s t e ( tau ^2 == 0 . 1 5 , "␣␣ ( f i x e d ) " ) ) ) 

l i n e s ( ml . fn , max . d i s t = 1) 

l i n e s ( reml . fn , lwd = 2 , max . d i s t = 1) 

l i n e s ( o l s . fn , l t y = 2 , max . d i s t = 1) 

l i n e s ( w l s . fn , l t y = 2 , lwd = 2 , max . d i s t = 1) 

legend ( 0 . 5 , 0 . 4 , 

## 

l e g e n d = c ( "ML" , "REML" , "OLS" , "WLS" ) , 

l t y = c ( 1 , 1 , 2 , 2 ) , lwd = c ( 1 , 2 , 1 , 2 ) ) 


e x p r e s s i o n ( p a s t e ( " e s t i m a t e d ␣␣" , tau ^2))) 

l i n e s ( ml . n , max . d i s t = 1) 

l i n e s ( reml . n , lwd = 2 , max . d i s t = 1) 

l i n e s ( o l s . n , l t y = 2 , max . d i s t = 1) 

 

l i n e s ( w l s . n , l t y =2, lwd = 2 , max . d i s t = 1) 

legend ( 0 . 5 , 0 . 4 , 

 



Matthias Kohl 




1293

## 

l e g e n d = c ( "ML" , "REML" , "OLS" , "WLS" ) , 

l t y = c ( 1 , 1 , 2 , 2 ) , lwd = c ( 1 , 2 , 1 , 2 ) ) 


## 

#s a v e . image ( ) 

ml . n 

summary ( ml . n ) 

## 

## 5 . Variogram E n v e l o p e s 

## 

env . mc v a r i o g . mc . env ( s101 , o b j . v a r=b i n 1 ) 

env . model v a r i o g . model . env ( s101 , o b j . v a r=bin1 , 

par ( mfrow=c ( 1 , 2 ) ) 

 

model=w l s ) 

p l o t ( bin1 , e n v e l o p e=env . mc) 

p l o t ( bin1 , e n v e l o p e=env . model ) 

 



Matthias Kohl 




1294


## 

## 6 . P r o f i l e l i k e l i h o o d 

## 

p r o f p r o f l i k ( ml , geodata = s101 , 

par ( mfrow=c ( 1 , 3 ) ) 

## 

 

s i l l . v a l = seq ( 0 . 4 8 , 2 , l =11) , 

range . v a l = seq ( 0 . 1 , 0 . 5 2 , l =11) , 

u n i . o n l y = FALSE) 

p l o t ( p r o f , n l e v e l s =16) 


## 

## 7 . Cross v a l i d a t i o n 

## z e i t a u f w e n d i g ! ! ! 

xv . ml x v a l i d ( s101 , model=ml ) 

xv . w l s x v a l i d ( s101 , model=w l s ) 

 



Matthias Kohl 




1295

xvR . ml x v a l i d ( s101 , model=ml , r e e s t=TRUE) 

xvR . w l s x v a l i d ( s101 , model=wls , r e e s t=TRUE, 


## 

v a r i o g . o b j=b i n 1 ) 

par ( mfcol = c ( 5 , 2 ) , mar=c ( 2 . 5 , 2 . 5 , . 5 , . 5 ) , 

mgp=c ( 1 . 8 , 0 . 8 , 0 ) ) 

p l o t ( xv . w l s ) 


## 

## 8 . K r i g i n g 

## 

p l o t ( s101 $ coords , x l i m=c ( 0 , 1 . 2 ) , y l i m=c ( 0 , 1 . 2 ) ) 

l o c i m a t r i x ( 

c ( 0 . 2 , 0 . 6 , 0 . 2 , 1 . 1 , 0 . 2 , 0 . 3 , 1 . 0 , 1 . 1 ) , 

t e x t ( l o c i , as . c h a r a c t e r ( 1 : 4 ) , cex =1.3 , c o l=" r e d " ) 

n c o l =2) 

 



Matthias Kohl 




1296

polygon ( x=c ( 0 , 1 , 1 , 0 ) , y=c ( 0 , 0 , 1 , 1 ) , l t y =2) 

kc4 k r i g e . conv ( s101 , l o c a t i o n s = l o c i , k r i g e = 

## d e f i n i n g the g r i d 


 

k r i g e . c o n t r o l ( cov . p a r s = w l s $ cov . p a r s ) ) 

pred . g r i d expand . g r i d ( seq ( 0 , 1 , l =51) , 

seq ( 0 , 1 , l =51)) 

#pred . g r i d expand . g r i d ( seq ( 0 , 1 , l =101) , 

# seq ( 0 , 1 , l =101)) 

## k r i g i n g c a l c u l a t i o n s 

kc k r i g e . conv ( s101 , l o c a t i o n s = pred . g r i d , k r i g e = 

k r i g e . c o n t r o l ( cov . p a r s = ml$ cov . p a r s ) ) 

## d i s p l a y i n g p r e d i c t e d v a l u e s 

image ( kc , l o c = pred . g r i d , coords = s101 $ coords , 

## 

c o l=gray ( seq ( 1 , 0 . 1 , l =30))) 

## 9 . B a y e s i a n p r e d i c t i o n 

 



Matthias Kohl 




1297

## 

pr p r i o r . c o n t r o l ( p h i . d i s c r e t e = seq ( 0 , 5 , l =101) , 

p h i . p r i o r=" r e c " ) 

bsp4 k r i g e . bayes ( s101 , l o c = l o c i , p r i o r = pr , 

output = output . c o n t r o l ( n . p o s t =10000)) 

h i s t ( bsp4 $ p o s t e r i o r $ sample $ beta , main="" , 

x l a b=e x p r e s s i o n ( beta ) , prob = T) 

h i s t ( bsp4 $ p o s t e r i o r $ sample $ sigmasq , main="" , 

x l a b=e x p r e s s i o n ( sigma ^2) , prob = T) 

h i s t ( bsp4 $ p o s t e r i o r $ sample $ phi , main="" , 

x l a b=e x p r e s s i o n ( p h i ) , prob = T) 

p l o t ( bin1 , y l i m = c ( 0 , 2 ) ) 

l i n e s ( bsp4 , max . d i s t = 1 . 2 ) 

l i n e s ( bsp4 , max . d i s t = 1 . 2 , summ = " median " , 

l t y = 2) 

l i n e s ( bsp4 , max . d i s t = 1 . 2 , summ = "mean" , 

lwd = 2 , l t y = 2) 

 



Matthias Kohl 




1298

legend ( 0 . 4 , 0 . 4 , 

l e g e n d = c ( " p o s t e r i o r ␣mode" , " p o s t e r i o r ␣ median " , 


## 

" p o s t e r i o r ␣mean" ) , l t y = c ( 1 , 2 , 2 ) , 

lwd = c ( 1 , 1 , 2 ) ) 

par ( mfrow=c ( 2 , 2 ) , mar=c ( 3 , 3 , . 5 , . 5 ) , mgp=c ( 1 . 5 , . 7 , 0 ) ) 

f o r ( i i n 1 : 4 ) { 

## c u r v e ( dnorm ( x , mean=kc4 $ pred [ i ] , 

## sd=s q r t ( kc4 $ k r i g e . v a r [ i ] ) ) , 

## from=kc4 $ pred [ i ] 3£ s q r t ( kc4 $ k r i g e . v a r [ i ] ) , 

## kc4 $ pred [ i ] +3£ s q r t ( kc4 $ k r i g e . v a r [ i ] ) ) 

kpx seq ( kc4 $ pred [ i ] 3£ s q r t ( kc4 $ k r i g e . v a r [ i ] ) , 

kc4 $ pred [ i ] +3£ s q r t ( kc4 $ k r i g e . v a r [ i ] ) , 

l =100) 

kpy dnorm ( kpx , mean=kc4 $ pred [ i ] , 

sd=s q r t ( kc4 $ k r i g e . v a r [ i ] ) ) 

 



Matthias Kohl 




1299

p d e n s i t y ( bsp4 $ p r e d i c $ sim [ i , ] ) 

r x range ( c ( kpx , bp$x ) ) 

r y range ( c ( kpy , bp$y ) ) 

p l o t ( c b i n d ( rx , r y ) , t y p e="n" , 

x l a b=p a s t e ( " L o c a t i o n " , i ) , y l a b=" d e n s i t y " , 

x l i m=c ( 4 , 4 ) , y l i m=c ( 0 , 1 . 1 ) ) 

l i n e s ( kpx , kpy , l t y =2) 

l i n e s ( bp )} 


## d e f i n i g g r i d 

pred . g r i d expand . g r i d ( seq ( 0 , 1 , l =51) , 

## B a y e s i a n p r e d i c t i o n 

 

seq ( 0 , 1 , l =51)) 

#pred . g r i d expand . g r i d ( seq ( 0 , 1 , l =101) , 

# seq ( 0 , 1 , l =101)) 

## s e h r z e i t a u f w e n d i g ! ! ! 

bsp k r i g e . bayes ( s101 , l o c = pred . g r i d , p r i o r = 

 



Matthias Kohl 




1300


p r i o r . c o n t r o l ( p h i . d i s c r e t e = seq ( 0 , 5 , l =101)) , 

output=output . c o n t r o l ( n . p r e d i c t i v e =2)) 

par ( mfrow=c ( 2 , 2 ) , mar=c ( 3 , 3 , 3 , 0 ) ) 

image ( bsp , l o c = pred . g r i d , main = " p r e d i c t e d " , 

c o l=gray ( seq ( 1 , 0 . 1 , l =30))) 

image ( bsp , v a l =" v a r i a n c e " , l o c = pred . g r i d , 

main = " p r e d i c t i o n ␣ v a r i a n c e " , 

c o l=gray ( seq ( 1 , 0 . 1 , l =30))) 

image ( bsp , v a l = " s i m u l a t i o n " , number . c o l = 1 , 

l o c = pred . g r i d , main = 

"a␣ s i m u l a t i o n ␣ from \ nthe ␣ p r e d i c t i v e ␣ d i s t r i b u t i o n " , 

c o l=gray ( seq ( 1 , 0 . 1 , l =30))) 

image ( bsp , v a l = " s i m u l a t i o n " , number . c o l = 2 , 

l o c = pred . g r i d , main = 

 

" a n o t h e r ␣ s i m u l a t i o n ␣ from ␣\n 

␣␣␣␣ the ␣ p r e d i c t i v e ␣ d i s t r i b u t i o n " , 

 



Matthias Kohl 




1301

c o l=gray ( seq ( 1 , 0 . 1 , l =30))) 


## 

## 1 0 . S i m u l a t i o n 

## 

sim1 g r f (100 , cov . p a r s=c ( 1 , . 2 5 ) ) 

p o i n t s . geodata ( sim1 , main= 

image ( sim3 , main= 

" s i m u l a t e d ␣ l o c a t i o n s ␣and␣ v a l u e s " ) 

p l o t ( sim1 , max . d i s t =1, main= 

" t r u e ␣and␣ e m p i r i c a l ␣ v a r i o g r a m s " ) 

sim2 g r f (441 , g r i d=" r e g " , cov . p a r s=c ( 1 , . 2 5 ) ) 

image ( sim2 , main="a␣\" s m a l l i s h \"␣ s i m u l a t i o n " , 

c o l=gray ( seq ( 1 , . 1 , l =30))) 

sim3 g r f (40401 , g r i d=" r e g " , cov . p a r s=c ( 1 0 , . 2 ) , 

met=" c i r c " ) 

"a␣much␣ f i n e r ␣ g r i d ␣ f o r ␣ the ␣␣ s i m u l a t i o n " , 

 



Matthias Kohl 




1302

## 

## 

## 

 

c o l=gray ( seq ( 1 , . 1 , l =30))) 

 



Matthias Kohl 




1303


L.14.1 Entwurf einer Simulationsklasse 

 

 



Matthias Kohl 




1304

L.14.2 Indexoperator 

 

 



Matthias Kohl 




1305

L.14.3 Simulationsklasse II 

 

 



Matthias Kohl 




1306

L.14.4 Schätzerauswertungsklasse 

 

 



Matthias Kohl 




1307


L.15.1 Checken/Erstellen eines Pakets 

L.15.2 Anlegen eines Daten-Pakets 

L.15.3 Anlegen eines eigenen R-Pakets 

L.15.4 Arbeit mit Sweave 


 

L.16.2 R und MySQL 

 



Matthias Kohl 




1308

L.16.3 Aufruf von C Code unter R 

L.16.4 Aufruf von Fortran Code unter R 

L.16.5 Paralleles Rechnen mit R 

 

 



Matthias Kohl 




1309

Literatur 

 

 



Matthias Kohl 




1310

Literatur 

Homepage John Chambers: http://cm.bell-labs.com/cm/ms/who/jmc/pub.html. 

R Development Core Team (2006): R: A language and environment for statistical computing. R 

Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0. http://www.R-project.org. 

—— (2006a): R: An Introduction to R. R Foundation for Statistical Computing, Vienna, Austria. 

http://cran.r-project.org/doc/manuals/R-intro.pdf. 8.3.11 (b) 

—— (2006b): R: Writing R Extensions. R Foundation for Statistical Computing, Vienna, Austria. 

http://cran.r-project.org/doc/manuals/R-exts.pdf. 3.4, 8.2.3, 8.2.6, 8.2.6 (j), 8.3.2, 8.3.5, 8.3-4, 8.3-6, 

8.3.5 (f), 8.3.6, 8.4.4 (b) 

—— (2006c): R: R Language Definition. R Foundation for Statistical Computing, Vienna, Austria. 

http://cran.r-project.org/doc/manuals/R-lang.pdf. 3.4, 3.6.3 

—— (2006d): R: R Installation and Administration. R Foundation for Statistical Computing, Vienna, 

Austria. http://cran.r-project.org/doc/manuals/R-admin.pdf. 8.2.10, 8.2-3, 8.3.12 (a) 

—— (2006e): R: Manuals-Homepage. R Foundation for Statistical Computing, Vienna, Austria. 

http://cran.r-project.org/manuals.html. 

—— (2006f): R: weitere Dokumentation. http://cran.r-project.org/other-docs.html. 

Homepage Auckland Workshop: (2003): http://www.stat.auckland.ac.nz/S-Workshop/. 

Baron, J.(2005): “R reference card”. Zu beziehen unter 

http://cran.r-project.org/doc/contrib/refcard.pdf 0.6 

 

Short, T.(2005): “R reference card”. Zu beziehen unter 

http://cran.r-project.org/doc/contrib/Short-refcard.pdf 0.6 

 



Matthias Kohl 




1311

Ruckdeschel, Kohl, Stabla and Camphausen(2006): Homepage zu Paket “distr”: 

http://www.uni-bayreuth.de/departments/math/org/mathe7/DISTR. 

Aho A.V., Sethi R. and Ullman J.D. (1988): Compilerbau. Teil 1. (Compiler construction. Pt 1). 

Internationale Computer-Bibliothek. Addison-Wesley Publishing Company, Bonn etc. 1.10-1 

Anderson T. (1984): An introduction to multivariate statistical analysis. Wiley Series in Probability and 

Mathematical Statistics. John Wiley & Sons, Inc., 2. Aufl. 7.2.3 (c) 

Bates, D. (2003): Using external routines. http://www.stat.wisc.edu/courses/st771-bates/slides/wk3-4.pdf. 

8.3.5 (d) 

Bavington, M. (2003): Debugging Without (Too Many) Tears.. R-News, 3(3): 29–32. 3.4 

Becker R.A., Chambers J.M. and Wilks A.R. (1988): The new S language. A programming environment for 

data analysis and graphics.. Wadsworth & Brooks/Cole Computer Science Series. Wadsworth & 

Brooks/Cole Advanced Books & Software., Pacific Grove, CA. 8.1.3 (a) 

Belsley D.A., Kuh E. and Welsch R.E. (1980): Regression diagnostics: identifying influential data and 

sources of collinearity. Wiley Series in Probability and Mathematical Statistics: Applied Probability and 

Statistics Section. Chapman and Hall. 7.1.1 (e) 

Bengtsson H. (2003): The R.oo package - object-oriented programming with references using standard R 

code. In: Hornik K., Leisch F. and Zeileis A. (Eds.) Proceedings of the 3rd International Workshop on 

Distributed Statistical Computing (DSC 2003). Vienna, Austria. Published as 

http://www.ci.tuwien.ac.at/Conferences/DSC-2003/. 8.1.3 (c) 

Booch G. (1995): Objektorientierte Analyse und Design. (Object oriented analysis and design). 

Addison-Wesley., 1., korrigierter Nachdruck Deutsche Übersetzung. 8.1.1 (a) 

 

Brockwell P.J. and Davis R.A. (1991): Time series: theory and methods. Springer Series in Statistics. 

Springer, 2. Aufl. 7.3.1 (b) 

 



Matthias Kohl 




1312

—— (2002): Introduction to time series and forecasting. Springer Texts in Statistics. Springer, 2. Aufl. 

7.3.1 (b) 

Chambers J.M. (1993a): Classes and methods in S. I: Recent developments. Comput. Stat., 8(3): 167–184. 

http://cm.bell-labs.com/stat/doc/93.26.ps. 8.1.3 (a) 

—— (1993b): Classes and methods in S. II: Future directions. Comput. Stat., 8(3): 185–196. 

http://cm.bell-labs.com/stat/doc/93.27.ps. 8.1.3 (a) 

—— (1998): Programming with data. A guide to the S language. Springer. Siehe auch 

http://cm.bell-labs.com/stat/Sbook/index.html. 0.1.4, 0.6, 8.1.3 (a), 8.1-2, 8.1-6, 8.1.7, 8.1.9, 8.3.10 (b), 

8.3.10 (c) 

Chambers J.M. and Hastie T.J. (1992): Statistical models in .. Wadsworth & Brooks/Cole Computer 

Science Series. Wadsworth & Brooks/Cole Advanced Book & Software., Pacific Grove, CA. 8.1.3 (a) 

Christensen R. (1996): Plane answers to complex questions. The theory of linear models. Springer Texts in 

Statistics. Springer, 2. Aufl. 7.1-2 

Cleveland W.S. (1985): The Elements of Graphing Data. Wadsworth. 4.3-2, 4.4.2 (c) 

—— (1993): Visualizing Data. Hobart Press, Summit, N.J. 4.6 

Cliff A. and Ord J. (1981): Spatial processes: models and applications.. Pion Ltd., London. 7.4.1 (c) 

Cook R. and Weisberg S. (1982): Residuals and influence in regression. Monographs on Statistics and 

Applied Probability. Chapman and Hall. 7.1.1 (e) 

Cressie N.A. (1991): Statistics for spatial data.. Wiley Series in Probability and Mathematical Statistics. 

John Wiley & Sons. 7.4.1 (c) 

 

Dalgaard P. (2002): Introductory Statistics with R. Springer. Siehe auch 

http://www.biostat.ku.dk/ pd/ISwR.html 0.6 

 



Matthias Kohl 




1313

Davis J.C. (1986): Statistics and Data Analysis in Geology. John Wiley and Sons, 2. Aufl. 7.4.1 (c) 

Dolić D. (2004): Statistik mit R. Oldenbourg. Siehe auch http://www.dolic.de/R/index.html 0.6 

Durbin J. and Koopman S.J. (2001): Time Series Analysis by State Space Methods. Oxford University 

Press. 7.3.1 (b) 

Efron B. and Tibshirani R.J. (1993): An introduction to the bootstrap, Bd. 57 von Monographs on 

Statistics and Applied Probability. Chapman & Hall. 2.9.3 

Fahrmeir L. and Tutz G. (2001): Multivariate statistical modelling based on generalized linear models.. 

Springer Series in Statistics. Springer, 2. Aufl. 7.1.2 (a) 

Fahrmeir L., Hamerle A. and Tutz G. (Hrsg.) (1996): Multivariate statistische Verfahren.(Multivariate 

statistical methods). Springer Series in Statistics. Walter de Gruyter, 2., revidierte Aufl. Unter 

Mitarbeit von Wolfgang Brachinger, Walter Häußler, Heinz Kaufmann, Peter Kemény, Christian 

Kredler, Willi Nagl, Friedemann Ost, Heinz Pape. 

Faraway J.J. (2002): Practical Regression and Anova using R. 

http://cran.r-project.org/doc/contrib/Faraway-PRA.pdf. 0.6, 7.1-2, 7.1.1 (i) 

—— (2004): Linear Models with R. CRC Press. Siehe auch http://www.stat.lsa.umich.edu/ faraway/LMR/. 

Fletcher R. (1987): Practical methods of optimization. Wiley, 2. Aufl. 6.5.4 

Flury B. (1997): A first course in multivariate statistics. Springer Texts in Statistics. Springer. 7.2.3 (c) 

Flury B. and Riedwyl H. (1983): Angewandte multivariate Statistik. Computergestuetzte Analyse 

mehrdimensionaler Daten. Gustav Fischer Verlag, Stuttgart - New York. 7.2.3 (c) 

 

Fox J. (2002): An R and S-Plus Companion to Applied Regression. Sage Publications, Thousand Oaks, CA, 

USA. http://www.socsci.mcmaster.ca/jfox/Books/Companion/. 0.6, 8.4.3 (b) 

 



Matthias Kohl 




1314

Geiger C. and Kanzow C. (1999): Numerische Verfahren zur Lösung unrestringierter Optimierungsaufgaben. 

(Numerical methods for solution of unconstrained optimization problems). Springer. 6.5.4 

—— (2002): Theorie und Numerik restringierter Optimierungsaufgaben. (Theory and numerics of 

constrained problems of optimization).. Springer. 6.5.4 

Geist G.A., Kohl, J.A. and Papadopoulos P.M. (1996): PVM and MPI: A Comparison of Features. 

Calculateurs Paralleles, 8(2) http://www.csm.ornl.gov/pvm/PVMvsMPI.ps 8.3-8 

Gentleman R. (2002): S4 Classes in 15 Pages, more or less. 

http://www.biostat.harvard.edu/courses/individual/bio271/lectures/L11/S4Objects.pdf. 0.1.4 

—— (2003): Object Orientated Programming. Slides of a Short Course held in Auckland . 

http://www.stat.auckland.ac.nz/S-Workshop/Gentleman/Methods.pdf. 

Georgii H.O. (2002): Stochastik: Einführung in die Wahrscheinlichkeitstheorie und Statistik. de Gruyter 

Lehrbuch. de Gruyter. 2.3-15 

Gouriéroux C. (1997): ARCH Models and financial applications.. Springer Series in Statistics. Springer. 

7.3.1 (b) 

Granger C. and Newbold P. (1986): Forecasting economic time series.. Economic Theory, Econometrics, 

and Mathematical Economics. Academic Press, Inc. (Harcourt Brace Jovanovich, Publishers), 2. Aufl. 

7.3.1 (b) 

Hamilton J.D. (1994): Time series analysis. Princeton University Press. 7.3.1 (b), 7.3.5 (a) 

Hammersley J. and Handscomb D. (1964): Monte Carlo methods. Methuens Monographs on Applied 

Probability and Statistics. Methuen & Co. Ltd. / John Wiley & Sons Inc. , London / New York. 

2.3.2 (g) 

 

Hampel F.R., Ronchetti E.M., Rousseeuw P.J. and Stahel W.A. (1986): Robust statistics. The approach 

based on influence functions. Wiley Series in Probability and Mathematical Statistics. Wiley. 5.2.3 (e) 

 



Matthias Kohl 




1315

Härdle W., Müller M., Sperlich S. and Werwatz A. (1998): Non– and Semiparametric Modelling. 

http://wotan.wiwi.hu-berlin.de/statistik/lehrmaterial/statmat_e.html. 2.7, 2.7.3 (d) 

Härdle, W. (1991a): Applied nonparametric regression, Bd. 19 von Econometric Society Monographs. 

Cambridge University Press. 2.7 

—— (1991b): Smoothing techniques. With implementation in S. Springer Series in Statistics. 

Springer-Verlag. 2.7.2 

Härdle, W. and Simar, L. (2003): Applied Multivariate Statistical Analysis. Springer. 

http://www.quantlet.com/mdstat/scripts/mva/pdf/mvapdf.pdf. 7.2.3 (c), A.12.4 

Harvey A. (1993): Time series models. Harvester Wheatsheaf, 2. Aufl. 7.3.1 (b) 

Huber P.J. (1977): Robust statistical procedures, Bd. 27 von CBMS - NSF Regional Conference Series in 

Applied Mathematics.. Society for Industrial and Applied Mathematics (SIAM), Philadelphia, 

Pennsylvania. 5.2.3 (e) 

—— (1981): Robust statistics. Wiley Series in Probability and Mathematical Statistics. Wiley. 5.2.3 (e) 

Ihaka R. and Gentleman R. (1996): R: A language for data analysis and graphics. Journal of Computational 

and Graphical Statistics, 5(3): 299–314. 

Isaaks E. and Srivastava R. (1989): An introduction into applied geostatistics. Oxford university press. 

7.4.1 (c) 

Knuth D.E. (1998): The art of computer programming, Bd. 2 – Seminumerical algorithms. 

Addison-Wesley, Bonn, 3. Aufl. 2.3.2 (f), 2.3.2 (g) 

Krause A. and Olson M. (2000): The basics of S and S-Plus. Statistics and Computing. Springer, 2. Aufl. 

 

Ligges U. (2005): Programmieren mit R. Springer Texts in Statistics. Springer. Siehe 

http://www.statistik.uni-dortmund.de/~ligges/PmitR/ 0.6, 8.2.7 

 



Matthias Kohl 




1316

Luenberger D. (1969): Optimization by vector space methods (Series in Decision and Control). John Wiley 

and Sons, Inc. 6.5.4 

Luenberger D.G. (1984): Linear and nonlinear programming. Addison-Wesley Publishing Company, 2. Aufl. 

6.5.4 

Mardia K.V., Kent J.T. and Bibby J.M. (1979): Multivariate analysis. Probability and Mathematical 

Statistics. Academic Press. 7.2.3 (c) 

Marsaglia G. (1997): A random number generator in C.. Discussion paper; posting on Usenet newsgroup 

‘sci.stat.math’. 2.3.2 (f) 

Marsaglia G. and Zanan A. (1994): Some portable very-long-period random number genrators. Computers 

in Physics, 8: 117–121. 2.3.2 (f) 

Matsumoto M. and Nishimura T. (1998): Mersenne twister: A 623-dimensionally equidistributed uniform 

pseudo-random number generator. ACM Trans. Model. Comput. Simul., 8(1): 3–30. 2.3.2 (f) 

McCullagh P. and Nelder J. (1989): Generalized linear models, Bd. 37 von Monographs on Statistics and 

Applied Probability. Chapman and Hall, 2. Aufl. 7.1.2 (a) 

Na Li M. and Rossini A.J. (2001): RPVM: Cluster Statistical Computing in R. R News, 1(3): 4–7. Siehe 

http://CRAN.R-project.org/doc/Rnews/. 8.3.12 (c), 8.3-8 

Nagel M., Wernecke K.D. and Fleischer W. (1994): Computergestützte Datenanalyse. (Computer 

supported data analysis). Verlag Technik, München. 7.1.1 (h) 

Nolan D. and Speed T. (2000): Stat Labs. Mathematical statistics through applications. Springer Texts in 

Statistics. Springer. 

 

Peng, R. (2002): An Introduction to the Interactive Debugging Tools in R. 

http://www.biostat.jhsph.edu/ rpeng/docs/R-debug-tools.pdf. 3.4, 3.4-3 

 



Matthias Kohl 




1317

Pinheiro J.C. and Bates D. (2000): Mixed-Effects Models in S and S-Plus. Springer Texts in Statistics. 

Springer. http://nlme.stat.wisc.edu/MEMSS/. 8.4.3 (b) 

Press W.H., Teukolsky S.A., Vetterling W.T. and Flannery B.P. (1992): Numerical recipes in C. The art of 

scientific computing. Cambridge Univ. Press, 2. Aufl. 6.4.3, 6.4.4, 6.5.4, 6.5.5 

Rieder H. (1994): Robust asymptotic statistics. Springer Series in Statistics. Springer. 5.2.3 (e), 1 

Ripley B.D. (1981): Spatial statistics.. Wiley Series in Probability and Mathematical Statistics. John Wiley 

& Sons. 7.4.1 (c) 

—— (1987): Stochastic simulation. Wiley Series in Probability and Mathematical Statistics. Applied 

Probability and Statistics. John Wiley & Sons. 0.1.4, 2.3-7, 2.3-8, 2.3.2 (g), 2.8.3 

—— (1991): Statistical inference for spatial processes. Cambridge University Press. 7.4.1 (c) 

—— (2004): Lazy Loading and Packages in R 2.0.0. R News, 4(2): 2–5. Siehe 

http://CRAN.R-project.org/doc/Rnews/. 8.2.4 

Rossini A.J., Tierney L. and Na Li, M. (2003): Simple Parallel Statistical Computing in R. UW Biostatistics 

Working Paper Series. University of Washington 193. http://www.bepress.com/uwbiostat/paper193. 

8.3.12 (c), 8.3-8 

Rothman P.e. (1999): Nonlinear time series analysis of economic and financial data, Bd. 1 von Dynamic 

Modeling and Econometrics in Economics and Finance. Kluwer Academic Publishers. 7.3.1 (b) 

Ruckdeschel P., Kohl M., Stabla T., and Camphausen F. (2006): S4 Classes for Distributions. R-News, 

6(2): 10–13. http://CRAN.R-project.org/doc/Rnews/. Siehe auch 

http://www.uni-bayreuth.de/departments/math/org/mathe7/RUCKDESCHEL/pubs/distr.pdf. 0.1.6, 2.2 

 

Sachs L. and Hedderich J. (2006 ): Angewandte Statistik. Methodensammlung mit R. Springer. 

(Taschenbuch) 12., vollst. neu bearb. Aufl. 0.6 

 



Matthias Kohl 




1318

Sawitzki G. (2005): Einführung in S. Zu beziehen unter 

http://www.statlab.uni-heidelberg.de/projects/s/s.pdf. 

Schlittgen R. and Streitberg B.H.J. (1987): Zeitreihenanalyse. (Time series analysis). R. Oldenbourg 

Verlag, München-Wien, 2. Aufl. 7.3.1 (b) 

Shumway R.H. and Stoffer D.S. (2000): Time series analysis and its applications.. Springer Texts in 

Statistics. Springer. 7.3.1 (b) 

Silverman B. (1986): Density estimation for statistics and data analysis. Monographs on Statistics and 

Applied Probability. Chapman and Hall. 2.7 

Stoer J. (1999): Numerische Mathematik. 1: Eine Einführung - unter Berücksichtigung von Vorlesungen 

von F. L. Bauer. (Numerical mathematics. 1: An introduction - under consideration of lectures by F. L. 

Bauer). Springer, 8., revidierte underweiterteAufl. 6.1.2, 6.4.3 

Stoyan D., Kendall W.S. and Mecke J. (1995): Stochastic geometry and its applications. Wiley Series in 

Probability and Mathematical Statistics. John Wiley & Sons Ltd., 2. Aufl. 7.4.1 (c) 

Stroustrup B. (1987): Die C++ Programmiersprache. (The C++ programming language). Internationale 

Computer-Bibliothek. Addison-Wesley Verlag. Deutsche Übersetzung. 8.1.1 (a) 

Tierney L. (2003b): Namespace Management for R. R News, 3(1): 2–6. Siehe 

http://CRAN.R-project.org/doc/Rnews/. 8.2.7 

—— (2003b): Notes on the Generational GC for R. http://www.stat.uiowa.edu/~luke/R/bytecode.html. 8.3.2, 

8.3.10 (a) 

—— (2003c): Notes on Compilation in R. http://www.stat.uiowa.edu/~luke/R/gengcnotes.html. 

 

Unwin D. (1981): Introductory spatial analysis. Methuen, New York, London. 7.4.1 (c) 

 



Matthias Kohl 




1319

Venables W. and Ripley B. (1999): Modern Applied Statistics with S-Plus. Statistics and Computing. 

Springer, 3. Aufl. inzwischen (2002) ist die 4. Aufl. erhältich; siehe dazu auch 

http://www.stats.ox.ac.uk/pub/MASS4/ 2, 0.1.3, 0.1.4, 0.2, 0.4, 0.6, 0.7, 161, 1.10.4, 1.10.4, 2.6, 3, 3.4-4, 

3.6.1 (c), 3.6-3, 4.4-1, 7.1.1 (c), 7.1.1 (e), 7.2.5, 8.4.3 (b) 

—— (2000): S Programming. Statistics and Computing. Springer. Siehe dazu auch 

http://www.stats.ox.ac.uk/pub/MASS3/Sprog/ 0.6, 8.4.3 (b) 

von Alemann H. (1984): Der Forschungsprozess. Eine Einführung in die Praxis der empirischen 

Sozialforschung. Studienskripten zur Soziologie. Teubner, Stuttgart, 2 Aufl. (document) 

Wei W.W.S. (1990): Time series analysis. Univariate and multivariate methods. Addison-Wesley. 7.3.1 (b) 

Wichmann B. and Hill I. (1982): Algorithm AS 183: An Efficient and Portable Pseudo-random Number 

Generator. Applied Statistics, 31: 188–90. Remarks: 34, 198 and 35, 89. 2.3.2 (f) 

Yu H. (2002): Rmpi: Parallel Statistical Computing in R. R News, 2(2): 10–14. Siehe 

http://CRAN.R-project.org/doc/Rnews/. 8.3.12 (c), 8.3-8 

 

 



Matthias Kohl 




1320

R/S-Plus für Einsteiger und für Fortgeschrittene - STAMATS

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?