Bildanalyse und Bildverstehen 1. Einleitung

Bildanalyse und Bildverstehen 

1. Einleitung 

"Bildverstehen" 

engl. "computer vision", "image understanding" 

Bildverstehen ist ein Prozess: 

• ausgehend von 1 oder mehreren Bildern und einer 

Fragestellung 

• Resultat ist eine Beschreibung 

(genaugenommen: Transformation einer Form von 

Beschreibung in eine andere) 

Bild ist oft 2D-Abbild einer realen 3D-Szene 

⇒ für die korrekte Beschreibung ist es oft nötig, diese 

Szene zu rekonstruieren 

Prozess des Bildverstehens komplementär zur 

synthetischen Computergrafik:

Definitionen des Prozesses "Bildverstehen" aus der 

Literatur: 

"Das Gewinnen einer Repräsentation der Form" (Marr) 

"Vom Bild zum Objektmodell" (Winston) 

"Die Bedeutung von Bildern mit Hilfe von exakt 

definierten Prozessen ermitteln" (Niemann & Bunke) 

"Bildverstehen ist die Rekonstruktion und Deutung einer 

Szene anhand von Bildern, so dass mindestens eine der 

folgenden operationalen Leistungen erbracht werden 

kann: 

• Ausgabe einer sprachlichen Szenenbeschreibung 

• Beantworten sprachlicher Anfragen bezügl. der 

Szene 

• kollisionsfreies Navigieren eines Roboters 

• planmäßiges Greifen und Manipulieren von 

Objekten in der Szene" (Neumann 1995) 

Verschiedene Ebenen von Realität: 

• physikalische Objekte einer Szene (Baum, Haus, Straße, 

Gully, Deckel, Loch, Regentropfen...) 

• Bilder der Szene (als Eingabe): Einzelbild, Stereo- 

Bildpaar, Bildfolge... je nach bildgebendem Verfahren 

• computerinterne Beschreibung der Szene (als Ausgabe): 

Listen, Merkmalsvektoren, komplexe Objekt- und/oder 

Szenenbeschreibungen ("is a"- oder "part of"-Hierarchien, 

Szenengraph, CSG-Modelle, Polygonnetze...) 

Ziele des Bildverstehens: 

"Wo ist was" 

Wo: Rekonstruktion der Szenengeometrie (räumlich-zeitliche 

Information) 

Was: Deutung des Szeneninhalts (insbes.: Objekterkennung)

Die Art der gewünschten Beschreibung und Deutung 

hängt stark von der jeweiligen Fragestellung / vom 

Kontext ab. 

Beispiel: 

Mögliche Interpretationen dieses Bildes: 

(aus Pinz 1994)

• ein Binärbild (ein Bild mit nur 2 Grauwerten) 

• 3 Kreise, 1 Bogen und 20 Strecken 

• "Mensch" und "Auto" 

• ein lachender Mensch 

• ein Fußgänger überquert die Straße 

⇒ 

es gibt keine allgemeingültige "korrekte" Arbeitsweise 

eines bildverstehenden Systems 

die korrekte Arbeitsweise hängt von der jeweiligen 

Fragestellung ab 

(aus Hermes 2001)

erforderliche Spezialleistungen, die das menschliche 

visuelle System "ohne Schwierigkeiten" erbringt: 

Ergänzen "subjektiver Konturen"

aktive Gruppierungsprozesse: 

Erkennen "subjektiver Objekte" (insbes. Gesichter, 

menschliche Figuren):

Wichtige Verarbeitungsschritte in bildverstehenden 

Systemen: 

1. Quantisierung der Ortskoordinaten

2. Bildvorverarbeitung: 

• Bildmodifikation, die den Informationsgehalt nicht 

wesentlich verändert 

• Bildtransformation mit Eingabe- und Ausgabebild 

• vgl. Vorlesung "Computergrafik", Kap. 14. 

Ziele: 

• Beleuchtungskorrekturen bei inhomogener 

Beleuchtung 

• Glättung 

• Beseitigung von Digitalisierungsfehlern 

• Kontrastverstärkung 

• Normierung (Größe, Form, Farben) 

• Beseitigung von Inhomogenitäten der Fotoschicht 

des Aufnahmesystems 

• Korrektur von Grauwertverzerrungen (fotografischer 

Effekt) 

• Ausgleich von kamerabedingten Verzerrungen 

• selektive Filterung bestimmter Frequenzen

3. Segmentation (auch Segmentierung): 

• Trennung der zu untersuchenden Objekte von den 

übrigen Bildstrukturen 

• Trennung von sich berührenden Objekten 

voneinander 

• Zerlegung in Teilobjekte 

• Klassifikation auf Pixelebene (Objektpixel / 

Nichtobjektpixel) 

⇒ geeignete Merkmale auf Pixelebene? 

• einfache und komplexe Verfahren

Zerlegung des Bildes in zu interessierende Strukturen 

(Objekte) und nicht zu interessierende Strukturen 

(Hintergrund) gemäß: 

• Diskontinuitätskriterium (Kanten) 

• Homogenitätskriterium (Intensitätswert, Farbe) 

• hybride Verfahren (Kombination z.B. durch Region- 

Growing-Verfahren, vgl. Saatfüll-Algorithmus der 

2D-Computergrafik)

4. Merkmalsextraktion 

Flächen: 

Intensitätswert / Farbe 

Umfang, Größe 

Schwerpunkt 

Hauptachsen 

Polygonzerlegung 

... 

Konturen: 

Kettencode 

Polygon 

Länge 

Orientierung 

... 

Texturen: 

statistische Merkmale 

visuelle Eigenschaften 

... 

statistische Merkmale: 

Informationsgehalt, Momente (Mittelwert, Varianz, 

Schiefe, Kurtosis... einer Verteilung), Anzahl der Pixel

5. Klassifikation 

Wie löst das menschliche visuelle System diese 

Aufgaben? 

Biologische Grundlagen

Die Großhirnrinde: 

Teile des Körpers entsprechen bestimmten 

sensorischen und motorischen Feldern der 

Großhirnrinde: besonders empfindliche Regionen 

werden auf relativ große Bereiche abgebildet

Die Sehbahn beginnt im Auge (vgl. Vorlesung 

Computergrafik, Kap. 2a) 

Aufgabe der Augen: auf beiden Netzhäuten ein klares, 

scharfes Bild festhalten 

• 3 Muskelpaare; Nachführen der Augen in wenigen 

Bogenminuten 

• Hornhaut (Cornea) und Linse dienen der 

Scharfstellung 

• Durchmesser der Pupille bestimmt einfallende 

Lichtmenge (Öffenen und Schließen durch spezielle 

Muskelfasern) 

• Selbstreinigungsfunktion

Die Netzhaut (Retina): 

wandelt Lichtsignale in Nervensignale (elektrische 

Signale) um 

unterscheidet verschiedene Wellenlängen 

breiter Arbeitsbereich (Sonnenlicht / Sternenlicht) 

Präzision: aus ca. 1 m Entfernung kann noch ein Haar 

gesehen werden

Netzhaut ist Teil des Gehirns (verbunden über den 

Sehnerv) 

Dicke ¼ mm 

3 Schichten Nervenzellen + 2 Zwischenschichten 

Photorezeptoren: Zapfen und Stäbchen 

Stäbchen für Dämmerungssehen, Zapfen für Farbsehen 

in der Mitte der Retina (Fovea centralis) nur Zapfen 

Zellreihe hinter den Photorezeptoren enthält Farbstoff 

Melanin (schluckt einfallendes Licht) 

Schichten vor den Rezeptoren sind nahezu durchsichtig

Rezeptives Feld: 

Gesamtfläche der Rezeptoren auf der Netzhaut, die auf 

eine Ganglienzelle abbilden 

• das rezeptive Feld beeinflusst das Feuern dieser 

Ganglienzelle 

• Spontanentladung (unregelmäßig) 1–20 mal pro 

Sek. 

• Verschaltung variiert von der Fovea bis zum Rand 

der Netzhaut 

Entdeckung von Kuffler (1950) bei systematischem 

Absuchen der Netzhaut mit kl. Lichtfleck: 

On-Zentrum- und Off-Zentrum-Neuronen 

On-Zentrum: erhöhte Impulsrate, wenn das Zentrum des 

rezeptiven Feldes mit Lichtfleck gereizt wird ("On- 

Reaktion") 

Off-Zentrum: Unterdrückung der Aktivität, starke 

Entladung nach Ausschalten des Lichtreizes ("Off- 

Reaktion") 

je mehr von bestimmter On/Off-Region mit passendem 

Stimulus bedeckt, desto heftiger die Reaktion

je tiefer man ins Zentralnervensystem vordringt, desto 

komplexer die rezeptiven Felder der einzelnen Neuronen 

Überlappung einzelner rezeptiver Felder von 

benachbarten Ganglienzellen 

auch die Bipolarzellen besitzen rezeptive Felder

noch nicht vollständig geklärt: Funktionen der Horizontalund 

Amakrinzellen 

Chiasma opticum: Sehnervkreuzung 

beide Sehnerven teilen sich auf beide Gehirnhälften auf 

"seitliche Kniehöcker": Zwischenverarbeitungsbereich 

zwischen Chiasma und visuellem Cortex 

Farbsehen durch 3 verschiedene Nervenzellenklassen 

Visueller Cortex (Sehrinde): 

6 Schichten 

• simple cells: sensitiv gegenüber Lichtschlitz, Balken, 

Gerade 

• complex cells: sensitiv gegenüber kurzem 

Aufleuchten und evtl. Bewegung 

• hyper complex cells: sensitiv gegenüber Bewegung 

und Orientierung 

Zusammenfassung zur Sehbahn: 

• Hierarchischer Aufbau 

• massiv parallele Signalverarbeitung 

• Datenreduktion bei Merkmalsextraktion 

• viele Einzelheiten noch ungeklärt

2 Ansätze zur Untersuchung der Funktionsweise des 

visuellen Systems: 

• bottom-up: von einzelnen Neuronen und ihrer 

Funktion ausgehend (siehe oben) 

• top-down: von den Wahrnehmungsleistungen 

ausgehend (Versuchspersonen) – kognitive 

Psychologie, Gestaltwahrnehmung 

idealerweise sollten sich beide Ansätze "in der Mitte 

treffen" – davon ist man noch weit entfernt 

Gruppierungsprinzipien der Gestaltwahrnehmung 

(vgl. Vorlesung Computergrafik, Kap. 2a): 

(aus Pinz 1994) 

f): kontinuierl. Fortsetzung gruppiert stärker als Symmetrie

Es gibt auch Merkmale, die vom menschlichen visuellen 

System schlecht extrahiert werden können, z.B. 

Kollinearität: 

Gestaltwahrnehmung berücksichtigt automatisch 

Tiefeneffekte, was zu "optischen Täuschungen" führen 

kann (eigentl. Täuschungen des visuellen Systems, 

entstehen bei der neuronalen Verarbeitung):

wie rekonstruiert das menschl. visuelle System 

Bildinformationen? Hinweise aus Versuchsreihen: 

was ist das? 

Die meisten Testpersonen benötigen zum Erkennen 

eines Objekts mehr als 1 Minute.

Hier sind die Erkennungszeiten deutlich niedriger, 

obgleich nur 1 Strich (rechts unten) hinzugefügt wurde: 

Vermutung: 

Das zusätzliche Linienstück ermöglicht eine höhere 

Wahrscheinlichkeit für eine kreisförmige Gruppierung; 

von da aus wird schrittweise weiter rekonstruiert 

(Kreis → Rad → Fahrrad).

Grundlage der maschinellen Bildauswertung: 

Bildgebende Verfahren 

schon hier Unterschied zum menschlichen Sehen – 

Kamera sieht anders als das Auge 

Wichtige bildgebende Verfahren (nur grober Überblick):

Computertomografie

3D-Scanner: 

- verschiedene Techniken der Tiefengewinnung

Zeilenkamera 

(Zeile mit CCD-Elementen – lichtempfindliche Sensoren) 

für Fernerkundung oft 3 parallele Zeilen: 

Luftbild unkorrigiert / korrigiert:

auch für terrestrische Aufnahmen / Gebäude- und 

Innenraum-Rekonstruktion, Archäologie: 

Panoramakamera des 

DLR 

3D-Rekonstruktion von Teilen 

des Pergamon-Altars

Flachbettscanner 

(aus http://www.mathematikphysik.de/computer/compdoc1/docs/lac08_scannen.pdf)

Bildanalyse und Bildverstehen 1. Einleitung

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?