Über semantisches Verstehen, fehlende Geometrie und die Grenzen bildgenerierender Modelle
Wer mit bildgenerierender KI arbeitet, stößt früher oder später auf ein irritierendes Detailproblem.
Eines der zuverlässigsten Beispiele: die innen angeschlagene Tür.
Gemeint ist eine ganz normale Innenraumtür, deren Bänder auf der Raumseite liegen und die sich korrekt in den Raum hinein öffnet.
Klingt banal. Ist es für die KI aber nicht.
Trotz präziser Prompts – „inward-opening“, „room-side hinges“, „flush with wall“ – entsteht häufig ein Bild, in dem:
– die Tür auf der falschen Seite des Rahmens sitzt
– das Türblatt nicht mit der Wand fluchtet
– die Öffnungsrichtung physikalisch unmöglich ist
– Zarge, Wand und Tür geometrisch nicht zusammenpassen
Das wirkt wie ein Zufall. Ist es aber nicht.
Keine Geometrie, nur Bedeutung
Der Kern des Problems liegt nicht in der „Ungenauigkeit“ der KI, sondern in ihrer Funktionsweise.
Bildgenerierende Modelle arbeiten nicht mit physikalischen Regeln, räumlichen Abhängigkeiten oder konstruktiver Logik.
Sie besitzen keine innere Repräsentation von:
– Anschlagseiten
– Drehpunkten
– Raumtiefe
– Materialdicke
– Bewegungsfreiheit
Stattdessen erzeugen sie Bilder aus statistischen Mustern, gelernt aus riesigen Mengen an Trainingsdaten.
Begriffe wie „innen“, „angeschlagen“, „öffnet sich nach links“ werden semantisch verarbeitet – nicht geometrisch.
Die KI weiß, was eine Tür ist, aber nicht, wie sie funktioniert.
Sie malt das, was wie eine Tür aussieht, nicht das, was physikalisch eine Tür ist.
Was die Trainingsdaten verraten
Ein Blick auf die Datenbasis erklärt viel.
Die meisten Trainingsbilder zeigen:
– geschlossene Türen
– frontale Perspektiven
– architektonische Visualisierungen mit idealisierten Normen
Türen, die „lesbar“ aussehen, nicht zwingend korrekt
Was kaum vorkommt:
– explizit beschriebene Anschlagseiten
– technische Detaildarstellungen
– funktionale Perspektiven von innen
– Varianten, bei denen Mechanik wichtiger ist als Ästhetik
Die KI lernt also eine visuelle Norm, keine konstruktive Vielfalt.
In dieser Norm ist es oft „richtiger“, eine Tür so darzustellen, dass sie visuell eindeutig wirkt – selbst wenn sie physikalisch falsch ist.
Semantik schlägt Physik
Die innen angeschlagene Tür wird damit zu einem überraschend guten Testfall.
Sie zeigt sehr klar, wo aktuelle KI-Bildmodelle stark sind – und wo nicht.
Sie sind hervorragend darin:
– plausible Oberflächen zu erzeugen
– bekannte Formen stilistisch korrekt zu kombinieren
– ästhetische Erwartungen zu erfüllen
Aber sie scheitern dort, wo:
– räumliche Abhängigkeiten entscheidend sind
– Funktion wichtiger ist als Aussehen
– Logik nicht explizit sichtbar ist
Was logisch klingt, wird nicht automatisch logisch dargestellt.
Und manchmal ist eine Tür eben nicht nur eine Tür,
sondern ein Prüfstein für das Verständnis von Raum, Richtung und Realität.
