Über semantisches Verstehen, fehlende Geometrie und die Grenzen bildgenerierender Modelle

Wer mit bildgenerierender KI arbeitet, stößt früher oder später auf ein irritierendes Detailproblem.

Eines der zuverlässigsten Beispiele: die innen angeschlagene Tür.
Gemeint ist eine ganz normale Innenraumtür, deren Bänder auf der Raumseite liegen und die sich korrekt in den Raum hinein öffnet.
Klingt banal. Ist es für die KI aber nicht.

Trotz präziser Prompts – „inward-opening“, „room-side hinges“, „flush with wall“ – entsteht häufig ein Bild, in dem:
– die Tür auf der falschen Seite des Rahmens sitzt
– das Türblatt nicht mit der Wand fluchtet
– die Öffnungsrichtung physikalisch unmöglich ist
– Zarge, Wand und Tür geometrisch nicht zusammenpassen

Das wirkt wie ein Zufall. Ist es aber nicht.

Keine Geometrie, nur Bedeutung

Der Kern des Problems liegt nicht in der „Ungenauigkeit“ der KI, sondern in ihrer Funktionsweise.

Bildgenerierende Modelle arbeiten nicht mit physikalischen Regeln, räumlichen Abhängigkeiten oder konstruktiver Logik.

Sie besitzen keine innere Repräsentation von:
– Anschlagseiten
– Drehpunkten
– Raumtiefe
– Materialdicke
– Bewegungsfreiheit

Stattdessen erzeugen sie Bilder aus statistischen Mustern, gelernt aus riesigen Mengen an Trainingsdaten.

Begriffe wie „innen“, „angeschlagen“, „öffnet sich nach links“ werden semantisch verarbeitet – nicht geometrisch.
Die KI weiß, was eine Tür ist, aber nicht, wie sie funktioniert.

Sie malt das, was wie eine Tür aussieht, nicht das, was physikalisch eine Tür ist.

Was die Trainingsdaten verraten

Ein Blick auf die Datenbasis erklärt viel.

Die meisten Trainingsbilder zeigen:
– geschlossene Türen
– frontale Perspektiven
– architektonische Visualisierungen mit idealisierten Normen
Türen, die „lesbar“ aussehen, nicht zwingend korrekt

Was kaum vorkommt:
– explizit beschriebene Anschlagseiten
– technische Detaildarstellungen
– funktionale Perspektiven von innen
– Varianten, bei denen Mechanik wichtiger ist als Ästhetik

Die KI lernt also eine visuelle Norm, keine konstruktive Vielfalt.
In dieser Norm ist es oft „richtiger“, eine Tür so darzustellen, dass sie visuell eindeutig wirkt – selbst wenn sie physikalisch falsch ist.

Semantik schlägt Physik

Die innen angeschlagene Tür wird damit zu einem überraschend guten Testfall.
Sie zeigt sehr klar, wo aktuelle KI-Bildmodelle stark sind – und wo nicht.

Sie sind hervorragend darin:
– plausible Oberflächen zu erzeugen
– bekannte Formen stilistisch korrekt zu kombinieren
– ästhetische Erwartungen zu erfüllen

Aber sie scheitern dort, wo:
– räumliche Abhängigkeiten entscheidend sind
– Funktion wichtiger ist als Aussehen
– Logik nicht explizit sichtbar ist

Was logisch klingt, wird nicht automatisch logisch dargestellt.

Und manchmal ist eine Tür eben nicht nur eine Tür,
sondern ein Prüfstein für das Verständnis von Raum, Richtung und Realität.

Geschlossene weiße Innenraumtür in einer Wand, frontal aufgenommen, mit Türgriff auf der rechten Seite
Eine scheinbar einfache Innenraumtür – ein gutes Beispiel dafür, wo KI-Bildmodelle an räumlicher Logik scheitern können.