Aus Text wird Bild

Längst braucht es weder Kamera noch Stift oder Farbe, um Bilder zu erstellen. Das geht, der KI sei Dank, auch per Sprachbefehl. Die Bildgenerierung überzeugt mit beeindruckender Geschwindigkeit, doch eines braucht sie immer noch: den Menschen dahinter.
Komposition der Softwares für Bildgenerierung Dall-E und Stable Diffusion
Der beste Beweis für den Fortschritt in der Bildgenerierung: eine Gemeinschaftsarbeit zweier KI-Modelle. (© Komposition aus von Dall-E und Stable Diffusion generierten Bildern, erstellt und in Photoshop zusammengefügt von Raphaël Millière, Columbia University, New York)

Stellen Sie sich vor, Sie könnten in Sekundenschnelle ein buntes Porträt einer dänischen Prinzessin malen. Allein beim Versuch dürfte man sich eine verkrampfte Hand einfangen. Doch seit einiger Zeit gibt es Tools, die genau das möglich machen. Sie verwandeln eine Beschreibung blitzschnell in das gewünschte Bild. Nach holprigen Anfängen hat sich die Bildgenerierung inzwischen zu einem wirkungsvollen Instrument entwickelt. Im letzten Jahr krönte sich Dall-E mit eindrucksvollen Bildern zur bis dato besten Software für Bildgenerierung. Inzwischen muss sich die KI allerdings mit anderen Modellen um diesen Status streiten.

Erst kürzlich veröffentlichte Stability AI gemeinsam mit einer Forschungsgruppe um Professor Björn Ommer von der Ludwig-Maximilians-Universität München ein neues Modell: Stable Diffusion. Zentral dafür ist die Diffusion von Bildern, die auch andere Modelle wie Glide verwenden. Dabei wird einem Bild schrittweise ein Rauschen hinzugefügt. Das wird so lange wiederholt, „bis es am Ende so aussieht wie der Fernseher, wenn Sie das Antennenkabel gezogen haben“, bringt es Ommer auf den Punkt. Daraufhin kehrt das Modell diesen Prozess um und bringt das Bild – ebenfalls in sehr kleinen Schritten – in seine ursprüngliche Form zurück. Indem das wiederholt wird, lernt das Modell die relevanten Muster eines Bildes.

Wenn Nutzer*innen nun eine Bildbeschreibung, einen sogenannten Prompt, liefern, kann das Modell neue Bilder generieren. So werden Modelle wie Stable Diffusion, Dall-E oder Glide zur „Leiter“ für kreative Köpfe. Deren Ideen klettern direkt in den ansehnlichen Entwurf, ohne auf das technische Geschick der Nutzer*innen angewiesen zu sein. Und nicht nur das. Ein Textprompt kann beliebig viele Entwürfe generieren.

Stable Diffusion beschleunigt Bildgenerierung

Aber was ist neu an Stable Diffusion? Vor dem Diffusionsprozess werden die einlaufenden Bilder komprimiert. Danach bringt das Modell sie wieder zurück in ihre originale Größe. Das heißt: „Während des Trainings wird die Essenz von Milliarden Trainingsbildern heruntergekocht, sodass sie in wenige Gigabytes passt“, sagt Ommer. Damit nimmt die Bildgenerierung einiges an Tempo auf, denn so benötigt sie weniger Rechenpower. Das geht einher mit dem Ziel des Projekts, Bildgenerierung zu demokratisieren. „Unser Ziel ist immer gewesen, das Modell so kompakt zu machen, dass es auf einer gewöhnlichen Grafikkarte funktioniert“, sagt Ommer. Bisher haben vor allem diejenigen mit leistungsstarken Servern das Heft in der Hand.

Stable Diffusion hingegen ist frei verfügbar – der Code ist einsehbar, alle können das bereits trainierte Modell nach Lust und Laune modifizieren. Der Grund dafür ist simpel wie genial. Ommer glaubt, „dass visuelle Systeme ein sehr mächtiges Werkzeug sind, das von der Kreativität seiner Anwender*innen profitiert“. So haben schon viele Nutzer*innen das Modell weiterentwickelt und generieren inzwischen massenhaft Kunst oder gar kurze Videos.

Die vielfache Verwendbarkeit ruft auch Agenturen auf den Plan. Die sind dabei allerdings noch zögerlich. „Unser Einsatz beschränkt sich aktuell noch aufs Experimentieren“, sagt Max Ströbel, Geschäftsführer der jungen, datenbasierten Kreativagentur Achtung Neo. Doch gerade das Gewöhnen und Herantasten ist von großer Bedeutung, denn „wir sind überzeugt, dass die Tools in Zukunft eine Rolle im Gestaltungsprozess spielen werden. Nur welche Rolle genau, das ist noch nicht klar“, so Ströbel.

Ähnlich handhabt das die Digitalagentur MediaMonks. Bisher nutze man diese Tools hauptsächlich intern, um sich kreativ abzustimmen, sagt Uwe Jakob, Chief Experience Officer. „Man darf aber nicht vergessen, dass es KI in der Kreativbranche, zum Beispiel in der Spiele- und Filmindustrie, schon sehr viel länger gibt. Sie erfährt nur jetzt einen wahnsinnigen Zuspruch durch die allgemeine Verfügbarkeit.“

KI als Agentur-Ersatz: zu schön, um wahr zu sein

Doch bei vielen weckt die Bildgenerierung eine düstere Befürchtung. Die Angst, ersetzt zu werden, drängt sich auf. Doch Ommer kann beruhigen: „Ich sehe diese Transition ähnlich in ihrer Wichtigkeit wie die Transition im Textbereich: Von der Tuschefeder über die Schreibmaschine zu beispielsweise Microsoft Word. Alle diese Schritte haben das Schreiben nicht obsolet gemacht.“ Genauso wenig wie die Schreibmaschine den Poeten ersetzt hat, werde die Bildgenerierung den kreativen Menschen überflüssig machen können, meint der Informatiker. Und auch Uwe Jakob bewahrt einen kühlen Kopf. Die Modelle seien kein Ersatz, sondern ein Zusatz.

Ganz so einfach ist es also doch nicht. Immerhin ist die Bildgenerierung nicht plötzlich Mensch geworden. Ihre Sprachverarbeitung übersteigt die Kompetenzen anderer KI-Modelle nicht. Letztlich versteht sie nicht, sondern verarbeitet nur. Gerade deswegen sehen die Ergebnisse manchmal nicht so aus wie gewünscht. Das überrascht Ommer nicht: „Da wird einem immer wieder klar, wie mehrdeutig wir uns ausdrücken.“ Missverständnisse gibt es schließlich auch im Gespräch mit Menschen – ganz ohne Maschine.

Die Nutzer*innen wursteln sich also um die Unzulänglichkeiten des Modells herum. Prompt Engineering nennt man das. In diesem völlig neuen Handwerk hangeln sie sich an verschiedenen Grundsätzen entlang. Zum Beispiel sind die Modelle größtenteils auf die englische Sprache trainiert. Englische Prompts liefern daher die besten Ergebnisse. Außerdem entwickeln sich bereits Konventionen, die eine bestimmte Reihenfolge von Inhalt, Stil und Details des Bildes fordern.

Darüber hinaus hat sich durchgesetzt, die verschie­denen Bestandteile der Beschreibung durch Kommata, senkrechte Striche oder zwei Doppelpunkte zu trennen. So lassen sich Beschreibungen, die wohl jeder Mensch verstünde, so herunterbrechen, dass das Modell sie versteht. Dazu gehört unter anderem, möglichst präzise zu beschreiben. Hier sind Geschicklichkeit und Geduld gefragt – und zwar menschliche. Ein strikter Leitfaden lässt sich jedoch noch nicht schreiben, wie auch Ströbel feststellt: „Noch haben wir da keine Regeln oder ­Learnings festgehalten.“ Am bekanntesten ist wohl der Prompt „An astronaut riding a horse in photo­realistic style“, mit dem OpenAI das Dall-E-Modell präsentierte.

Bildgenerierung zum Prompt „An astronaut riding a horse in photo­realistic style“
Mit dem Bild „An astronaut riding a horse in photorealistic style“ präsentierte OpenAI sein Dall-E-Modell. ©OpenAI

„Man darf nicht vergessen, dass diese Modelle in den Kinderschuhen stecken“, meint Uwe Jakob von MediaMonks. Das gilt nicht nur für Textprompts. Zudem gebe es noch Probleme beim Erstellen von gleichbleibenden Gesichtern oder Personen über Bild- und Videostrecken hinweg. Diese sind aber notwendig für längere Sequenzen. Jakob zeigt sich optimistisch: „Hier entstehen fast täglich neue Funktionen und Möglichkeiten, die diese Kinderkrankheiten bald verschwinden lassen.“

Der Preis grenzenloser Kreativität

Sobald die Bilder einmal generiert sind, steht man allerdings vor weiteren Problemen. Eines davon sind die Rechtsfragen rund um die Bilder ohne menschlichen Urheber. Immerhin verwenden Modelle wie Stable Diffusion unter anderem urheberrechtlich geschützte Bilder beim Training. Von ethischen Fragen ganz abgesehen, ist der rechtliche Status der generierten Bilder noch offen. Zwar spielt das bei einer nicht kommerziellen Nutzung keine große Rolle, doch „wir freuen uns auf die lebhaften Debatten mit unseren Rechtsberatern“, meint Ströbel.

Darüber hinaus spucken Open-Source-Modelle ebenso Bilder aus, die geschützte Figuren zeigen oder anstößige Szenen darstellen. Denn die Liste möglicher Bilder ist unendlich lang. Zwar ist das Modell kostenlos. Mit Blick auf die rechtliche Situation hat die freie Verfügbarkeit jedoch ihren Preis. Zahlen müssen den wiederum die Urheber der Trainingsbilder. Schlussendlich ist die Bildgenerierung kein Allheilmittel. Sie kuriert keine Kreativitätsblockaden, ersetzt aber die verkrampfte Zeichenhand. So ist sie ganz Werkzeug – nicht mehr und nicht weniger. Das bedeutet im Umkehrschluss, dass es in Sachen Bildgenerierung menschliche Erfahrung und Kompetenz braucht; ganz egal, ob es darum geht, findige Ideen zu entwickeln, sie clever zu formulieren oder herauszufinden, wem das finale Bild denn wirklich gehört.

(js, Jahrgang 2001) ist seit Juli 2023 freier Autor der absatzwirtschaft. Er ist fasziniert von neuen Technologien und der Frage, warum Konsumenten das tun, was sie tun. Außerdem ist er ein wahrer Espresso-Enthusiast.