Stable Diffusion ist ein KI-Modell, das aus An­wei­sun­gen in Textform digitale Bilder kreiert. Das Tool zeichnet sich vor allem durch seine Fähigkeit aus, sehr de­tail­rei­che und rea­lis­tisch wirkende Inhalte zu erstellen. Die Tech­no­lo­gie wird vor allem zur Bil­der­er­stel­lung verwendet, aber ebenso zur Bild­be­ar­bei­tung und zur Ge­stal­tung von User In­ter­faces.

Was ist Stable Diffusion?

Bei Stable Diffusion handelt es sich um ein ge­ne­ra­ti­ves KI-Modell, das aus Text ein­zig­ar­ti­ge rea­lis­ti­sche Bilder generiert. Dies geschieht mithilfe spe­zi­el­ler An­wei­sun­gen, die in Textform ein­ge­ge­ben und als Prompts be­zeich­net werden. Mitt­ler­wei­le zählt aber auch das Erkennen von Sprach­be­feh­len zu den in­te­grier­ten Stable-Diffusion-Features. Darüber hinaus bieten neuere Versionen die Mög­lich­keit, kurze Videos oder Ani­ma­tio­nen zu erstellen (in Kom­bi­na­ti­on mit Er­wei­te­run­gen wie Deforum).

Stable Diffusion basiert auf Deep Learning, nutzt also künst­li­che neuronale Netze zur In­for­ma­ti­ons­ver­ar­bei­tung. Dadurch ist es dem Modell möglich, aus Daten selbst­stän­dig zu lernen. Um Muster und Be­zie­hun­gen in Da­ten­men­gen zu erkennen und passende Inhalte zu ge­ne­rie­ren, wurde die künst­li­che In­tel­li­genz mit vielen Millionen Bild-Text-Paaren trainiert.

In seinen Ur­sprün­gen geht das KI-Tool auf ein Projekt von For­schen­den der LMU München und der Uni­ver­si­tät Hei­del­berg zurück. Seit der Ver­öf­fent­li­chung der ersten Version im August 2022 wurde das Modell kon­ti­nu­ier­lich ver­bes­sert. Mitt­ler­wei­le un­ter­stützt das Modell bis zu acht Mil­li­ar­den Parameter, wodurch die KI die Intention hinter Eingaben präziser erkennt und bessere Er­geb­nis­se generiert. Da Stable Diffusion als Open-Source-Software umgesetzt wurde, ist der Quellcode frei zu­gäng­lich.

Hinweis

Das Modell wurde mithilfe des LAION-Da­ten­sat­zes trainiert. Dieser be­inhal­tet mehr als fünf Mil­li­ar­den Bilder be­zie­hungs­wei­se Bild-Text-Paare, die aus Common-Crawl-Daten von Seiten wie Pinterest, WordPress, Flickr und einer Vielzahl weiterer Websites stammen. Die Be­zeich­nung LAION-Datensatz geht auf die gleich­na­mi­ge Non-Profit-Or­ga­ni­sa­ti­on aus Deutsch­land zurück, die die Daten gesammelt hat.

Was zeichnet Stable Diffusion aus?

Stable Diffusion zeichnet sich durch eine Reihe von Features und Ei­gen­schaf­ten aus, die das KI-Programm für Pri­vat­per­so­nen und Un­ter­neh­men glei­cher­ma­ßen in­ter­es­sant machen. Unter anderem sind hierbei folgende Merkmale zu nennen:

  • Open Source: Jede Person hat die Mög­lich­keit, den Quellcode des KI-Modells her­un­ter­zu­la­den und für in­di­vi­du­el­le Projekte zu nutzen. Außerdem verfügt Stable Diffusion über eine aktive Community, dank der um­fang­rei­che Do­ku­men­ta­tio­nen und Tutorials verfügbar sind.
  • Erst­klas­si­ge Er­geb­nis­se: Selbst bei komplexen Eingaben liefert Stable Diffusion rea­lis­ti­sche und de­tail­rei­che Inhalte. Dies lässt sich ei­ner­seits auf die Ar­chi­tek­tur des KI-Tools und an­de­rer­seits auf das Training mit dem um­fang­rei­chen LAION-Datensatz zu­rück­füh­ren. Damit zählt Stable Diffusion definitiv zu den besten KI-Bild-Ge­ne­ra­to­ren auf dem Markt.
  • Platt­form­un­ab­hän­gig­keit: Stable Diffusion lässt sich sowohl auf leis­tungs­star­ken Servern als auch auf Standard-Consumer-Hardware ausführen. So können Sie das Tool grund­sätz­lich auch auf ge­wöhn­li­chen PCs und Laptops verwenden. Diese Ska­lier­bar­keit gestattet es einer breiten Nut­zer­schaft, das Modell für kreative und pro­fes­sio­nel­le Zwecke ein­zu­set­zen, ohne Zugang zu teuren Cloud-Diensten zu benötigen.
  • Hohe Fle­xi­bi­li­tät: Wenn Sie über das not­wen­di­ge Know-how verfügen, können Sie das KI-Modell an Ihre spe­zi­fi­schen kreativen An­for­de­run­gen anpassen oder An­wen­dun­gen auf Basis in­di­vi­du­el­ler Workflows erstellen.

Wie funk­tio­niert Stable Diffusion?

Im Gegensatz zu den meisten anderen KI-Bild-Ge­ne­ra­to­ren stellt Stable Diffusion ein so­ge­nann­tes Dif­fu­si­ons­mo­dell dar. Bei diesem in­no­va­ti­ven Ansatz wandelt die KI Bilder aus dem Trai­nings­da­ten­satz zunächst in ein visuelles Rauschen um. Bei der Erzeugung von Bildern läuft dieser Prozess umgekehrt ab. Im Zuge des Trainings lernt das Modell, wie es aus Rauschen aus­sa­ge­kräf­ti­ge Bilder generiert, indem es immer wieder die Differenz zwischen er­stell­ten und tat­säch­li­chen Bildern überprüft. Die Stable-Diffusion-Ar­chi­tek­tur setzt sich aus vier zentralen Be­stand­tei­len zusammen:

  • Va­ria­tio­nel­ler Auto-Encoder (VAE): Der VAE besteht aus einem Encoder und einem Decoder. Der Encoder kom­pri­miert das Bild, damit es sich einfacher ma­ni­pu­lie­ren lässt und erfasst dessen se­man­ti­sche Bedeutung. Der Decoder ist für die Bild­aus­ga­be zuständig.
  • Dif­fu­si­ons­pro­zes­se: Die Vor­wärts­dif­fu­si­on fügt dem Bild schritt­wei­se Gaußsches Rauschen hinzu, bis lediglich zu­fäl­li­ges Rauschen übrig ist. Die um­ge­kehr­te Diffusion macht diesen Prozess später iterativ rück­gän­gig, erstellt also aus dem Rauschen ein ein­zig­ar­ti­ges Bild.
  • Rausch­prä­di­ka­tor: Der Rausch­prä­di­ka­tor pro­gnos­ti­ziert die Menge des Rauschens im latenten Raum und sub­tra­hiert diese vom Bild. Den Vorgang wie­der­holt er eine fest­ge­leg­te Anzahl an Malen, um das Rauschen immer weiter zu re­du­zie­ren. Bis zur Ver­si­ons­num­mer 3.0 wurde dafür ein U-Net-Modell (neu­ro­na­les Fal­tungs­netz­werk) verwendet. Neuere Versionen nutzen statt­des­sen den Rectified Flow Trans­for­mer.
  • Text­kon­di­tio­nie­rung: Ein Tokenizer übersetzt die Text­ein­ga­be in für das KI-Modell ver­ständ­li­che Einheiten, um die Intention der Be­nut­ze­rin bzw. des Benutzers zu erfassen und diese präzise zu in­ter­pre­tie­ren. Im Anschluss wird die Ein­ga­be­auf­for­de­rung an den Rausch­prä­di­ka­tor wei­ter­ge­ge­ben.
KI-Lösungen
Mehr Digital-Power dank Künst­li­cher In­tel­li­genz
  • In Sekunden zur Online-Präsenz
  • Mehr Wachstum mit KI-Marketing
  • Zeit und Res­sour­cen sparen

Ein­satz­zwe­cke von Stable Diffusion

Als Haupt­an­wen­dungs­be­reich von Stable Diffusion gilt die Bil­der­stel­lung. Für welchen Zweck Bilder generiert werden, fällt jedoch sehr un­ter­schied­lich aus. Während Kreative, De­si­gne­rin­nen und Designer den KI-Bild-Generator nutzen, um Ideen um­zu­set­zen, rea­li­sie­ren Wer­be­agen­tu­ren mithilfe des KI-Tools unter anderem digitale Entwürfe für Kampagnen und Projekte.

Stable Diffusion wird außerdem für die Bild­be­ar­bei­tung genutzt. Auch in diesem Bereich bietet das Modell ein breites Re­per­toire an Optionen. Es ist zum Beispiel möglich, einzelne Objekte aus einem Bild zu entfernen, zu übermalen oder deren Farbe zu ändern, den Hin­ter­grund gegen einen anderen zu ersetzen und die Be­leuch­tung ab­zu­än­dern.

Darüber hinaus kommt das KI-Modell beim Design von User In­ter­faces zum Einsatz. Mithilfe von Text-Prompts lassen sich sowohl komplette grafische Be­nut­zer­ober­flä­chen als auch UI-Elemente wie Buttons, Icons und Hin­ter­grün­de ge­ne­rie­ren. Dies gestattet es De­si­gne­rin­nen und Designern nicht nur, schnell und ohne großen Aufwand ver­schie­de­ne Konzepte be­zie­hungs­wei­se Ansätze zu testen, sondern ver­bes­sert im Op­ti­mal­fall auch das User-Ex­pe­ri­ence-Design.

Hinweis

Im Artikel „Bild­be­ar­bei­tungs­pro­gram­me: Kos­ten­lo­se Tools im Test” stellen wir Ihnen die besten Programme zum Be­ar­bei­ten von Bildern und Fotos vor, die sich gratis nutzen lassen.

Li­mi­tie­run­gen von Stable Diffusion

Obwohl Stable Diffusion viele Features und be­ein­dru­cken­de Fä­hig­kei­ten aufweist, gibt es dennoch einige Ein­schrän­kun­gen. Zu nennen sind in diesem Zu­sam­men­hang vor allem:

  • Bild­feh­ler: Auch wenn das KI-Modell dazu in der Lage ist, de­tail­rei­che Bilder zu erzeugen, treten vor allem bei abs­trak­ten Konzepten Un­ge­nau­ig­kei­ten auf. Ins­be­son­de­re für ungeübte Userinnen und User gestaltet es sich zudem oftmals schwierig, die ge­wünsch­ten Er­geb­nis­se zu pro­du­zie­ren.
  • Un­be­kann­te Ein­satz­fäl­le: Stable Diffusion kann lediglich auf die Beispiele aus dem Trai­nings­da­ten­satz zugreifen und diese zur Bil­der­stel­lung her­an­zie­hen. Es gelingt dem Tool nicht oder nur sehr begrenzt, Anfragen zu­frie­den­stel­lend zu be­ar­bei­ten, für die keine Daten vorhanden sind.
  • Ur­he­ber­rechts­pro­ble­me: Die für das Training der KI genutzten Daten wurden ohne aus­drück­li­che Zu­stim­mung der Ur­he­be­rin­nen und Urheber verwendet. Dies hat bereits mehrfach zu recht­li­chen Aus­ein­an­der­set­zun­gen geführt, da Be­trof­fe­ne mit der un­au­to­ri­sier­ten Nutzung ihrer Werke nicht ein­ver­stan­den waren.
  • Bias und Ste­reo­ty­pen: Wie bei anderen KI-Modellen besteht auch bei Stable Diffusion das Risiko, dass Vor­ur­tei­le aus den Trai­nings­da­ten über­nom­men werden. Dies führt unter Umständen zu ste­reo­ty­pi­schen oder dis­kri­mi­nie­ren­den Dar­stel­lun­gen (z. B. ge­schlechts-, kultur- oder al­ters­be­zo­ge­ne Ver­zer­run­gen).
  • Hard­ware­an­for­de­run­gen: Stable Diffusion benötigt für die Er­stel­lung von Bildern er­heb­li­che Re­chen­res­sour­cen, ins­be­son­de­re eine leis­tungs­star­ke Gra­fik­kar­te (GPU) mit aus­rei­chend VRAM (Video Random Access Memory). Dies kann für Nut­ze­rin­nen und Nutzer mit Standard-Hardware eine Hürde dar­stel­len. Die La­de­zei­ten und die Ge­schwin­dig­keit der Bild­ge­ne­rie­rung sind auf solchen Systemen stark ein­ge­schränkt.
IONOS AI Model Hub
Erste deutsche, mul­ti­mo­da­le KI-Plattform
  • 100 % DSGVO-konform und sicher in Deutsch­land gehostet
  • Die leis­tungs­stärks­ten KI-Modelle auf einer Plattform
  • Kein Vendor Lock-in durch Open Source
Zum Hauptmenü