17.03.2023 von Rudi Schmidts
Unter allen kostenlosen Diffusionsmodellen sticht Stable Diffusion nicht nur durch seine großartige Bildqualität hervor. Es lässt sich - dank einer sehr umtriebigen Community - sogar auf dem heimischen Rechner installieren und mit einer potenten GPU sodann deutlich zügiger benutzen als bei vielen Webdiensten.
Der offene Charakter von Stable Diffusion führt auch dazu, dass viele neue Ideen der KI-Forscher meist schnell als kostenlose Erweiterungen zum Ausprobieren bereitstehen. Was Anwendern die wiederum einmalige Möglichkeiten eröffnet, immer am schnellen Puls der KI-Zeit zu experimentieren.
Die richtige Zeit ist jetzt
Selbst wer sich primär für Bewegtbilder interessiert, sollte sich schon heute mit KI-Modellen und deren Latent Space auseinandersetzen. Das sogenannte "Prompting" - also die Beschreibung des gewünschten Motivs durch spezielle Begriffe - wird auch für die kommenden Zeiten eine relativ unspezifische Fähigkeit bleiben, die vor allem durch Erfahrung geprägt wird. Übung macht bei Stable Diffusion im wahrsten Sinne das Meisterwerk.
Um sich selbst im Prompting zu schulen, gibt es zahlreiche Möglichkeiten für einen Zugang. Diese lassen sich grob in Online/Remote und Offline/Lokal aufteilen. Online findet man zahlreiche Webangebote mit diversen KI-Modellen, während für eine lokale Installation aktuell Stable Diffusion das Tool der Wahl ist.
Remote als Webdienst
Für die allerersten kostenlosen Gehversuche lässt sich beispielsweise AI-Horde nutzen, da hiermit erst einmal eine eigene Installation entfällt.
AI Horde (früher als "Stable Horde" bekannt) ist ein sehr großer, verteilter Crowdsourced-Cluster für KI-Modelle. AI Horde erlaubt es auch ohne leistungsstarke GPU/Grafikkarte Diffusions- oder Texterzeugungsmodelle wie GPT/OPT zu verwenden. Diese laufen auf freien GPU-Ressourcen, weclhe von der Community bereitgestellt werden. Sollte man die AI Horde längerfristig nutzen, darf man durchaus in Erwägung ziehen, dieses beeindruckende Projekt zu unterstützen und vielleicht sogar selbst GPU-Leistung zur Verfügung zu stellen.
Man kann den Service prinzipiell kostenlos anonym nutzen, jedoch kann man seine Priorität an Rechenzeit durch Kudos erhöhen, indem man sich ins Projekt einbringt. Ohne Kudos sind die Wartezeiten mittlerweile ziemlich hoch und viele Möglichkeiten aufgrund zu hoher Rechenanforderung eingeschränkt.
Lokale Installation
Da viele Videobearbeiter jedoch in der Regel auch über eine gute Grafikkarte verfügen, wollen wir nun näher auf eine lokale Installation von Stable Diffusion (via Automatic 1111) eingehen.
Auf jeden Fall sollte man wissen, dass Stable Diffusion immer als eigener Server Prozess arbeitet und über eine IP seine Befehle entgegennimmt. Daher muss Stable Diffusion entweder auf dem eigenen Rechner als eigener Prozess im Hintergrund laufen (lokal) oder als Server in einem Netzwerk/Internet bereitgestellt werden bzw. bereitstehen (remote).
Eine der beliebtesten Versionen von Stable Diffusion ist Automatic1111, das immer sehr zeitnah aktuelle Entwicklungen zum Ausprobieren implementiert und sich automatisch updaten kann. Grundsätzlich benötigt die erste Installation hierfür eine Python-Umgebung sowie eine Installation von der Versionsverwaltung Git. Anschließend cloned man eine Version von Automatic 1111 und lädt die gewünschten KI-Modelle.
Eine gute Schritt für Schritt Anleitung für Windows hierzu findet man beispielsweise hier. Wer eine Nvidia CPU besitzt kann sich alle Installationsschritte per Script automatisiert ausführen lassen - indem man diesen Installer nutzt. Nutzer von AMD und Intel GPUs müssen dagegen leider noch etwas mehr Handarbeit aufwenden.
Erste Schritte
Nach der Installation startet man den Server und erhält eine URL, die man entweder über einen Browser nutzen kann. Alternativ kann man damit auch andere Dienste verlinken, z.B. ein Photoshop Plugin, was wir zu einem späteren Zeitpunkt in dieser Artikelserie zeigen werden.
Automatic1111 kommt mit einem eigenen Launcher, der vor dem Start zahlreiche Optionen zur Verfügung stellt:
Die meisten Einstellungen sind gut erklärt. So kann man das Programm automatisch nach Updates suchen oder auch Reste der letzte Session aufräumen lassen. Am wichtigsten dürften jedoch die Launch-Optionen "Low VRAM" sowie "Enable Xformers" sein. Die VRAM Option erlaubt die Ausführung auf Grafikkarten mit weniger als 8GB RAM und die Xformers sind Geschwindigkeitsoptimierungen.
Mit dem Klick auf "LAUNCH WEBUI" startet man anschließend den Server-Prozess sowie eine Weboberfläche mit Zugriff auf den Server. Wenn alles geklappt hat, öffnet sich daraufhin zuerst ein Powershell Fenster, in dem man den aktuellen Server-Status sehen kann:
Anschließend öffnet sich ein Stable Diffusion Tab im Browser, welches die ersten Eingaben erwartet:
Nun sollte es losgehen können. Für die ersten Schritte kann man nun in das obere Textfeld (1) eigene Prompts eingeben, in unserem Fall "Photo of a cat reading a high gloss magazine about mice". Anschließend drückt man auf "Generate" (2) und muss sich je nach GPU nun etwas gedulden. Das fertige Bild erscheint nach einer Weile im Output-Fenster (3) und kann durch direktes anklicken noch vergrößert dargestellt werden.
Willkommen in der Welt von Stable Diffusion - ab jetzt werdet ihr garantiert viel Zeit vergeuden ;) Und in der nächsten Folge dieses Textes zeigen wir euch, was die verschiedenen Parameter bewirken...
Kommentare lesen/schreiben