Skip to content

Der ultimative Guide für die Inversion textueller Stable Diffusion

Updated on

Ein umfassender Leitfaden zur Feinabstimmung der stabilen Diffusion für die Textumkehrung. Erfahren Sie, wie Sie neue Stile oder Objekte zu Ihren Text-zu-Bild-Modellen hinzufügen können, ohne das zugrunde liegende Modell zu ändern.

Herzlich willkommen zu unserem umfassenden Leitfaden zur stabilen Diffusions-Textumkehrung. In diesem Leitfaden werden wir erkunden, wie Sie die stabile Diffusion zur Textumkehrung feinabstimmen können, eine leistungsstarke Technik zur Erfassung neuer Konzepte anhand einer kleinen Anzahl von Beispielbildern. Dieser Prozess ermöglicht eine personalisierte Bildgenerierung und bietet eine neue Ebene der Kontrolle über die aus Text-zu-Bild-Pipelines generierten Bilder.

Die stabile Diffusion, ein potentes latentes Text-zu-Bild-Diffusionsmodell, hat die Art und Weise, wie wir Bilder aus Text generieren, revolutioniert. Durch die Hinzufügung der Textumkehrung können wir nun neue Stile oder Objekte zu diesen Modellen hinzufügen, ohne das zugrunde liegende Modell zu ändern. Dieser Leitfaden bietet Ihnen einen Schritt-für-Schritt-Prozess, um Ihr eigenes Modell mithilfe der Textumkehrung zu trainieren.

Was ist die Textumkehrung bei stabiler Diffusion?

Die Textumkehrung ist eine Technik, mit der wir neue Stile oder Objekte zu Text-zu-Bild-Modellen hinzufügen können, ohne das zugrunde liegende Modell zu ändern. Dabei wird ein neues Schlüsselwort definiert, das das gewünschte Konzept repräsentiert, und der entsprechende Einbettungsvektor im Sprachmodell gefunden. Diese Technik ermöglicht es dem Modell, Bilder basierend auf dem vom Benutzer bereitgestellten Konzept zu generieren, wobei oft nur 3-5 Beispielsbilder benötigt werden.

Wenn Sie zum Beispiel ein Bild generieren möchten von:

"Roboter zeichnen in der Wildnis, Natur, Dschungel"

können Sie ein neues Schlüsselwort "Roboter-Kunst" definieren und seinen entsprechenden Einbettungsvektor finden. Das Modell wird dann ein Bild basierend auf diesem Konzept generieren.

Der Prozess ermöglicht eine personalisierte Erstellung durch die Komposition von Sätzen in natürlicher Sprache unter Verwendung dieser neuen "Wörter" im Einbettungsraum des Modells. Oft reicht eine Einbettung mit einem einzigen Wort aus, um verschiedene und unterschiedliche Konzepte zu erfassen. Textumkehrungs (Einbettungs-)Dateien haben in der Regel eine Größe von 10-100 KB und verwenden die Dateierweiterungen *.pt oder *.safetensors.

Wie fügt man der stabilen Diffusion Textumkehrung hinzu?

Die Hinzufügung der Textumkehrung zur stabilen Diffusion umfasst einige Schritte. Zuerst müssen Sie eine Textumkehrungs (Einbettungs-)Datei herunterladen. Die besten Orte, um diese Dateien zu finden, sind Civitai und Hugging Face. Nach dem Herunterladen der Datei platzieren Sie sie in dem entsprechenden Ordner, wenn Sie ein Tool wie AUTOMATIC1111's Stable Diffusion WebUI (opens in a new tab) verwenden.

Die textuellen Umkehrungen arbeiten mit einem Schlüsselwort oder Trigger-Wort. Dieses Trigger-Wort wird Ihnen normalerweise an demselben Ort angezeigt, an dem Sie die Einbettung heruntergeladen haben. Verwenden Sie diese Trigger-Wörter in Ihrem Textprompt, um die textuelle Umkehrung während des Bildgenerierungsprozesses zu aktivieren.

Wenn Sie zum Beispiel AUTOMATIC1111's WebUI verwenden, können Sie Folgendes tun:

  • Klicken Sie auf das kleine "Bild"-Symbol unter dem "Generieren"-Button, um verfügbare textuelle Umkehrungen anzuzeigen.
  • Wenn Sie auf die textuelle Umkehrung klicken, wird sie dem richtigen Textprompt zugewiesen.
  • Wenn Ihr Trigger-Wort "Roboter-Kunst" lautet, können Sie dies in Ihrem Textprompt angeben, z.B. "Generiere ein Bild mit Roboter-Kunst".

Wie viele Bilder sind für die stabile Diffusions-Textumkehrung erforderlich?

Bemerkenswerterweise kann die Textumkehrung ihr Ziel bereits mit nur 3-5 Beispielfotos erreichen. Der Prozess ermöglicht eine personalisierte Erstellung durch die Komposition von Sätzen in natürlicher Sprache unter Verwendung dieser neuen "Wörter" im Einbettungsraum des Modells. Oft reicht eine Einbettung mit einem einzigen Wort aus, um verschiedene und unterschiedliche Konzepte zu erfassen.

Angenommen, Sie möchten zum Beispiel ein Bild eines "Strandsonnenuntergangs" generieren. Mit nur wenigen Beispielfotos von Strandsonnenuntergängen können Sie das Modell darauf trainieren, dieses Konzept zu verstehen. Ihr Textprompt könnte folgendermaßen lauten:

Beispielhafter Textprompt: "Generiere ein Bild eines Strandsonnenuntergangs."

Ebenso können Sie für die Generierung eines Bilds mit einem "Blumenmuster" einige Beispielfotos von Blumenmustern verwenden, um das Modell zu trainieren. Ihr Textprompt könnte lauten:

Beispielhafter Textprompt: "Generiere ein Bild mit einem Blumenmuster."

Durch die Bereitstellung dieser Beispielprompts kann das Modell das gewünschte Konzept verstehen und entsprechende Bilder generieren.

Es ist jedoch wichtig zu beachten, dass die Qualität und Vielfalt der Bilder die Ausgabe beeinflussen können, obwohl die textuelle Umkehrung im Allgemeinen mit einer geringen Anzahl von Beispielfotos gut funktioniert. Durch die Verwendung eines größeren und vielfältigeren Datensatzes kann die Fähigkeit des Modells verbessert werden, präzise und kreative Bilder zu generieren.

Wie trainiert man sein eigenes Gesicht in der stabilen Diffusion?

Wie trainiert man sein eigenes Gesicht in der stabilen Diffusion

Das Training des eigenen Gesichts in der stabilen Diffusion erfolgt nach einem ähnlichen Prozess wie die textuelle Umkehrung. Zuerst müssen Sie eine Sammlung von Bildern Ihres Gesichts erstellen. Diese Bilder sollten vielfältig sein und verschiedene Winkel, Ausdrücke und Beleuchtungsverhältnisse abdecken. Je abwechslungsreicher Ihr Datensatz ist, desto besser wird das Modell darin sein, neue Bilder zu generieren, die Ihrer Ähnlichkeit entsprechen. Sobald Sie Ihren Datensatz haben, können Sie ein Tool wie das Stable Diffusion WebUI von AUTOMATIC1111 verwenden, um Ihr Modell zu trainieren. Der Prozess besteht darin, Ihre Bilder in das Modell einzuspeisen und ihm beizubringen, die Muster und Merkmale zu erkennen, die Ihr Gesicht ausmachen. Dies geschieht durch einen Prozess, der als Feinabstimmung bezeichnet wird, bei dem das vorhandene Wissen des Modells angepasst wird, um besser zu den neuen Daten zu passen.

Hier sind einige wichtige Faktoren, die Sie während des Prozesses beachten müssen:

  • Negative Prompt: Schließen Sie bestimmte Elemente oder Konzepte von den generierten Bildern aus.
  • Seed: Bestimmen Sie die Zufälligkeit bei der Bildgenerierung.
  • Anzahl der Bilder: Wählen Sie die Gesamtanzahl der zu erstellenden Bilder.
  • Modellauswahl: Wählen Sie verschiedene Modelle, um verschiedene Ergebnisse zu erzielen.
  • Bildgröße: Kontrollieren Sie die Abmessungen der Ausgabebilder.
  • Leitfaden-Skala: Passen Sie das Maß an Einhaltung des Prompts an.
  • Bildmodifikatoren: Nutzen Sie zusätzliche Tools, um Ihre Prompts zu verfeinern und zu verbessern.

Wenn Sie zum Beispiel möchten, dass das Modell Bilder von Ihnen generiert, auf denen Sie lächeln, könnten Sie einen textbasierten Prompt wie den folgenden verwenden:

"Generiere ein Bild mit meinem Lächeln".

Das Modell würde dann ein Bild auf der Grundlage des Konzepts "mein Lächeln" generieren, das es während des Feinabstimmungsprozesses gelernt hat.

Stable Diffusion Textual Inversion herunterladen

Das Herunterladen der Textinvertierung für Stable Diffusion ist ein einfacher Vorgang. Die besten Orte, um diese Dateien zu finden, sind Civitai und Hugging Face. Diese Plattformen bieten eine Vielzahl von Textinvertierungsdateien, die Sie verwenden können, um Ihrem Text-zu-Bild-Modell neue Stile oder Objekte hinzuzufügen.

Sobald Sie eine Textinvertierungsdatei gefunden haben, die Ihren Anforderungen entspricht, laden Sie sie einfach herunter und platzieren Sie sie im entsprechenden Ordner. Wenn Sie ein Tool wie das Stable Diffusion WebUI von AUTOMATIC1111 verwenden, wäre dies der Ordner:

*\stable-diffusion-webui\embeddings

Wenn Sie beispielsweise eine Textinvertierungsdatei für "Robot-Kunst" heruntergeladen haben, platzieren Sie diese Datei im Ordner "Embeddings". Wenn Sie dann ein Bild auf der Grundlage dieses Konzepts generieren möchten, können Sie einen textbasierten Prompt wie "Generiere ein Bild mit Robot-Kunst" verwenden.

Wo man Textinvertierung für Stable Diffusion platziert?

Sobald Sie eine Textinvertierungsdatei heruntergeladen haben, ist der nächste Schritt, sie an den richtigen Ort zu legen. Wenn Sie ein Tool wie das Stable Diffusion WebUI von AUTOMATIC1111 verwenden, sollten Sie die Datei in diesem Ordner platzieren:

*\stable-diffusion-webui\embeddings

Es ist wichtig zu beachten, dass die Textinvertierungsdatei dem erwarteten Format des verwendeten Tools entsprechen sollte. Die meisten Textinvertierungsdateien verwenden die Dateierweiterung *.pt oder *.safetensors. Wenn Ihre Datei in einem anderen Format vorliegt, müssen Sie sie möglicherweise konvertieren, bevor Sie sie verwenden können.

Wenn Sie beispielsweise eine Textinvertierungsdatei für "Robot-Kunst" heruntergeladen haben, platzieren Sie diese Datei im Ordner "Embeddings". Wenn Sie dann ein Bild auf der Grundlage dieses Konzepts generieren möchten, können Sie einen textbasierten Prompt wie "Generiere ein Bild mit Robot-Kunst" verwenden.

Möchten Sie großartige Stable Diffusion Prompts schreiben? Lesen Sie unseren Leitfaden für Stable Diffusion Prompts, um loszulegen!

FAQ

  1. Was ist die Stable Diffusion Textual Inversion? Die Stable Diffusion Textual Inversion ist eine Technik, mit der Sie Ihrem Text-zu-Bild-Modell neue Stile oder Objekte hinzufügen können, ohne das zugrunde liegende Modell zu ändern. Sie funktioniert, indem sie ein neues Stichwort definiert, das das gewünschte Konzept repräsentiert, und den entsprechenden Einbettungsvektor im Sprachmodell findet.

  2. Wie trainiere ich ein Modell für Stable Diffusion Textual Inversion? Um ein Modell für Stable Diffusion Textual Inversion zu trainieren, müssen Sie eine Reihe von Bildern sammeln, die das von Ihnen hinzuzufügende Konzept darstellen. Sobald Sie Ihre Bilder haben, können Sie ein Tool wie das Stable Diffusion WebUI von AUTOMATIC1111 verwenden, um Ihr Modell zu trainieren. Der Prozess besteht darin, Ihre Bilder in das Modell einzuspeisen und ihm zu ermöglichen, die Muster und Merkmale zu erlernen, die Ihr Konzept ausmachen.

  3. Wo kann ich Textinvertierungsdateien herunterladen? Sie können Textinvertierungsdateien von Plattformen wie Civitai und Hugging Face herunterladen. Diese Plattformen bieten eine Vielzahl von Textinvertierungsdateien an, die Sie verwenden können, um Ihrem Text-zu-Bild-Modell neue Stile oder Objekte hinzuzufügen.