Skip to content

Ein umfassender Leitfaden zur Verwendung der ElevenLabs API für Python

Updated on

Die ElevenLabs API ist ein unverzichtbares Tool für Entwickler und Kreative und ermöglicht es Python-Benutzern, überzeugende und natürliche Stimmen in ihre Anwendungen zu integrieren - und das mit nur wenigen Codezeilen. Dieser detaillierte Leitfaden führt Sie durch die Installation, Nutzung, Mehrsprachunterstützung, Anpassung der Stimmen, Echtzeit-Streaming-Funktionen und die Einrichtung des API-Schlüssels für die ElevenLabs API.

Einrichten der ElevenLabs API

Die ElevenLabs API lässt sich einfach installieren. Es genügt ein Befehl über pip, dem integrierten Paketinstaller von Python:

pip install elevenlabs

Mit diesem Befehl steht Ihnen die ElevenLabs API in Ihren Python-Skripten zur Verfügung.

Nutzung der API

Sobald Sie die ElevenLabs API installiert haben, lässt sie sich genauso einfach verwenden. Betrachten wir ein Beispiel:

from elevenlabs import generate, play
 
audio = generate(
  text="Hallo! Ich bin Robert und freue mich, Sie kennenzulernen!",
  voice="Robert",
  model="eleven_monolingual_v1"
)
 
play(audio)

In diesem Beispiel wird die Stimme 'Robert' aus dem Modell 'eleven_monolingual_v1' verwendet, um den Text zu generieren und die Audiodatei abzuspielen.

Mehrsprachige Fähigkeiten nutzen

Ein herausragendes Feature der ElevenLabs API ist die umfangreiche Unterstützung für mehrere Sprachen. Das Modell eleven_multilingual_v1 ermöglicht Entwicklern die Erstellung von Text-to-Speech-Audio in verschiedenen Sprachen, darunter Englisch, Deutsch, Polnisch, Spanisch, Italienisch, Französisch, Portugiesisch und Hindi. Werfen wir einen Blick auf ein anderes Beispiel:

from elevenlabs import generate, play
 
audio = generate(
    text="Bonjour! Je m'appelle Marcel, ravi de vous rencontrer!",
    voice="Marcel",
    model='eleven_multilingual_v1'
)
 
play(audio)

In diesem Beispiel wird Audio in Französisch generiert und abgespielt, wobei die Stimme 'Marcel' aus dem Modell 'eleven_multilingual_v1' verwendet wird.

Experimentieren mit verschiedenen Stimmen

Die ElevenLabs API ermöglicht es Ihnen, alle verfügbaren Stimmen mit der Funktion voices() aufzulisten:

from elevenlabs import voices, generate
 
available_voices = voices()
 
audio = generate(text="Grüße, Erdlinge!", voice=available_voices[0])
 
print(available_voices)

In diesem Beispiel wird Audio generiert und abgespielt, wobei die erste Stimme aus der Liste der verfügbaren Stimmen verwendet wird.

Stimmen klonen

Mit der ElevenLabs API können Sie jede Stimme im Handumdrehen klonen. Beachten Sie jedoch, dass für das Klonen einer Stimme ein API-Schlüssel erforderlich ist. Hier ist eine Demonstration, wie Sie eine Stimme klonen können:

from elevenlabs import clone, generate, play
 
voice = clone(
    name="Charlie",
    description="Eine britische männliche Stimme mit einem tiefen und klangvollen Ton. Ideal für Hörbücher",
    files=["./sample_0.mp3", "./sample_1.mp3", "./sample_2.mp3"],
)
 
audio = generate(text="Grüße! Ich bin eine geklonte Stimme!", voice=voice)
 
play(audio)

In diesem Beispiel wird der Prozess des Klonens einer Stimme und die Generierung von Audio mit der geklonten Stimme demonstriert.

Echtzeit-Streaming

Die ElevenLabs API ermöglicht das Streaming von Audio in Echtzeit während der Generierung. Hier ist eine kurze Demonstration:

from elevenlabs import generate, stream
 
audio_stream = generate(
  text="Schalten Sie ein... für eine Echtzeit-Streaming-Stimme!",
  stream=True
)
 
stream(audio_stream)

Konfiguration des API-Schlüssels

Die grundlegende API hat eine begrenzte Zeichenkapazität. Um dieses Limit zu erweitern, können Sie einen kostenlosen API-Schlüssel von ElevenLabs erhalten. Dieser Schlüssel kann entweder als Umgebungsvariable ELEVEN_API_KEY konfiguriert werden oder Sie können ihn als Zeichenkettenargument an die generate-Funktion übergeben:

from elevenlabs import set_api_key
set_api_key("<IHR_API_SCHLÜSSEL>")

In diesem Beispiel setzen wir den API-Schlüssel in unserem Skript und erweitern so die Zeichenbegrenzung unserer Text-to-Speech-Funktion.

Durch die Integration der ElevenLabs API in Ihre Python-Skripte können Sie Ihre Anwendungen mit den natürlichsten und ansprechendsten Stimmen sprechen lassen. Nutzen Sie die Kraft der lebensechten Sprache und verbessern Sie Ihre Projekte.

Fehlerbehebung bei der ElevenLabs API

Obwohl ElevenLabs noch in der Beta-Phase ist und das mehrsprachige Modell experimentell ist, gibt es Maßnahmen, die Sie ergreifen können, um Ihre Nutzung und Erfahrung zu optimieren. Während der Generierung können Sie möglicherweise Veränderungen im Ton, Stimmenübergänge oder Störgeräusche feststellen. Die Bedeutung dieser Probleme hängt weitgehend vom verwendeten Modell und der Stimme ab. Während wir kontinuierlich an der Verbesserung dieser Modelle arbeiten, haben wir einige Ratschläge, wie Sie diese Probleme mildern können.

Wir empfehlen, den Text in kürzere Abschnitte zu unterteilen, idealerweise unter 800 Zeichen. Dadurch kann eine bessere Audioqualität erhalten werden. Für englischsprachige Stimmen bietet das monolinguale Modell tendenziell mehr Stabilität.

Beim Troubleshooting gibt es einige wichtige Faktoren zu beachten:

  1. Länge des Textabschnitts: Die Qualität der Stimmen kann im Laufe der Zeit abnehmen, und dies geschieht schneller beim experimentellen mehrsprachigen Modell. Unser Team arbeitet aktiv daran, dieses Problem anzugehen.

  2. Monolingual oder Mehrsprachig: Das monolinguale Modell ist stabiler, unterstützt aber offiziell nur Englisch. Das mehrsprachige Modell ist experimentell und kann Eigenheiten aufweisen, an denen wir kontinuierlich arbeiten.

  3. Art der Stimme: Einige vorgefertigte Stimmen und speziell entwickelte Stimmen können bei längeren Generationen zu Flüstern wechseln. Wenn geklonte Stimmen verwendet werden, ist die Qualität der verwendeten Samples für das endgültige Ergebnis entscheidend.

  4. Verwendete Einstellungen: Stabilitäts- und Ähnlichkeitseinstellungen können die Leistung der Stimme und die Hervorhebung von Artefakten beeinflussen. Das mehrsprachige Modell kann Zahlen und Symbole falsch aussprechen, daher ist es von Vorteil, sie auszuschreiben.

Während dies vorübergehende Lösungen sind, hoffen wir, dass sie Ihre Erfahrung mit der ElevenLabs API verbessern können. Unser Team arbeitet aktiv an der Entwicklung neuer Technologien, wie unserem bevorstehenden "Projects"-Update, um extrem lange Generationen zu erleichtern.

Fazit

Die ElevenLabs API für Python ist ein leistungsstolles Tool, das den realistischsten Stimmen für Kreative und Entwickler bietet. Die Installation ist einfach und die Verwendung wird durch klaren und präzisen Code vereinfacht. Trotz der Beta-Phase bietet sie eine robuste mehrsprachige Unterstützung, verschiedene Stimmenoptionen, Echtzeit-Streaming und einen konfigurierbaren API-Schlüssel zur Erhöhung des Zeichenlimits. Mit den in diesem Artikel gegebenen Anleitungen sind Sie nun in der Lage, die API zu navigieren, potenzielle Probleme zu beheben und Ihre Anwendungen mit lebensechtem Sprachausgabe zu bereichern. Nehmen Sie die Zukunft des Text-to-Speech mit der ElevenLabs API an.

Häufig gestellte Fragen (FAQ)

F: Wie kann ich die ElevenLabs API installieren? A: Sie können die ElevenLabs API mit dem Befehl pip install elevenlabs über pip installieren.

F: Wie kann ich Audio mit der ElevenLabs API generieren? A: Sie können Audio mit der Funktion generate generieren, indem Sie den Text, die Stimme und das Modell angeben. Verwenden Sie dann die Funktion play, um das generierte Audio abzuspielen.

F: Unterstützt die ElevenLabs API mehrere Sprachen? A: Ja, das Modell eleven_multilingual_v1 unterstützt mehrere Sprachen, darunter Englisch, Deutsch, Polnisch, Spanisch, Italienisch, Französisch, Portugiesisch und Hindi.

F: Mit welchen Problemen kann ich bei der Verwendung der ElevenLabs API konfrontiert sein? A: Da die ElevenLabs API sich noch in der Beta-Phase befindet, können Sie auf Änderungen im Ton, in den Stimmenübergängen oder in Geräuschen während der Audio-Generierung treffen. Durch Verkürzung der Textlänge, Verwendung des monolingualen Modells für Englisch und Berücksichtigung der Art der Stimme und der verwendeten Einstellungen können Sie diese Probleme mindern.

F: Wie kann ich das Zeichenlimit der ElevenLabs API erweitern? A: Sie können das Zeichenlimit erweitern, indem Sie einen kostenlosen API-Schlüssel von ElevenLabs erhalten und ihn als Umgebungsvariable ELEVEN_API_KEY konfigurieren oder ihn als Zeichenkettenargument an die Funktion generate übergeben.