-
Wie Sie gratis KI-Stimmen klonen – für mehrsprachige Podcasts und Hörbücher
- Chatterbox TTS online ausprobieren
- ComfyUI und Chatterbox: Installation und Vorbereitung
- ComfyUI und Chatterbox: Lokal Stimmen generieren
- Fazit
KI-Stimmen wie die von ElevenLabs klingen bereits verblüffend echt. Inzwischen gibt es auch kostenlose Alternativen, die sich auf dem eigenen Rechner betreiben lassen. Mit dem Modell Chatterbox TTS (Text-to-Speech) von Resemble.ai können Sie gleich mehrere Stimmen klonen: Diese lesen danach gemeinsam ein Skript vor und klingen dabei ziemlich realistisch. So lassen sich komplette Podcasts oder Hörspiele produzieren, ganz ohne reale Sprecherinnen oder Sprecher. Alternativ können Sie sich auch ein Hörbuch von Ihrer geklonten Lieblingsstimme vorlesen lassen oder einen Text, der von einem Chatbot verfasst wurde.
Soundqualität und Betonung erreichen zwar nicht das Niveau der kostenpflichtigen Angebote von ElevenLabs, doch mit einer hochwertigen Stimmvorlage kommt man dem Marktführer schon sehr nahe. Der Fantasie sind hierbei kaum Grenzen gesetzt. Eine Zensur gibt es nicht. Nach der Installation von Chatterbox TTS legen Sie die Feinheiten in der grafischen Bedienoberfläche "ComfyUI" fest. So können Sie etwa mitten im Gespräch zu einer von 23 Sprachen wechseln, darunter Deutsch, Englisch, Türkisch und Chinesisch. Sie können auch gleich ein ganzes Hörbuch in mehreren Sprachen produzieren. In diesem Ratgeber erklären wir Ihnen Schritt für Schritt, wie Sie ComfyUI, die nötigen Modelle sowie Nodes (Knotenpunkte) installieren und alles passend konfigurieren. So lassen sich beispielsweise das Sprechtempo und die Betonung festlegen.
- KI-Stimmen klingen inzwischen verblüffend echt – und mit kostenlosen Alternativen wie Chatterbox TTS lassen sie sich sogar lokal auf dem eigenen Rechner nutzen.
- Damit können Sie Stimmen klonen, in verschiedenen Sprachen sprechen lassen und ganze Hörbücher, Podcasts oder Hörspiele produzieren.
- In unserem Ratgeber erfahren Sie, wie die Einrichtung gelingt und welche Möglichkeiten die Software eröffnet.
Dadurch klingt das Ergebnis möglichst natürlich, ohne Soundfehler oder Wiederholungen. Die Ergebnisse lassen sich auch für kommerzielle Zwecke nutzen. Wichtig ist dabei, dass Sie keine Rechte realer Sprecher oder Personen verletzen. Um Missbrauch wie die Nachahmung realer Personen für Fake News zu verhindern, besitzen die Soundfiles ein unhörbares, von Resemble AI entwickeltes Wasserzeichen (PerTh). Als Grafikkarte kam bei uns eine GeForce RTX 4080 Super zum Einsatz, die mit 16 GByte mehr als genug Platz bietet. Da das multilinguale Chatterbox-Modell nur rund 2,14 GByte klein ist, dürfte es vermutlich auch mit weniger Grafikspeicher oder im CPU-Modus problemlos laufen.
Das war die Leseprobe unseres heise-Plus-Artikels "Wie Sie gratis KI-Stimmen klonen – für mehrsprachige Podcasts und Hörbücher". Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.