Nvidia hat mit Fugatto eine KI-Technik für die Generierung von Audio vorgestellt, die deutlich vielseitiger und besser als alle Konkurrenzdienste sein soll. So soll es damit etwa möglich sein, existierende Audioaufnahmen zu transformieren und beispielsweise aus einem Stück Klavierspiel Gesang machen. Möglich sei es auch, die Aufnahme einer Stimme so zu modifizieren, dass sich der Akzent oder die Stimmung der aufgezeichneten Person scheinbar ändern. Gedacht sei die Technik für die Produktion von Musik, für die Entwicklung von Computerspielen und für "normale Menschen, die Sachen erschaffen wollen", erklärt Bryan Catanzaro von Nvidia.
Empfohlener redaktioneller Inhalt
Mit Ihrer Zustimmmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.
YouTube-Video immer laden
Trainiert wurde Fugatto (Foundational Generative Audio Transformer Opus 1) laut Nvidia ausschließlich mit Material unter Open-Source-Lizenzen, gesteuert wird die Technik mit Textbefehlen ("Prompts") oder mithilfe von Audiodateien. In einem Video zeigt Nvidia, wie Fugatto lediglich auf solch einen Prompt hin das Geräusch eines vorbeifahrenden Zuges generiert, das sich in eine Orchesteraufnahme verwandelt. In weiteren Beispielen trennt die Technik eine Stimme aus einem Song heraus und generiert eine andere Stimme, die einen vorgegebenen Satz aufsagt. Außerdem lassen sich zu einem hochgeladenen Musikstück Instrumente hinzufügen.
"Wir wollten ein Modell erschaffen, das Geräusche so versteht und produziert, wie Menschen es tun", erklärt Rafael Valle von Nvidia das Produkt. An der Entwicklung haben demnach ungefähr ein Dutzend Menschen mitgearbeitet. Laut der Nachrichtenagentur Reuters wird intern noch darüber debattiert, ob und wie die Technik öffentlich verfügbar gemacht wird. Jede generative Technik bringe einige Risiken mit sich, begründet Catanzaro demnach die Zurückhaltung: "Wir müssen damit vorsichtig sein und deshalb haben wir keine unmittelbaren Pläne, das zu veröffentlichen."
(mho)