Kommentar: Niemand braucht KI-generierte Podcasts

vor 1 Tag 1

Mitte September hat Google mit Audio Overview ein neues Feature für das Notiztool NotebookLM herausgegeben, mit dem man zu einer hochgeladenen Datei oder zu einer URL einen Podcast von zwei KI-Hosts erstellen kann. In bester Laberpodcastmanier sprechen dann zwei Text-to-Speech-Systeme anhand eines mit Gemini 1.5 erstellten Podcast-Skripts miteinander über den Inhalt der bereitgestellten Informationen. Bisher kann man den Dialog nicht nach seinen Wünschen gestalten und das System scheint auch nicht offenlegen zu wollen, dass es sich um eine KI-generierte Aufarbeitung handelt.

Philipp Steevens ist seit 2022 bei iX. Er betreut vornehmlich Artikel aus den Bereichen Data Science und KI und kümmert sich um den LinkedIn-Auftritt des Magazins.

Da ich recht selten Podcast höre, hat mich das Ganze zunächst kaltgelassen, obwohl das Feature in der Breite des Internets einige Wellen geschlagen hat. Doch nach einem ersten Hereinhören kann ich sagen: Ich habe selten eine so unnütze Informationsaufarbeitung gesehen – oder in diesem Fall gehört. Bislang funktioniert das Ganze als experimentelles Feature nur auf Englisch, der zumindest humoristische Erfolg lässt jedoch eine Verbreitung in weiteren Sprachen befürchten.

Grundsätzlich finde ich die Idee hinter NotebookLM nicht verkehrt. Man lädt Dokumente hoch oder gibt eine URL an, ein Sprachmodell von Google fasst den Inhalt zusammen, stellt Schlüsselthemen heraus und bietet Fragen an, die man an die Quelle stellen könnte. Für einen schnellen Überblick über längere Inhalte oder vielleicht als ersten Zugang zu einem komplexen Thema kann das hilfreich sein. Das Ganze unterscheidet sich dabei im Prinzip nicht sonderlich von RAG-Systemen, die man mit eigenen Dokumenten aufbaut. Ob man die Idee mag, mit einem KI-Assistenten dann die Themen weiterzuentwickeln, ist sicherlich Geschmackssache, aber ähnelt eben auch dem etablierten Coden mit einem KI-Programmierassistenten.

Was mich an Audio Overview wirklich stört, ist die Idee, dass der Podcast auf eigenen Dokumenten oder externen Quellen irgendwie beim Wissenserwerb helfen könnte. Ein echter Podcast ist für mich aus verschiedenen Gründen interessant. Auf der einen Seite steht der klassische Podcast mit bekannten Menschen, die frei oder strukturiert zu bestimmten Themen sprechen, ihre Meinungen austauschen und das Thema vielleicht sogar einordnen. Man bekommt den Eindruck eines persönlicheren Einblicks auf die Denke und Meinung dieser Menschen, der Podcast fühlt sich dadurch intim an. Auf der anderen Seite stehen Podcasts zu speziellen Themen oder Nachrichtenpodcasts. Hier schätze ich einen klaren roten Faden und aufbereitete Informationen, die die Sprecherinnen und Sprecher sprachlich klar und angemessen rüberbringen. Die Audio Overviews von NotebookLM sind für mich ein Bastard aus beiden Kategorien, der vor allem die Nachteile des Formats Podcast verstärkt.

Die Podcasts-KI von Audio Overview stolpert über ihre eigenen Sätze, macht Sprechpausen zur Wortfindung und bringt wirklich nur die allerschlechtesten Wortspiele. Will man ein wissenschaftliches Paper oder eine technische Dokumentation zusammengefasst haben, dann wäre schlechter Stil an dieser Stelle noch ein Kompliment. Der Stil macht mich sauer, da ich weiß, dass es kein echter Mensch ist, der sich den Satz zurechtlegen muss, um etwas bestmöglich auszudrücken. Das Ding ist ein Sprachcomputer, der muss die Eigenheiten und Fehler menschlicher Rede nicht eins zu eins kopieren. Ich erwarte von einem Werkzeug zur Wissensaggregation keine Sätze, die eine Meinung anklingen lassen oder vorgetäuschte Empathie, die das System dahinter sowieso nicht empfinden kann, geschweige denn versteht. Das Hin und Her zwischen den vorgespielten Moderatoren verzögert die Wissensaufnahme für mich nur. Statt verdichtetes Wissen zu bekommen, muss ich mir gefühlt 30 Sekunden Gelaber pro 15 Sekunden Informationsschnipsel anhören.

Die Funktion Audio Overview beschreibt Google selbst noch als Experiment. Für mich persönlich würde ich es als gescheitert erklären. Ein Audio-Overview-Feature, bei dem man das unnötige Geplänkel zwischen den simulierten Hosts abdrehen kann, würde ich mir für eine neue Meinung wieder anhören. Bis dahin arbeite ich lieber weiter mit Text.

(pst)

Gesamten Artikel lesen