KI-generierte Podcasts: Authentizität in Gefahr?

Podcasts haben sich gerade wegen ihrer Authentizität als eines der derzeit wichtigsten Medienformate etabliert. Anders als stark inszenierte Fernsehformate oder perfekt kuratierte Social-Media-Inhalte leben sie oft von spontanen Gesprächen, hörbaren Emotionen und der Persönlichkeit der Hosts. Viele Hörerinnen und Hörer entwickeln dabei eine enge Bindung zu den Stimmen, die sie regelmäßig begleiten. Gerade diese vermeintliche Nähe und Echtheit machen Podcasts so erfolgreich.

Mit dem Fortschritt generativer KI gerät dieses Verständnis von Authentizität jedoch zunehmend unter Druck. Moderne Sprachmodelle können Texte schreiben, Stimmen imitieren und sogar natürliche Gesprächsdynamiken simulieren. Dadurch verschwimmt die Grenze zwischen menschlicher und künstlicher Kommunikation immer stärker. Gleichzeitig entstehen neue Möglichkeiten für Kreative und Medienunternehmen: Podcasts lassen sich schneller, günstiger und teilweise vollständig automatisiert produzieren.

Doch wie verbreitet sind KI-generierte Podcasts wirklich und welche Folgen hat das für das Vertrauen der Zuhörer*innen? Wir haben uns umgeschaut, ob die Authentizität der Podcasts wirklich in Gefahr ist.

Warum Podcasts als besonders authentisch gelten

Kaum ein anderes Medium begleitet Menschen so unmittelbar durch den Alltag wie Podcasts. Ob beim Pendeln, Sport oder Einschlafen – die Stimmen der Hosts sind meist direkt über Kopfhörer zu hören und erzeugen dadurch eine besondere Nähe. Zuhörerinnen und Zuhörer erleben Gespräche oft so, als würden sie persönlich daran teilnehmen. Die Stimme ist nicht nur eine Informationsquelle, sondern zugleich auch der emotionale Anker.

Dabei setzen Podcasts bewusst auf eine lockere und ungefilterte Atmosphäre. Sie sind auf der einen Seite eine Weiterentwicklung des Radios, erinnern aber zugleich oft an private Unterhaltungen. Hosts erzählen persönliche Geschichten, reagieren spontan aufeinander oder schweifen von vorbereiteten Themen ab. Gerade diese ungeplanten Momente vermitteln Echtheit und schaffen Vertrauen.

Durch die regelmäßige Präsenz der Stimmen entsteht dabei eine sogenannte parasoziale Beziehung. Dabei entwickeln Hörerinnen und Hörer das Gefühl, die Podcast-Hosts persönlich zu kennen, obwohl die Beziehung nur einseitig besteht. Besonders erfolgreiche Podcasts leben von dieser emotionalen Bindung zwischen Publikum und Moderation.

Podcasts setzen zudem oft auf bewusste Unvollkommenheit. Kleine Versprecher, Lachen, Pausen oder spontane Reaktionen wirken glaubwürdig, weil sie nicht perfekt inszeniert erscheinen. Genau diese Ecken und Kanten unterscheiden Podcasts häufig von stark bearbeiteten Medienproduktionen.

Auch die Persönlichkeit der Hosts spielt eine zentrale Rolle. Viele Formate werden nicht ausschließlich wegen ihrer Themen gehört, sondern wegen der Menschen, die sie präsentieren. Humor, persönlichen Haltung oder kleine Macken zahlen auf dieses Gefühl der Authentizität ein. Solange Hörerinnen und Hörer das Gefühl haben, einer realen Person zuzuhören, entsteht Vertrauen. Genau dieses Vertrauen wird durch KI-generierte Stimmen und Inhalte zunehmend herausgefordert.

Der aktuelle Stand: Wie KI Podcasts heute produziert

Künstliche Intelligenz verändert die Produktion von Podcasts bereits heute deutlich. Viele Arbeitsschritte, die früher viel Zeit und technische Kenntnisse erforderten, können inzwischen automatisiert werden. KI unterstützt beispielsweise während der Themenrecherche, erstellt Skripte oder formuliert Titel und Folgenbeschreibungen.

Auch in der Nachbearbeitung kommt die Technologie verstärkt zum Einsatz: Programme entfernen Hintergrundgeräusche, verbessern die Tonqualität oder erstellen automatische Transkriptionen. Dadurch wird die Podcast-Produktion schneller und kostengünstiger. Viele Podcaster nutzen diese Tools allerdings mehr als Unterstützung. Beim German Creative Economy Summit gaben Creator etwa an, KI zwar in einigen Schritten zu nutzen, das endgültige Skript dann aber doch die eigenen Worte sind.

Die potentielle Bedrohung für die Authentizität sind vor allem vollständig durch KI generierte Podcasts. Dabei werden sowohl die Inhalte als auch die Stimmen künstlich erzeugt. Moderne Sprachmodelle können Moderationen oder Dialoge schreiben, die anschließend von Text-to-Speech-Systemen vertont werden. Besonders fortschrittlich ist dabei das sogenannte Voice Cloning. Mithilfe weniger Sprachaufnahmen kann eine KI Stimmen realer Menschen imitieren und neue Aussagen erzeugen, die täuschend echt klingen.

Die technologische Entwicklung schreitet dabei sehr schnell voran. Moderne Systeme sind inzwischen in der Lage, Emotionen, Betonungen und natürliche Gesprächsdynamiken überzeugend nachzuahmen. Für viele Hörerinnen und Hörer wird es dadurch zunehmend schwieriger, künstliche und menschliche Stimmen voneinander zu unterscheiden.

Die Folgen sind nicht nur eine mögliche Ablehnung des KI-Contents, sondern auch eine Hinterfragung, was überhaupt echt ist. Gerade zu sauber produzierte Podcasts laufen dabei Gefahr, dass sich Hörer dann doch fragen, ob sie da gerade einer echten Person zuhören oder einer künstlich produzierten Stimme. Dass KI zugleich auch lernt, Ecken und Kanten zu generieren, erschwert die Unterscheidung zusätzlich.

Beispiele für KI-Podcasts

Bislang hält sich der KI-Einsatz zumindest in der Moderation noch stark in Grenzen. Hier scheint das Medium ähnlich robust zu sein, wie gegenüber Feed-Trends sozialer Medien. Die Podcast-Bubble scheint noch weitgehend darauf bedacht, ihre Authentizität zu pflegen. Tatsächlich ist es sogar ziemlich schwierig, Podcasts zu finden, die auf KI-generierte Stimmen setzen.

Ein paar Beispiele für Podcasts, die bereits mit KI-Stimmen arbeiten gibt es allerdings schon.

Virtually Parkinson

„Virtually Parkinson“ ist ein experimenteller KI-generierter Podcast aus Großbritannien. Für das Projekt wurde die Stimme des verstorbenen Talkshow-Moderators Michael Parkinson mithilfe künstlicher Intelligenz rekonstruiert. Die KI analysierte frühere Interviews, Sprachmuster und den typischen Gesprächsstil des Moderators, um eine digitale Version seiner Persönlichkeit zu erschaffen. In den Podcastfolgen führt die künstliche Stimme Interviews mit Gästen und simuliert dabei klassische Talkshow-Gespräche.

Das Projekt gilt als eines der bekanntesten Beispiele dafür, wie KI eingesetzt werden kann, um verstorbene Medienpersönlichkeiten digital weiterleben zu lassen. Gleichzeitig löste der Podcast Diskussionen über Ethik, Authentizität und den Umgang mit synthetischen Stimmen aus. Allerdings war Parkinsons Sohn in die Produktion involviert, um die Authentizität zu gewährleisten. Vater und Sohn hatten offenbar noch zu Lebzeiten über einen möglichen gemeinsamen Podcast gesprochen.

Klicken Sie auf den unteren Button, um den Inhalt von open.spotify.com zu laden.

Inhalt laden

KI-Cast

„Der KI Cast“ ist ein experimenteller, deutschsprachiger Podcast, der weitgehend alles per KI erzeugt. Sowohl die Moderation als auch große Teile der Inhalte und Sprachsynthese werden von KI-Systemen erstellt. Thematisch beschäftigt sich der Podcast mit Entwicklungen rund um künstliche Intelligenz, digitale Technologien und deren Auswirkungen auf Gesellschaft und Alltag.

Das Besondere an dem Format ist, dass die künstlich erzeugten Stimmen bewusst als Teil des Konzepts eingesetzt werden. Dadurch dient der Podcast nicht nur als Informationsformat, sondern gleichzeitig auch als praktisches Beispiel dafür, wie KI bereits heute in der Audioproduktion eingesetzt werden kann. Unsere Beispielfolge zeigt aber, dass die KI sich noch etwas schwer damit tut, eine wirklich authentische Gesprächsdynamik zu erzeugen. Einzelne Sätze wirken aber schon erstaunlich gut.

Klicken Sie auf den unteren Button, um den Inhalt von open.spotify.com zu laden.

Inhalt laden

Kreative Möglichkeiten für KI-Stimmen im Podcast

Trotz der Kritik bietet künstliche Intelligenz im Podcastbereich auch zahlreiche Chancen. Viele Expertinnen und Experten sehen KI deshalb nicht nur als Risiko für die Authentizität, sondern auch als Werkzeug, das neue kreative und technische Möglichkeiten eröffnet.

Virtually Parkinson nannten wir in den Beispielen etwa als einen Podcast, der die Stimme einer verstorbenen (Podcast-)Persönlichkeit wiedererweckt. Ähnlich wie die alternative KI-Tonspur der neuen Pumuckl-Folgen, lassen sich so verstorbene Stimmen in Erinnerung halten.

Weiter gesponnen, lassen sich so auch schon länger verstorbene Persönlichkeiten wiederbeleben, falls es etwa noch alte Tonaufnahmen gibt. Bei historischen Persönlichkeiten vor der Medien-Ära nimmt die Persönlichkeit selbst eine größere Rolle ein. Durch Information über die Person und die Umstände der damaligen Zeit, kreiert die KI dann eine Persönlichkeit, die dieser darstellt. Das ermöglicht beispielsweise Interviews mit dieser Person. Im Optimalfall arbeiten auch Geschichtsexperten im Hintergrund mit, um zu verhindern, dass die KI Falschinformationen halluziniert.

Die Fiktion bietet aber ebenso Anwendungspotential. Sony hat beispielsweise ein Patent für KI-generierte, personalisierte Podcasts erhalten. Dieses soll Stimmen aus Video-Spiele nutzen um personalisierte Podcasts für den jeweiligen Spieler zu erstellen. Hier kann man natürlich damit argumentieren, dass sich Sony dafür auch die Originalsprecher sichern könnte – allerdings soll der Podcast auf die Spielgewohnheiten des einzelnen Nutzers erstellt werden. Das könnte ein weiterer Stolperstein sein, da Hörer normalerweise wegen dem Podcast-Konzept oder den Hosts hören.

Da ist es eventuell cleverer KI-Stimmen nur stellenweise einzusetzen. Fallen in der Bearbeitung des Podcasts besonders schlechte Stellen oder sogar eine Falschinformation auf, lässt sich diese womöglich per KI richtigstellen. Das ist besonders praktisch, wenn die Teilnehmer sich wegen Terminkonflikte nicht so einfach zusammensetzen können. Nachträglich eingesprochene Änderungen lassen sich mittels KI aber auch natürlicher in den Originalpodcast einfügen. Alle beteiligten müssen aber mit dem KI-Einsatz einverstanden sein.

Fun Fact: Der Talk-O-Mat ist kein KI-Podcast

Im Podcast Talk-O-Mat von Bosepark Productions führen immer zwei Promis ein Gespräch, die zuvor nicht wissen, wer ihr Gesprächspartner ist. Die Fragen des Podcasts liefert der namensgebende Talk-O-Mat. Dieser ist laut eigener Beschreibung eine „emotionslose, Zufalls-gesteuerte Maschine“. Amüsanterweise ist aber ausgerechnet der Talk-O-Mat KEIN KI-Produkt.

Der Podcast startete 2017, also noch einige Jahre bevor die LLMs ins Licht der Öffentlichkeit rückten. Sprachassistenten wie Alexa oder Siri waren zwar schon üblich aber doch vergleichsweise eingeschränkt. Radio- und Podcast-Moderatorin Claudia Kamieth, verleiht der emotionslosen Stimme ihre Persönlichkeit.

Ob man diesen Podcast heute mit tatsächlicher KI gedacht hätte, steht auf einem anderen Blatt. Irgendwie ist es aber beruhigend, dass es auch einen Podcast gibt, bei dem die angebliche KI-Stimme eigentlich professionell eingesprochen ist.  


Image via ChatGPT (KI-generiert)

Das Internet ist sein Zuhause, die Gaming-Welt sein Wohnzimmer. Der Multifunktions-Nerd machte eine Ausbildung zum Programmierer, schreibt nun aber lieber Artikel als Code.


Artikel per E-Mail verschicken