Können wir unseren Ohren noch trauen?

Inhalt ausklappen

Audio-Deepfakes: Künstliche Stimmen durch KI

Sie ist einfach da und wir nutzen sie, ohne nachzudenken: die menschliche Stimme. Doch was, wenn sich Stimmen zwar menschlich anhören, jedoch nicht menschlich sind? Künstliche Intelligenz (KI) ist inzwischen zu Erstaunlichem im Stande: Spracherkennung, Stimmausgabe und auch sogenannte Audio-Deepfakes, die unsere Ohren täuschen können.

Wie erzeugt KI künstliche Stimmen?

Das Verfahren, bei dem aus Sprachbeispielen eine beliebige Stimme erzeugt wird, nennt sich Speech-to-Speech. Dafür werden die Stimmproben in ein neuronales Netzwerk gegeben. Dieses analysiert die Audiodatei und übersetzt sie in Text. Anschließend gleicht die KI beides Stück für Stück ab. Davon ausgehend lernt sie Sequenzen und welcher Laut auf welchen folgt. Am Ende klingt das Ergebnis idealerweise möglichst ähnlich wie das Original. Eine Alternative ist das Text-to-Speech-Verfahren. Dabei wird die Künstliche Intelligenz mit einem Text „gefüttert“, der anschließend auf Basis vieler Sprachbeispiele in eine menschlich klingende Sprache übersetzt wird. Ein Beispiel dafür sind Screen Reader für Menschen mit eingeschränktem Sehen, Service am Telefon oder auch die Stimmen in Navigationssystemen.

Ein US-amerikanischer Podcaster führt ein knapp 20-minütiges Gespräch mit dem Apple-Mitgründer Steve Jobs. Nichts Ungewöhnliches, könnte man meinen. Doch aufgezeichnet wurde es Ende 2022 – also rund elf Jahre nach dem Tod von Steve Jobs. Wie kann das sein? Es handelt sich um einen sogenannten Audio-Deepfake: ein täuschend echtes Gespräch, das mit der Hilfe von Künstlicher Intelligenz entstanden ist. Der Name setzt sich zusammen aus „Deep“, weil es mithilfe von Deep Learning entstanden ist, und „Fake“, weil es nicht echt ist.

Im Fall dieses Gesprächs hat KI auf Befehl hin nicht nur das Skript geschrieben, sondern auch die menschlichen Stimmen der beiden Männer imitiert. Die Gesprächsthemen stammen aus Online-Material, das die KI durchsucht hat. Spannender als der Inhalt ist jedoch die künstliche Stimme: KI kann menschliche Stimmen inzwischen so gut nachahmen, dass unsere Ohren sie kaum mehr von der echten Version unterscheiden können. Schon lange kann man per Deepfakes die Gesichter von Menschen in Videos montieren. Beim Versuch Stimmen zu kopieren tat man sich bisher schwerer – doch der Durchbruch scheint geschafft.

Künstliche Stimmen gehen ins Ohr

Um die Stimme des Podcasters zu erschaffen, konnte die Künstliche Intelligenz aus dem Vollen schöpfen und auf unzählige Stunden Podcasts als Anhörungsmaterial zurückgreifen. Die Klang-Beispiele von Steve Jobs hingegen stammen aus wenigen Präsentationen und Interviews. Trotzdem klingt die künstliche Stimme für unser Gehör fast wie die menschliche Stimme des Apple-Mitbegründers. Dieses Verfahren, bei dem aus Sprachbeispielen eine beliebige Stimme erzeugt wird, nennt sich Speech-to-Speech. KI analysiert Audiodateien und übersetzt sie in Text. Anschließend gleicht sie beides Stück für Stück ab. Davon ausgehend lernt sie Sequenzen und welcher Laut auf welchen folgt.

Eine Alternative ist das Text-to-Speech-Verfahren. Dabei wird die Künstliche Intelligenz mit einem Text „gefüttert“, der anschließend auf Basis vieler Sprachbeispiele in eine menschlich klingende künstliche Stimme übersetzt wird. Ein Beispiel dafür sind Screen Reader für Menschen mit eingeschränktem Sehen, Service am Telefon oder auch die Stimmen in Navigationssystemen.

Das Ergebnis ist bei beiden Verfahren meist nicht perfekt und hängt entscheidend davon ab, wie viel und welches Audiomaterial man der KI zur Verfügung stellt. Und obwohl einige künstlichen Stimmen der KI unseren menschlichen Stimmen durchaus schon zum Verwechseln ähnlich klingen, ist die Technologie dahinter sehr kompliziert. Ohne die intensive Arbeit von KI-Experten erhalten wir diese erstaunlichen Ergebnisse noch nicht. Künstliche Intelligenz ist also noch weit davon entfernt, eigenständig menschliche Stimmen zu produzieren.

Die Klangfarbe der menschlichen Stimme

Die Stimme ist kein menschliches Organ, denn sie existiert nicht physisch. Erst, wenn wir beim Ausatmen durch Luftströme Töne erzeugen, erklingt sie. Der Ton an den Stimmlippen gleicht zunächst eher einem undefinierten Geräusch. Damit er für das menschliche Ohr hörbar wird, muss er in den Resonanzräumen unseres Kopfes verstärkt werden. Das sind Mund- und Nasenhöhlen sowie Rachenraum. Ihre individuelle Beschaffenheit macht jede menschliche Stimme einzigartig. Auch die Zahnstellung, Zungengröße und Lippenform beeinflussen die Klangfarbe, das sogenannte Timbre. Besonders deutlich wird dies bei unterschiedlichen Sängern: Auch wenn alle die gleichen Töne singen – der Klang ihrer Stimme ist trotzdem individuell.

Audio-Deepfakes täuschen unsere Ohren

KI-Sprechsysteme sind eine kostengünstige, aber auch mächtige Technologie. Denn es besteht die Gefahr, dass Audio-Deepfakes zur Verbreitung von Desinformation genutzt werden: Denn mithilfe von KI lassen sich jedem von uns kritische oder gar gefährliche Aussagen in den Mund legen oder täuschend echte Foto- oder Video-Deepfakes erschaffen, die andere für wahr halten könnten. Besonders brenzlig wird dies, wenn in den Deepfakes prominente Personen zu hören oder zu sehen sind, etwa ranghohe Politiker. Daher gilt weiterhin: Alles, was uns und unserem Gehör echt erscheint, darf auch hinterfragt werden. Deshalb nehmen sich Forscher dem Problem der Audio-Deepfakes an. Um Audiomaterial zu überprüfen, nutzen sie beispielsweise die Codeanalyse. Dabei wird geprüft, ob unterschiedliche Teile eines Satzes oder einer Rede verschieden bearbeitet, digital oder etwa unterschiedlich stark komprimiert wurden.

Wozu eignen sich künstliche Stimmen oder Audio-Deepfakes?

Doch bei aller Vorsicht: Audio-Deepfakes könnten Menschen helfen, die aufgrund von Behinderungen oder chronischen Erkrankungen ihre Stimme verlieren. Sie könnten ihre eigene Stimme zur Kommunikation erhalten. Auch im Bereich der Bildungsarbeit oder auch Museumspädagogik steckt großes Potenzial in Deepfakes, etwa wenn berühmte Figuren der Geschichte zum Leben erweckt werden. Spannend bleibt, ob die künstlichen Stimmen in Zukunft auch die letzte große Herausforderung überwinden werden: die kleinen Füllwörter, Pausen, das Sprechtempo oder der Sprachfluss, die unsere Stimme ausmachen.

Können Sie Ihren Ohren noch trauen? Dabei geht es nicht nur um das Erkennen künstlicher Stimmen, sondern auch um die Qualität des Gehörs. Gutes Hören ist unerlässlich, um am Alltag und am sozialen Miteinander teilzunehmen. Wenn Sie das Gefühl haben, schlecht zu hören, helfen Ihnen Hörakustiker oder Hals-Nasen-Ohren-Ärzte in Ihrer Nähe weiter. Vereinbaren Sie unbedingt einen Termin für einen Hörtest.

Das könnte Sie auch interessieren

Ohren auf: Berühmte Soundeffekte der Filmgeschichte

Über das Atmen von Darth Vader und andere unverwechselbare Soundeffekte Das Brüllen des T-Rex oder der Tarzanschrei: Manche Soundeffekte aus Film und Fernsehen bleiben im Ohr. Einige sind wenigen Filmreihen vorbehalten, andere zeitlose Klassiker. Vorhang auf für berühmte Soundeffekte der Filmgeschichte! Film ab: Einige Serien, Filme und Filmreihen sind für einen unverwechselbaren Soundeffekt bekannt. Soundeffekte [...]

Reise in die Zukunft – Teil 1

KI-Assistenten, selbstaufladende Akkus, Gesundheits-Check – die Funktionen von Hörgeräten werden durch die Digitalisierung immer vielseitiger. Wagen Sie mit uns einen Blick in die Zukunft der Hörgeräte.

Hörtest

Ein Hörtest ist die ideale Vorsorge und schafft Sicherheit.

Zum Hörtest

Akustikersuche

Ein Hörakustiker berät Sie kompetent und kostenfrei.

Hörakustiker finden

Arztsuche

Finden Sie einen HNO-Arzt in Ihrer Nähe.

Jetzt HNO-Arzt finden