Was ist echt und was eine Fälschung? In Zeiten maschinellen Lernens und künstlicher Intelligenz fällt die Unterscheidung zunehmend schwieriger - das gilt für Bilder und Videos ebenso wie für die menschliche Sprache. Dem von ehemaligen Google-, IBM- und Microsoft-Mitarbeitern gegründeten kanadischen Start-up Dessa ist es jetzt gelungen, die Stimme des populären Podcasters Joe Rogan mittels Sprachsynthese täuschend echt zu imitieren.
Es ist die laut Angaben von Dessa „realistischste KI-Simulation einer Stimme (…), die wir bisher gehört haben“. Das vom kanadischen Start-up entwickelte System namens „RealTalk“ erzeugt „lebensechte Sprache“ per Texteingabe. Erstes und prominentes Opfer: der populäre Podcaster Joe Rogan, dessen Stimme nun mittels Sprachsynthese täuschend echt imitiert wurde, wie die Website fakejoerogan.com demonstriert. Hier werden das Original und die Fälschung in Form von Hörproben gegenübergestellt - eine Unterscheidung der Stimmen dürfte selbst geübten Ohren schwerfallen.
„Ziemlich beängstigend“
„Das ist ziemlich beängstigend“, findet denn auch Dessa selbst und warnt davor, dass die Technologie in den falschen Händen dazu missbraucht werden könnte, um als vermeintlicher Verwandter per Telefon an persönliche Informationen des Angerufenen zu gelangen, sich Zugang zu Hochsicherheitsbereichen zu verschaffen oder als gefälschtes Audio-Dokument eines Politikers Wahlergebnisse zu manipulieren oder einen sozialen Aufstand zu verursachen.
Aus diesem Grund habe sich das Unternehmen auch entschlossen, vorerst keinerlei Forschungsergebnisse, Modelle oder Datensätze zu veröffentlichen. Es gebe einen großen Unterschied zwischen der Erforschung von KI und deren Umsetzung in die Praxis, betont Dessa in einem Blogeintrag die Wichtigkeit, die Öffentlichkeit auf die Auswirkungen der Technologie aufmerksam zu machen.
Künftig jede Stimme imitierbar
„Im Moment sind technisches Fachwissen, Einfallsreichtum, Rechenleistung und Daten erforderlich, damit Modelle wie ‚RealTalk‘ gut funktionieren“, so Dessa. Nicht jeder könne daher Stimmen einfach imitieren. „Aber in den nächsten Jahren (oder sogar früher) werden wir erleben, wie die Technologie so weit voranschreitet, dass nur wenige Sekunden Audiomaterial benötigt werden, um eine naturgetreue Nachbildung der Stimme eines jeden Menschen auf dem Planeten zu erstellen.“
Technologie birgt auch Vorteile
Es gebe aber auch „wirklich gute Dinge, die aus Sprachsynthesemodellen hervorgehen könnten“, betont Dessa. So könnten dank Sprachsynthese Nutzer künftig auf eine Weise mit Sprachassistenten sprechen, „die sich so natürlich anfühlt wie das Gespräch mit einem Freund“. Darüber hinaus erlaube die App maßgeschneiderte Sprachapplikationen - etwa eine Fitness-Anwendung, in der Arnold Schwarzenegger vor oder während des Trainings mittels personalisierter Ansprachen die Nutzer motiviere.
Kommentare
Da dieser Artikel älter als 18 Monate ist, ist zum jetzigen Zeitpunkt kein Kommentieren mehr möglich.
Wir laden Sie ein, bei einer aktuelleren themenrelevanten Story mitzudiskutieren: Themenübersicht.
Bei Fragen können Sie sich gern an das Community-Team per Mail an forum@krone.at wenden.