Künstliche Intelligenz kann die Stimmen von Personen imitieren. Betrüger nutzen das am Telefon bereits aus. Forschende der Ruhr-Universität Bochum haben jetzt herausgefunden, wie sich die als Deepfakes oder auch Deep Voice bezeichneten künstlich erzeugten Audiodaten von echten unterscheiden. Die neuen Erkenntnisse sollen künftig helfen, gefälschte Sprache zu erkennen.
Um den kleinen, aber feinen Unterschied zwischen echten und gefälschten Stimmen zu erkennen, mussten Joel Frank und Lea Schönherr vom Horst-Görtz-Institut für IT-Sicherheit jedoch zunächst einen umfangreichen Datensatz mit rund 118.000 künstlich erzeugten Sprachdateien erzeugen. Solch einen Datensatz für Audio-Deepfakes, insgesamt 196 Stunden Material auf Englisch und Japanisch, habe es zuvor nicht gegeben, wird Schönherr in einer Mitteilung der Uni zitiert. „Um die Methoden zur Erkennung von gefälschten Audiodateien zu verbessern, braucht man aber dieses Material.“
Damit der Datensatz möglichst breit aufgestellt ist, nutzte das Team sechs verschiedene Künstliche-Intelligenz-Algorithmen beim Erzeugen der Audioschnipsel. Anschließend verglichen die Forschenden die künstlichen Audiodateien mit Aufnahmen echter Sprache. Sie stellten die Dateien dafür in Form von Spektrogrammen dar, die die Frequenzverteilung über die Zeit hinweg zeigen. Der Vergleich ergab feine Unterschiede im Bereich der hohen Frequenzen zwischen echten und gefälschten Dateien.
Basierend auf ihren Erkenntnissen entwickelten Frank und Schönherr anschließend Algorithmen, die zwischen Deepfakes und echter Sprache unterscheiden können. Sie sollen anderen Forschern nun als Startpunkt dienen, um neue Erkennungsmethoden zu entwickeln.
Kommentare
Da dieser Artikel älter als 18 Monate ist, ist zum jetzigen Zeitpunkt kein Kommentieren mehr möglich.
Wir laden Sie ein, bei einer aktuelleren themenrelevanten Story mitzudiskutieren: Themenübersicht.
Bei Fragen können Sie sich gern an das Community-Team per Mail an forum@krone.at wenden.