Ich habe keinen Mund und muss Verbrechen begehen

Die Deepfake-Technologie zum Klonen von Stimmen stellt ein neues Risiko für Unternehmen dar und steht für die Weiterentwicklung konvergierender Bedrohungen durch künstliche Intelligenz (KI). In Verbindung mit anderen KI-Technologien – etwa Deepfake-Videotechnologie, textbasierten Large Language Models („LLMs“, z. B. GPT), generativer Kunst und anderen – erhöht sich das Wirkungspotenzial. Die Technologie zum Klonen von Stimmen wird derzeit in freier Wildbahn von Bedrohungsakteuren missbraucht. Es hat sich gezeigt, dass es die sprachbasierte Multi-Faktor-Authentifizierung (MFA) überwinden kann, was die Verbreitung von Fehl- und Desinformationen ermöglicht und die Wirksamkeit von Social Engineering erhöht.

Wie in unserem Bericht „ I, Chatbot“ vom 26. Januar 2023 dargelegt, senken Open-Source- oder „Freemium“-KI-Plattformen die Einstiegshürde für gering qualifizierte und unerfahrene Bedrohungsakteure, die in die Cyberkriminalität einsteigen wollen. Dank der Benutzerfreundlichkeit und der sofort einsatzbereiten Funktionalität dieser Plattformen können Bedrohungsakteure Aufgaben der Cyberkriminalität rationalisieren und automatisieren, für die sie andernfalls möglicherweise nicht gerüstet wären. Eine der beliebtesten Plattformen zum Klonen von Stimmen auf dem Markt ist ElevenLabs (elevenlabs[.]io), eine browserbasierte Text-to-Speech-Software (T2S; TTS), die es Benutzern ermöglicht, gegen eine Premiumgebühr „benutzerdefinierte“ Sprachproben hochzuladen. Technologien zum Klonen von Stimmen, wie sie beispielsweise ElevenLabs bietet, senken die Eintrittsbarrieren für unerfahrene englischsprachige Cyberkriminelle, die sich an Identitätsdiebstahl mit geringem Risiko versuchen, und bieten erfahreneren Akteuren die Möglichkeit, Betrugsversuche mit großer Wirkung zu begehen. Bedrohungsakteure haben begonnen, Sprachklondienste zu monetarisieren, indem sie unter anderem eigene Klontools entwickeln, die auf Telegram zum Kauf angeboten werden, was zur Entstehung von „Voice-Cloning-as-a-Service“ (VCaaS) geführt hat.

Hinweise auf Stimmenklonen in Darknet-Quellen nehmen von Mai 2020 bis Mai 2023 deutlich zu

In sozialen Medien, auf Messaging-Plattformen und im Darknet tauchen Stimmklonproben auf, die häufig die Stimmen von Persönlichkeiten des öffentlichen Lebens enthalten – etwa Prominenten, Politikern und Internet-Persönlichkeiten („Influencern“) – und zielen darauf ab, entweder komödiantische oder bösartige Inhalte zu erstellen. Diese Inhalte, die oft rassistisch, diskriminierend oder gewalttätig sind, ermöglichen die Verbreitung von Falschinformationen, da Benutzer in sozialen Medien manchmal durch die hohe Qualität der Stimmklonproben getäuscht werden.

Um aktuelle und künftige Bedrohungen einzudämmen, müssen sich Unternehmen mit den mit dem Stimmenklonen verbundenen Risiken befassen, während sich diese Technologien noch in den Kinderschuhen befinden. Strategien zur Risikominderung müssen multidisziplinär sein und die Ursachen von Social Engineering, Phishing und Vishing, Desinformation usw. angehen. Die Technologie zum Klonen von Stimmen wird immer noch von Menschen mit bestimmten Absichten eingesetzt – sie führt nicht eigenständig Angriffe aus. Daher ist die Einführung eines Rahmens, der Mitarbeiter, Benutzer und Kunden über die damit verbundenen Gefahren aufklärt, kurzfristig wirksamer als die Bekämpfung des Missbrauchs der Technologie selbst – was ein langfristiges strategisches Ziel sein sollte.

Um die gesamte Analyse mit Endnoten zu lesen, klicken Sie hier, um den Bericht als PDF herunterzuladen.