Deepfake

Aus IT-Forensik Wiki

Deepfake

Als Deepfakes werden realistisch wirkende Medieninhalte (bspw. Foto,Audio, Video) bezeichnet, die mit Hilfe von neuronalen Netzen (Teilgebiet der künstlichen Intelligenz) verfälscht worden sind. Dazu nutzen Deepfakes Methoden des maschinellen Lernens, um Fälschungen weitgehend autonom zu erzeugen.

Fälschung von Gesichtern

Zur Manipulation von Gesichtern in Videos wurden in den letzten Jahren mehrere KI-basierte Verfahren entwickelt. Diese verfolgen entweder das Ziel Gesichter in einem Video zu tauschen („Face Swapping“), die Mimik/ Kopfbewegungen einer Person in einem Video nach Wunsch zu kontrollieren („Face Reenactment“), oder neue (Pseudo-)Identitäten zu synthetisieren.

Fälschung von Stimmen

Für die Erstellung von manipulierten Stimmen werden hauptsächlich „Text-to-Speech (TTS)“- und „Voice Conversion (VC)“- verwendet.

Fälschung von Texten

Verfahren zur Generierung von Texten, welche auf tiefen neuronalen Netzen basieren, schaffen es durch neue KI-Modelle, große Textdatenbanken und eine hohe Rechenleistung, lange und zusammenhängende Texte zu schreiben. Bei diesen kann auf den ersten Blick nicht unterschieden werden, ob sie von einem Menschen oder von einer Maschine geschrieben wurden. Meist sind nur wenige einleitende Wörter notwendig, aus denen das Modell eine mögliche, plausible Fortsetzung des Texts generiert. Damit können Nachrichten verfasst, Blog-Einträge erzeugt, oder auch Chat-Antworten generiert werden.

Mögliche Bedrohungsszenarien

Mittels der beschriebenen Verfahren ist es heute auch teilweise für technisch versierte Laien möglich, mediale Identitäten zu manipulieren, wodurch sich zahlreiche Bedrohungsszenarien ergeben: Überwindung biometrischer Systeme: Da es mittels Deepfake-Verfahren möglich ist, mediale Inhalte mit den Charakteristika einer Zielperson zu erstellen und diese Verfahren teilweise bereits in Echtzeit lauffähig sind, stellen sie eine hohe Gefahr für biometrische Systeme dar. Insbesondere bei Fernidentifikationsverfahren (z.B. der Sprechererkennung über das Telefon oder der Videoidentifikation) scheinen solche Angriffe erfolgversprechend, da ein potentieller Verteidiger lediglich das Ausgangssignal erhält. Jedoch hat er keine Kontrolle über die Aufnahmesensorik oder die am aufgenommenen Material durchgeführten Änderungen. Social Engineering: Deepfake-Verfahren können außerdem dazu verwendet werden, gezielte Phishing-Angriffe („Spear-Phishing“) durchzuführen, um Informationen und Daten zu gewinnen. Auch kann ein Angreifer diese Technologie zur Durchführung von Betrug und zur Abschöpfung finanzieller Mittel nutzen. Beispielsweise könnte er eine Person mit der Stimme von deren Führungskraft anrufen, um eine Geldtransaktion auszulösen („CEO-Fraud“). Desinformationskampagnen: Mittels Deepfake-Verfahren ist es potentiell möglich, glaubwürdige Desinformationskampagnen durchzuführen, indem manipulierte Medieninhalte von Schlüsselpersonen erzeugt und verbreitet werden. Verleumdung: Durch die Möglichkeit Medieninhalte zu generieren, die Personen beliebige Aussagen treffen lassen und sie in beliebigen Situationen darstellen, kann der Ruf einer Person durch die Verbreitung von Unwahrheiten nachhaltig geschädigt werden.

Detektion

Gegenmaßnahmen aus dem Bereich der Detektion zielen darauf ab, mittels Deepfake-Verfahren manipulierte Daten als solche zu erkennen.

Medienforensisch

Mittels Methoden aus der Medienforensik ist es möglich, Artefakte zu detektieren, welche bei der Verwendung von Manipulationsmethoden auftreten. Hiermit ist es für Expertinnen und Experten möglich, Fälschungen nachvollziehbar zu erkennen.

Automatisierte Detektion

In der Forschungsliteratur wurden in den letzten Jahren zahlreiche Methoden zur automatisierten Detektion von manipulierten Daten veröffentlicht. Diese Verfahren basieren in der Regel auf Techniken aus dem Gebiet der künstlichen Intelligenz, insbesondere den tiefen neuronalen Netzen. Aufgrund dessen müssen diese Verfahren anhand großer Datenmengen trainiert werden. Nach der Trainingsphase kann das Modell dazu verwendet werden, für ein Datenbeispiel (zum Beispiel ein Video) zu klassifizieren, ob dieses manipuliert wurde oder nicht.

Sichtbare Übergänge

Bei einem Face-Swapping-Verfahren wird ein Gesicht der Zielperson in den Kopf einer anderen Person eingesetzt. Dadurch kann es zu sichtbaren Artefakten an der Naht rund um das Gesichts kommen. Ebenso ist es möglich, dass die Hautfarbe und -textur an diesem Übergang wechselt oder dass sich teilweise das Ursprungsgesicht in manchen Frames am Gesichtsrand durch doppelte Augenbrauen bemerkbar macht.

Scharfe Konturen verwaschen

Häufig kommt es noch vor, dass Face-Swapping-Verfahren nicht richtig lernen, scharfe Konturen, wie sie in den Zähnen oder im Auge vorkommen, zu erzeugen. Bei genauem Hinsehen wirken diese auffällig verwaschen. Begrenzte Mimik, unstimmige Belichtung: Auf Grund einer beschränkten Datenlage kann es dazu kommen, dass ein Modell nur beschränkt fähig ist manche Gesichtsausdrücke oder Beleuchtungssituationen korrekt darzustellen. Häufig ist die Profilansicht eines Gesichts unzureichend erlernt, sodass ein starkes Drehen des Kopfes zu Bildfehlern führen kann, bei welchen zum Beispiel das Gesicht verwaschener wird.

Metallischer Sound

Zahlreiche Verfahren, erzeugen ein Audio-Signal, das vom menschlichen Gehör als „metallisch“ wahrgenommen wird.

Falsche Aussprache

Häufig können TTS-Verfahren nicht alle Wörter korrekt aussprechen. Dies kann beispielsweise passieren, wenn ein TTS-Verfahren für die deutsche Sprache trainiert wurde, aber ein englisches Wort ausgesprochen werden soll. Monotone Sprachausgabe: Insbesondere wenn die Trainingsdaten für ein TTS-System nicht ideal sind, kann das erzeugte Audio-Signal sehr monoton hinsichtlich der Betonung der Wörter sein.

Falsche Sprechweise

Meist sind Fälschungsverfahren vergleichsweise gut dafür geeignet, die Klangfarbe einer Stimme zu fälschen, haben jedoch häufig Probleme damit, die spezifischen Charakteristika der Stimme zu fälschen, sodass beispielsweise Akzente oder Betonungen von Wörtern nicht denen des Zielsprechers/ der Zielsprecherin entsprechen.

Unnatürliche Geräusche

Sofern ein Fälschungsverfahren Eingangsdaten erhält, die stark von den beim Training verwendeten abweichen, kann das Verfahren unnatürliche Geräusche erzeugen. Dies kann beispielsweise ein zu langer Text bei einem Text-to-Speech-Verfahren oder Stille bei einem Voice-Conversion-Verfahren sein.

Hohe Verzögerung

Die meisten Verfahren zur Erzeugung von synthetischen Stimmen müssen zunächst einen Teil des zu erzeugenden semantischen Inhalts als Eingangsdaten empfangen, um ein qualitativ hochwertiges Ergebnis zu erzeugen. Dies führt dazu, dass qualitativ hochwertige Fälschungen in vielen Fällen mit einer gewissen zeitlichen Verzögerung einhergehen, da dieser semantische Inhalt zunächst ausgesprochen und erfasst werden muss, bevor er von einem VC/ TTS Verfahren verarbeitet werden kann.

Um die Fähigkeit, manipulierte Audio-Daten zu erkennen, zu trainieren, kann beispielsweise die von Fraunhofer AISEC entwickelte Anwendung verwendet werden.

Quellen:

  1. https://www.bsi.bund.de/DE/Themen/Unternehmen-und-Organisationen/Informationen-und-Empfehlungen/Kuenstliche-Intelligenz/Deepfakes/deepfakes_node.html
  2. https://doi.org/10.1016/j.fsisyn.2022.100217
  3. https://www.aisec.fraunhofer.de/de/das-institut/wissenschaftliche-exzellenz/Deepfakes.html