Was sind Deepfakes? KI, die täuscht

Deepfakes sind Medien - oft Video, aber manchmal Audio -, die mit Hilfe von Deep Learning erstellt, verändert oder synthetisiert wurden, um einige Zuschauer oder Hörer zu täuschen, ein falsches Ereignis oder eine falsche Nachricht zu glauben.

Das ursprüngliche Beispiel eines Deepfake (von reddit user / u / deepfake) hat das Gesicht einer Schauspielerin in einem Video auf den Körper eines Pornodarstellers getauscht - was natürlich völlig unethisch war, obwohl es anfangs nicht illegal war. Andere Deepfakes haben das, was berühmte Leute sagten, oder die Sprache, die sie sprachen, verändert.

Deepfakes erweitern die seit Jahrzehnten bestehende Idee des Video- (oder Film-) Compositing. Bedeutende Videofähigkeiten, Zeit und Ausrüstung fließen in das Video-Compositing ein. Video-Deepfakes erfordern viel weniger Geschick, Zeit (vorausgesetzt, Sie haben GPUs) und Ausrüstung, obwohl sie für aufmerksame Beobachter oft nicht überzeugend sind.

Wie man Deepfakes erstellt

Ursprünglich stützten sich Deepfakes auf Autoencoder, eine Art unbeaufsichtigtes neuronales Netzwerk, und viele tun dies immer noch. Einige Leute haben diese Technik mithilfe von GANs (generative kontradiktorische Netzwerke) verfeinert. Andere Methoden des maschinellen Lernens wurden auch für Deepfakes verwendet, manchmal in Kombination mit Methoden des nicht-maschinellen Lernens, mit unterschiedlichen Ergebnissen.

Autoencoder

Autoencoder für tiefe Gesichter in Bildern werden im Wesentlichen in zwei Schritten ausgeführt. Schritt eins besteht darin, ein neuronales Netzwerk zu verwenden, um ein Gesicht aus einem Quellbild zu extrahieren und dieses in eine Reihe von Merkmalen und möglicherweise eine Maske zu codieren, typischerweise unter Verwendung mehrerer 2D-Faltungsschichten, einiger dichter Schichten und einer Softmax-Schicht. Schritt zwei besteht darin, ein anderes neuronales Netzwerk zu verwenden, um die Merkmale zu decodieren, das erzeugte Gesicht zu skalieren, das Gesicht nach Bedarf zu drehen und zu skalieren und das hochskalierte Gesicht auf ein anderes Bild anzuwenden.

Das Training eines Autoencoders für die Erzeugung von Deepfake-Gesichtern erfordert viele Bilder der Quell- und Zielgesichter aus verschiedenen Blickwinkeln und bei unterschiedlichen Lichtverhältnissen. Ohne GPU kann das Training Wochen dauern. Mit GPUs geht es viel schneller.

GANs

Generative gegnerische Netzwerke können die Ergebnisse von Autoencodern verfeinern, indem beispielsweise zwei neuronale Netzwerke gegeneinander ausgespielt werden. Das generative Netzwerk versucht, Beispiele zu erstellen, die dieselben Statistiken wie das Original haben, während das diskriminative Netzwerk versucht, Abweichungen von der ursprünglichen Datenverteilung zu erkennen.

Das Training von GANs ist eine zeitaufwändige iterative Technik, die die Kosten für die Rechenzeit gegenüber Autoencodern erheblich erhöht. Derzeit eignen sich GANs besser zum Generieren realistischer Einzelbilder von imaginären Personen (z. B. StyleGAN) als zum Erstellen von Deepfake-Videos. Dies könnte sich ändern, wenn Deep-Learning-Hardware schneller wird.

Wie man Deepfakes erkennt

Anfang 2020 bauten ein Konsortium aus AWS, Facebook, Microsoft, dem Lenkungsausschuss für Partnerschaft mit Medienintegrität von AI und Wissenschaftlern die Deepfake Detection Challenge (DFDC) auf, die vier Monate lang auf Kaggle lief.

Der Wettbewerb umfasste zwei gut dokumentierte Prototyplösungen: eine Einführung und ein Starter-Kit. Die Siegerlösung von Selim Seferbekov hat auch eine ziemlich gute Zusammenfassung.

Die Details der Lösungen werden Ihre Augen kreuzen, wenn Sie sich nicht für tiefe neuronale Netze und Bildverarbeitung interessieren. Im Wesentlichen führte die Gewinnerlösung eine Frame-für-Frame-Gesichtserkennung durch und extrahierte SSIM-Indexmasken (Structural Similarity). Die Software extrahierte die erkannten Gesichter plus eine 30-prozentige Marge und verwendete EfficientNet B7, das in ImageNet vorab trainiert wurde, für die Codierung (Klassifizierung). Die Lösung ist jetzt Open Source.

Leider konnte selbst die Gewinnerlösung nur etwa zwei Drittel der Deepfakes in der DFDC-Testdatenbank erfassen.

Deepfake-Erstellungs- und Erkennungsanwendungen

Eine der besten Open-Source-Anwendungen zur Erstellung von Deepfake-Videos ist derzeit Faceswap, das auf dem ursprünglichen Deepfake-Algorithmus aufbaut. Der Ars Technica-Autor Tim Lee brauchte zwei Wochen, um mit Faceswap eine Deepfake zu erstellen, die das Gesicht von Lieutenant Commander Data (Brent Spiner) aus  Star Trek: The Next Generation in ein Video von Mark Zuckerberg verwandelte, der vor dem Kongress aussagte. Wie es für Deepfakes typisch ist, besteht das Ergebnis den Sniff-Test für niemanden mit bedeutender Grafikkompetenz. Der Stand der Technik für Deepfakes ist also immer noch nicht sehr gut, mit seltenen Ausnahmen, die mehr von den Fähigkeiten des „Künstlers“ als von der Technologie abhängen.

Das ist etwas beruhigend, da die erfolgreiche DFDC-Erkennungslösung auch nicht sehr gut ist. In der Zwischenzeit hat Microsoft Microsoft Video Authenticator angekündigt, aber zum jetzigen Zeitpunkt noch nicht veröffentlicht. Laut Microsoft kann Video Authenticator ein Standbild oder Video analysieren, um eine prozentuale Wahrscheinlichkeit oder einen Vertrauenswert für die künstliche Manipulation des Mediums bereitzustellen.

Video Authenticator wurde anhand des DFDC-Datensatzes getestet. Microsoft hat noch nicht berichtet, wie viel besser es ist als Seferbekovs erfolgreiche Kaggle-Lösung. Es wäre typisch für einen Sponsor eines KI-Wettbewerbs, auf den Gewinnerlösungen des Wettbewerbs aufzubauen und diese zu verbessern.

Facebook verspricht ebenfalls einen Deepfake-Detektor, plant jedoch, den Quellcode geschlossen zu halten. Ein Problem bei Open-Sourcing-Deepfake-Detektoren wie Seferbekovs besteht darin, dass Entwickler von Deepfake-Generierungen den Detektor als Diskriminator in einem GAN verwenden können, um sicherzustellen, dass die Fälschung diesen Detektor passiert, was schließlich zu einem KI-Wettrüsten zwischen Deepfake-Generatoren und Deepfake-Detektoren führt.

Im Audiobereich können Descript Overdub und Adobe demonstriertes, aber noch nicht veröffentlichtes VoCo Text-to-Speech nahezu realistisch machen. Sie trainieren Overdub etwa 10 Minuten lang, um eine synthetische Version Ihrer eigenen Stimme zu erstellen. Nach dem Training können Sie Ihre Voiceover als Text bearbeiten.

Eine verwandte Technologie ist Google WaveNet. Mit WaveNet synthetisierte Stimmen sind realistischer als Standard-Text-zu-Sprache-Stimmen, obwohl sie laut Googles eigenen Tests nicht ganz auf dem Niveau natürlicher Stimmen liegen. Sie haben WaveNet-Stimmen gehört, wenn Sie kürzlich die Sprachausgabe von Google Assistant, Google Search oder Google Translate verwendet haben.

Deepfakes und nicht einvernehmliche Pornografie

Wie ich bereits erwähnt habe, hat die ursprüngliche Deepfake das Gesicht einer Schauspielerin in einem Video auf den Körper eines Pornodarstellers getauscht. Reddit hat seitdem das Sub-Reddit / r / deepfake verboten, in dem diese und andere pornografische Deepfakes gehostet wurden, da der größte Teil des Inhalts nicht einvernehmliche Pornografie war, die zumindest in einigen Ländern jetzt illegal ist.

Ein weiteres Sub-Reddit für nicht- pornografische Deepfakes existiert noch bei / r / SFWdeepfakes. Während die Bewohner dieses Sub-Reddit behaupten, sie leisten gute Arbeit, müssen Sie selbst beurteilen, ob beispielsweise Joe Bidens Gesicht, das stark in Rod Serlings Körper gefälscht ist, irgendeinen Wert hat - und ob eine der dortigen Deepfakes vorübergeht der Schnüffeltest auf Glaubwürdigkeit. Meiner Meinung nach verkaufen sich einige fast als echt; Die meisten können gemeinnützig als roh bezeichnet werden.

Das Verbot von / r / deepfake beseitigt natürlich nicht nicht einvernehmliche Pornografie, die mehrere Gründe haben kann, einschließlich Rachepornografie, die selbst in den USA ein Verbrechen ist. Andere Websites, die nicht einvernehmliche Deepfakes verboten haben, sind Gfycat, Twitter, Discord, Google und Pornhub und schließlich (nach langem Hin und Her) Facebook und Instagram.

In Kalifornien haben Personen, die von sexuell expliziten, gefälschten Inhalten betroffen sind, die ohne ihre Zustimmung erstellt wurden, einen Klagegrund gegen den Ersteller des Inhalts. Auch in Kalifornien ist die Verbreitung böswilliger, gefälschter Audio- oder Videomedien gegen einen Kandidaten, der innerhalb von 60 Tagen nach seiner Wahl für ein öffentliches Amt kandidiert, verboten. China verlangt, dass Deepfakes eindeutig als solche gekennzeichnet werden.

Deepfakes in der Politik

In vielen anderen Gerichtsbarkeiten fehlen Gesetze gegen politische Fälschungen. Das kann beunruhigend sein, insbesondere wenn hochqualitative Deepfakes von politischen Persönlichkeiten weit verbreitet sind. Wäre eine Fälschung von Nancy Pelosi schlimmer als das konventionell verlangsamte Video von Pelosi, das so manipuliert wurde, dass es so klingt, als würde sie ihre Worte verwischen? Es könnte sein, wenn es gut produziert wird. Sehen Sie sich zum Beispiel dieses Video von CNN an, das sich auf Deepfakes konzentriert, die für die Präsidentschaftskampagne 2020 relevant sind.

Deepfakes als Ausreden

"Es ist eine tiefe Fälschung" ist auch eine mögliche Entschuldigung für Politiker, deren echte, peinliche Videos durchgesickert sind. Dies geschah kürzlich (oder angeblich) in Malaysia, als ein schwules Sexvideo vom Wirtschaftsminister als Deepfake abgetan wurde, obwohl der andere Mann auf dem Band schwor, es sei echt.

Auf der anderen Seite war die Verteilung einer wahrscheinlichen Amateur-Fälschung des angeschlagenen Präsidenten Ali Bongo aus Gabun ein Faktor für einen anschließenden Militärputsch gegen Bongo. Das Deepfake-Video wies das Militär darauf hin, dass etwas nicht stimmte, sogar mehr als Bongos längere Abwesenheit von den Medien.

Weitere gefälschte Beispiele

Ein kürzlich veröffentlichtes Deepfake-Video von All Star , dem Smash Mouth-Klassiker von 1999, ist ein Beispiel für die Manipulation von Videos (in diesem Fall eines Mashups aus populären Filmen) zur Fälschung der Lippensynchronisation. Der Schöpfer, YouTube-Nutzer ontyj, bemerkt, dass er "das Testen von wav2lip mitgerissen hat und jetzt existiert es ..." Es ist amüsant, wenn auch nicht überzeugend. Trotzdem zeigt es, wie viel besser gefälschte Lippenbewegungen geworden sind. Vor ein paar Jahren war eine unnatürliche Lippenbewegung normalerweise ein totes Werbegeschenk für ein gefälschtes Video.

Es könnte schlimmer sein. Schauen Sie sich dieses gefälschte Video von Präsident Obama als Ziel und Jordan Peele als Fahrer an. Stellen Sie sich nun vor, dass es keinen Kontext enthielt, der es als Fälschung enthüllte, und einen Brandaufruf zum Handeln.

Hast du schon Angst?

Lesen Sie mehr über maschinelles Lernen und tiefes Lernen:

  • Deep Learning vs. Machine Learning: Verstehen Sie die Unterschiede
  • Was ist maschinelles Lernen? Aus Daten abgeleitete Intelligenz
  • Was ist tiefes Lernen? Algorithmen, die das menschliche Gehirn nachahmen
  • Algorithmen für maschinelles Lernen erklärt
  • Automatisiertes maschinelles Lernen oder AutoML erklärt
  • Betreutes Lernen erklärt
  • Halbüberwachtes Lernen erklärt
  • Unbeaufsichtigtes Lernen erklärt
  • Verstärkungslernen erklärt
  • Was ist Computer Vision? KI für Bilder und Videos
  • Was ist Gesichtserkennung? KI für Big Brother
  • Was ist die Verarbeitung natürlicher Sprache? KI für Sprache und Text
  • Kaggle: Wo Datenwissenschaftler lernen und konkurrieren
  • Was ist CUDA? Parallelverarbeitung für GPUs