Bereits 300 Bilder mit dem Gesicht der auserkorenen Person (bestenfalls aus allen möglichen Perspektiven) sollten allerdings als Trainingsdaten reichen, um ein annehmbares Ergebnis zu erhalten. Im Deepfakes-Code steckt ein neuronales Netz, ein sogenannter Autoencoder: Das Netz wird darauf trainiert, Daten zu komprimieren, um sie dann wieder zu dekomprimieren. Der Autoencoder versucht bei der Dekomprimierung ein Ergebnis zu erreichen, das möglichst nah am Original ist. Um dies zu schaffen, lernt das Netz beim Komprimierungsvorgang entscheidende Daten von unwichtigen zu unterscheiden.
Füttert man den Algorithmus mit Bildern von Hunden, lernt das künstliche neuronale Netz, nur den Hund zu fokussieren und Hintergründe (Noise) zu ignorieren. Aus den Daten kann der Autoencoder schließlich selbst einen Hund erstellen. Auf diese Weise funktioniert auch der Tausch von Gesichtern bei Deepfakes: Das neuronale Netz lernt, wie das Gesicht der Person aussieht, und kann dieses dann selbstständig erzeugen – auch wenn das Gesicht in Bewegung ist und sich z. B. der Mund bewegt.
Um Gesichter effektiv auszutauschen, müssen zwei Köpfe erkannt werden: das Gesicht, das im Originalmaterial auftaucht, und jenes, mit dem man den Tausch durchführen möchte. Dafür setzt man einen Eingang (den Encoder) und zwei Ausgänge (die Decoder) an. Der Encoder analysiert jegliches Material, während die beiden Decoder jeweils einen unterschiedlichen Output generieren: Gesicht A oder Gesicht B.
Im Endeffekt funktioniert es dann so, dass der Algorithmus nicht Gesicht A in das Video einfügt, sondern Gesicht B, das dort eigentlich gar nicht hingehört. Dies offenbart auch den Unterschied zu den bereits bekannten Fakes, die sich nur auf Bilder reduzieren: Dort schneidet man das Gesicht aus einem Bild aus, retuschiert oder passt es vielleicht an und fügt es in ein anderes Bild ein. Bei Deepfakes wird aber nicht Bildmaterial in ein anderes Bild hineinkopiert, sondern neues Material erstellt. Nur so kann auch die Mimik passend zu der des Originalgesichts ausfallen.
Dies erklärt auch die Fehler, die bei Deepfakes auftreten: Besonders bei untypischen Bewegungen geraten die neuronalen Netze an ihre Grenzen. Wenn es nicht genügend Material aus der entsprechenden Perspektive gibt, wirkt der Frame verschwommen. Der Algorithmus versucht, aus dem wenigen Ausgangsmaterial ein Bild zu generieren, muss aber scheitern und kann nur auf Details verzichten.