Nowości

Nauczyłem się robić deepfake z synchronizacją ust w zaledwie kilka godzin (i ty też możesz)

Czy naprawdę łatwo jest zrobić deepfake? W ciągu ostatnich kilku lat pojawił się stały strumień nowych metod i algorytmów, które dostarczają coraz bardziej przekonujące podróbki generowane przez sztuczną inteligencję. Możesz nawet teraz wykonywać podstawowe zamiany twarzy w kilku aplikacjach. Ale co jest potrzebne, aby zmienić losowy kod znaleziony w Internecie w prawdziwy deepfake? Mogę teraz powiedzieć z własnego doświadczenia, że ​​naprawdę potrzebujesz tylko dwóch rzeczy: czasu i cierpliwości.

Mimo, że od lat piszę o deepfake’ach, stworzyłem je tylko przy użyciu gotowych aplikacji, które wykonały pracę za mnie. Ale kiedy zobaczyłem pozornie prostą metodę tworzenia szybkich deepfake’ów z synchronizacją ust, wiedziałem, że muszę sam tego wypróbować.

Podstawowy mechanizm jest kusząco prosty. Wszystko, czego potrzebujesz, to film przedstawiający temat i klip audio, który chcesz, aby go śledzili. Połącz te dwie rzeczy za pomocą kodu i, hej, presto, masz deepfake. (Możesz powiedzieć, że nie mam zbytniego zaplecza technicznego, prawda?) Efektem końcowym są filmy takie jak ten, w którym królowa śpiewa Queen:

Albo kilka postaci filmowych śpiewających ten międzynarodowy hymn „All Star” Smash Moutha:

Albo Trump naśladujący ten irlandzki klasyk:

Znajdowanie algorytmów

Te nagrania nie są nikczemnymi deepfake’ami, których celem jest podważenie demokracji i wywołanie infopokalipsy. (Kto potrzebuje do tego deepfake’ów, skoro normalna edycja działa równie dobrze?) Nie są nawet tak przekonujący, przynajmniej nie bez dodatkowego czasu i wysiłku. To, czym są, jest głupie i zabawne – dwie cechy, które bardzo cenię, kiedy się zobowiązuję marnować mój czas napisz pouczający i interesujący artykuł dla mojego pracodawcy.

Jako James Kelleher, irlandzki projektant, który stworzył Deepfake Queen, odnotowano na Twitterzemetoda, której użył do tworzenia filmów, została udostępniona online przez niektórych badaczy AI. Omawiany artykuł opisujący ich metodę (zwany Wav2Lip) został opublikowany kilka tygodni temu wraz z publiczną demonstracją, którą każdy może wypróbować. Demo było pierwotnie swobodnie dostępne, ale teraz musisz się zarejestrować, aby z niego korzystać. Opowiedział KR Prajwal z IIIT Hyderabad, jeden z autorów pracy The Verge Miało to na celu zniechęcenie do złośliwych zastosowań, chociaż przyznał, że rejestracja nie „odstraszyłaby poważnego przestępcy dobrze zorientowanego w programowaniu”.

„Zdecydowanie zdajemy sobie sprawę z obawy, że ludzie mogą swobodnie korzystać z tych narzędzi, dlatego też zdecydowanie zalecamy użytkownikom kodu i witryny internetowej, aby jasno przedstawiali filmy jako syntetyczne” – powiedział Prajwal. On i jego koledzy zauważają, że program może być również używany do wielu pożytecznych celów, takich jak animacja i dubbingowanie wideo na nowe języki. Prajwal dodaje, że mają nadzieję, że udostępnienie kodu „zachęci do owocnych badań nad systemami, które mogą skutecznie zwalczać nadużycia”.

Próba (i niepowodzenie) w wersji demonstracyjnej online

Początkowo próbowałem użyć tego demo online, aby zrobić deepfake. Znalazłem wideo mojego celu (CEO Apple, Tima Cooka) i trochę dźwięku, do którego mógłbym naśladować (z jakiegoś powodu wybrałem Jima Carreya). Pobrałem materiał wideo za pomocą funkcji nagrywania ekranu Quicktime, a dźwięk za pomocą poręcznej aplikacji o nazwie Piezo. Potem dostałem oba pliki, podłączyłem je do witryny i czekałem. I czekałem. I ostatecznie nic się nie stało.

Z jakiegoś powodu wersja demonstracyjna nie podobała się moim klipom. Próbowałem zrobić nowe i zmniejszyć ich rozdzielczość, ale to nie miało znaczenia. Okazuje się, że byłby to motyw w moim głębokim doświadczeniu: pojawiały się przypadkowe blokady, których po prostu nie miałem technicznej wiedzy do przeanalizowania. W końcu poddałem się i poprosiłem Kellehera o pomoc. Zasugerował, abym zmienił nazwy plików, aby usunąć wszelkie spacje. Zrobiłem to iz jakiegoś powodu to pracował. Miałem teraz klip, na którym Tim Cook naśladował testy ekranowe Jima Carreya Seria niefortunnych zdarzeń Lemony’ego Snicketas. To było okropne – naprawdę po prostu niesamowicie tandetne zarówno pod względem prawdy, jak i humoru – ale mimo wszystko osobiste osiągnięcie.

Google Colab: miejsce moich wielu bitew z algorytmem Wav2Lip.
: James Vincent

Przeprowadzka do Colab

Aby spróbować poprawić te wyniki, chciałem uruchomić algorytmy bardziej bezpośrednio. W tym celu zwróciłem się do witryny Github autorów, gdzie przesłali podstawowy kod. Do jego uruchomienia użyłbym Google Colab: kodowego odpowiednika Google Docs, który umożliwia wykonywanie projektów uczenia maszynowego w chmurze. Ponownie, to pierwotni autorzy wykonali całą pracę, układając kod w prostych krokach, ale to nie powstrzymało mnie przed wpadnięciem w niepowodzenie po niepowodzeniach, takich jak Sideshow Bob na parkingu pełnym grabi.

Dlaczego nie mogę zezwolić firmie Colab na dostęp do mojego Dysku Google? (Ponieważ byłem zalogowany na dwóch różnych kontach Google). Dlaczego projekt Colab nie mógł znaleźć wag dla sieci neuronowej w moim folderze na Dysku? (Ponieważ pobrałem model Wav2Lip, a nie wersję Wav2Lip + GAN.) Dlaczego przesłany plik audio nie został zidentyfikowany przez program? (Ponieważ błędnie napisałem „aduoi” w nazwie pliku). I tak dalej i tak dalej.

Na szczęście wiele moich problemów zostało rozwiązanych dzięki temu samouczkowi na YouTube, który zaalarmował mnie o kilku subtelniejszych błędach, które popełniłem. Obejmowały one utworzenie dwóch oddzielnych folderów dla danych wejściowych i modelu, oznaczonych odpowiednio Wav2Lip i Wav2lip. (Zwróć uwagę na różne wielkie litery na „wardze” – oto, co mnie zaskoczyło). Po kilkukrotnym obejrzeniu filmu i spędzeniu godzin na rozwiązywaniu problemów, w końcu miałem działający model. Szczerze mówiąc, mogłem płakać, częściowo z powodu własnej pozornej niekompetencji.

Ostateczne wyniki

Kilka eksperymentów później nauczyłem się niektórych dziwactw programu (takich jak trudności w radzeniu sobie z twarzami, które nie są proste) i postanowiłem stworzyć moją deepfake pièce de résistance: synchronizację ust Elona Muska z „przestrzenią” Tima Curry’ego przemówienie z Command & Conquer: Red Alert 3. Wyniki możesz zobaczyć poniżej. I oczywiście to tylko niewielki wkład w ciągłe zacieranie się granic między rzeczywistością a fikcją, ale przynajmniej jest mój:

Czego nauczyłem się z tego doświadczenia? Cóż, robienie deepfake’ów jest naprawdę dostępne, ale niekoniecznie jest łatwe. Chociaż algorytmy te istnieją od lat i mogą być używane przez każdego, kto chce poświęcić kilka godzin pracy, nadal prawdą jest, że zwykła edycja klipów wideo tradycyjnymi metodami jest szybsza i daje bardziej przekonujące wyniki, jeśli Twoim celem jest rozpowszechnianie dezinformacji przynajmniej.

Z drugiej strony imponujące było to, jak szybko ta technologia się rozprzestrzenia. Ten konkretny algorytm synchronizacji ruchu warg, Wav2Lip, został stworzony przez międzynarodowy zespół naukowców powiązanych z uniwersytetami w Indiach i Wielkiej Brytanii. Udostępnili swoją pracę online pod koniec sierpnia, a następnie została ona odebrana przez biuletyny Twittera i AI (widziałem to w dobrze znanym czasopiśmie Import AI). Naukowcy udostępnili kod, a nawet stworzyli publiczną wersję demonstracyjną, aw ciągu kilku tygodni ludzie na całym świecie zaczęli z nim eksperymentować, tworząc własne podróbki dla zabawy i, w moim przypadku, treści. Wyszukaj w YouTube „Wav2Lip”, a znajdziesz samouczki, wersje demonstracyjne i wiele innych przykładowych podróbek.



Zostaw komentarz

Maciek Luboński
Z wykształcenia jestem kucharzem , ale to nie przeszkadza mi pisać dla Was tekstów z wielu ciekawych dziedzin , których sam jestem fanem.Piszę dużo i często nie na tak jak trzeba , ale co z tego skoro tak naprawdę liczy się pasja.

Najlepsze recenzje

Video

gallery

Facebook