Hendrik Macedo
31/07/2018

[1]
Existe eleição para tudo quanto é coisa nesse mundo; até para palavra do ano! Em 2017, por exemplo, a ganhadora foi…. “fake news”, e quem a elegeu foi a famosa editora britânica Collins [2]. A expressão representa o conjunto de notícias falsas fabricadas com o propósito escuso de induzir pessoas a análises e conclusões equivocadas sobre diversos assuntos. Não invariavelmente ela é gatilho para polarização e manifestações profundas de intolerância entre a população. Um recente levantamento, feito pelo grupo de pesquisa Políticas Públicas para o Acesso à Informação (Gpopai) da USP, mostrou que cerca de 12 milhões de pessoas compartilharam fake news no Brasil apenas no mês de junho de 2017 [3]. Política é, sem dúvida, o domínio que mais sofre com a danada da expressão e, não obstante os esforços das grandes plataformas de rede social digital e veículos digitais de notícias em detectar e combater sua disseminação, na opinião de especialistas no assunto e de cientistas políticos, as fake news influenciarão profundamente o voto nessas próximas eleições brasileiras.

Pois bem. A mesma tecnologia que pode/deve ajudar a resolver o problema, também pode ajudar a piorá-lo substancialmente. Mas, se me permitem o jogo de expressões, independentemente dos possíveis fins, na Ciência, os meios precisam ser (bem) explicados.

Imagine um vídeo de alguém fazendo algum pronunciamento, dialogando ou, simplesmente, exibindo variadas expressões faciais que refletem emoções como angustia, dor, alegria, medo, etc. (para quem tiver interesse específico sobre o processamento computacional das emoções, escrevo sobre isso no artigo Máquinas que percebem emoções). Imagine agora um segundo vídeo de uma outra pessoa, por exemplo, alguma celebridade ou pessoa pública, realizando qualquer outro tipo de pronunciamento com expressões faciais diversas. Agora imagine refletir no segundo vídeo de forma precisa todas expressões e movimentos de cabeça observados no primeiro vídeo. Imaginou? Mesmo? Ok. Então agora pare de imaginar pois você não precisa mais. Pesquisadores do Max Planck Institute for Informatics, Alemanha, em parceria com pesquisadores de outras importantes universidades do mundo, incluindo a universidade de Stanford, EUA, viabilizaram a coisa. A abordagem, já publicada, se chama Deep Video Portraits [4]. Em adição a abordagens semelhantes anteriores que eram restritas às manipulações das expressões faciais e ainda assim com limitações, essa nova abordagem consegue transferir com alta acurácia a posição total tridimensional da cabeça, rotação da mesma, expressão facial, olhar fixo e piscada de olhos de um sujeito (fonte) presente num vídeo para outro sujeito (alvo) presente em outro vídeo. Ou seja, é possível pegar um vídeo de alguém discursando e recriar a segunda pessoa proferindo o mesmo discurso, com as mesmas expressões faciais, emoções, e com movimentação idêntica da cabeça; até as imagens do fundo do vídeo são perfeitamente reconstituídas no segundo (aos curiosos, o grupo disponibiliza uma apresentação do trabalho no YouTube, onde ilustra algumas transformações [5])

O mecanismo “assustador” consiste de uma rede neuronal gerativa com uma nova arquitetura espaço-temporal. A rede toma como entrada renderizações sintéticas de um modelo facial paramétrico, com base no qual prevê quadros de vídeo foto-realistas para um determinado alvo. O realismo nesta transferência de renderização para vídeo é conseguido através de um cuidadoso treinamento de redes adversárias (falo mais detalhadamente sobre a Generative Adversarial Network (GAN) no artigo “Aperfeiçoando” galáxias!), e como resultado, é possível criar vídeos de alvos modificados que imitam o comportamento da entrada criada sinteticamente. Para habilitar a animação de vídeo de origem para o destino, um vídeo de alvo sintético com os parâmetros de animação de cabeça reconstruída de um vídeo de origem é renderizado e fornecido à rede treinada. Diante da capacidade de recombinar livremente os parâmetros de origem e de destino, é possível demonstrar uma grande variedade de aplicações de reescrita de vídeo sem precisar modelar explicitamente cabelos, corpo ou plano de fundo. O artigo descreve uma extensa série de diferentes experimentos com auxílio de voluntários onde fica comprovada a grande dificuldade por parte de humanos em se detectar as edições realizadas. Bom, não sei se os pesquisadores incluíram o “Detetive Virtual” do Fantástico em seus testes; talvez fosse interessante. Fica a dica! 🙂

Não é preciso refletir muito para imaginar as potencialidades da tecnologia citada. Existem mercados interessantíssimos que poderão ser explorados, talvez revolucionados, com a técnica em questão. Um exemplo óbvio é o da dublagem de filmes e séries: só imaginar não ter que ouvir um “tudo bem” quando a leitura labial claramente nos apresenta um “ok”, seria ótimo! Infelizmente, refletir sobre o potencial da coisa para o “mal” exige esforço menor ainda. Pois é… se uma fake news em texto incomoda muita gente, uma fake news em vídeo vai incomodar muuuuuito mais (em minha opinião, elefantes não incomodam ninguém!). Mais uma vez, temos dilemas éticos que precisarão ser tratados. Mas nosso habitat atual, tecnológico do jeito que é, digital do jeito que está e inteligente e autônomo do jeito que está ficando, a velha reflexão sobre se “os fins justificam os meios” será, por si só, uma tarefa sobre a qual precisaremos refletir bastante.

[1] Crédito da imagem: gagnonm1993 (Pixabay), CC0 Creative Commons. https://pixabay.com/pt/pirataria-codificação-código-hack-2275593/.

[2] BBC News Brasil: https://www.bbc.com/portuguese/internacional-41843695 (2017).

[3] A Martins. “Na web, 12 milhões difundem fake news políticas”. Em O Estado de S.Paulo. https://politica.estadao.com.br/noticias/geral,na-web-12-milhoes-difundem-fake-news-politicas,70002004235 (2017).

[4] H Kim et al. Deep video portraits. ACM Trans Graph 10.1145/3197517.3201283 (2018).

[5] H Kim et al. Apresentação do artigo Deep Video Portraits na conferência SIGGRAPH 2018. https://www.youtube.com/watch?v=qc5P2bvfl44&feature=youtu.be (2018).

Como citar este artigo: Hendrik Macedo. A impressionante habilidade de se criar vídeos falsos artificialmente. Saense. http://saense.com.br/2018/07/a-impressionante-habilidade-de-se-criar-videos-falsos-artificialmente/. Publicado em 31 de julho (2018).

Artigos de Hendrik Macedo     Home