Imagina conseguir reproduzir a voz e as emoções de qualquer pessoa que você ama utilizando Inteligência Artificial? A Microsoft fez isso e muito bem, com uma nova tecnologia que copia a voz humana em apenas três segundos! Parece até mágica!
Batizada de VALL-E, a tecnologia precisa apenas de uma pequena amostra da voz que será copiada para fazer todo o trabalho. A ferramenta consegue até mesmo pronunciar palavras que o indivíduo não disse originalmente.
A ferramenta foi treinada com mais de 60 mil horas de áudios em inglês e é uma inteligência artificial text-to-speech (“texto para fala”, em português, ou TTS) e é objeto de estudo de um projeto apresentado na Universidade de Cornell, em Nova York, Estados Unidos. Trata-se de um modelo de linguagem codec natural capaz de sintetizar falas personalizadas de alta qualidade com apenas gravações de segundos.
Vozes idênticas
As amostras de voz compartilhadas pela Microsoft são muito idênticas aos modelos originais. A empresa, no entanto, sabe que pode acontecer de uma amostra ou outra fugir um pouco dessa naturalidade e afirma que a ferramenta ainda passa por testes que podem deixar a imitação mais realista.
Segundo a Microsoft, a VALL-E pega as pequenas faixas de voz como exemplo e vai modificando para ler um trecho pequeno de texto, com pausas e diferentes entonações dependendo da pontuação do trecho.
Na apresentação da ferramenta, a empresa apresentou vários resultados de simulações de voz feitas pelo VALL-E. Algumas das vozes simuladas são convincentes e leem o trecho apresentado de forma coesa e coerente, enquanto outros exemplos são claramente gerados por computador, mais travados e robotizados.
Leia mais notícias boas:
- Autista brasileiro de 10 impressiona Microsoft por altas habilidades em programação
- 1º teletransporte holográfico internacional. Canadá e EUA conseguiram!
- Voz da mãe pode diminuir dores em bebês prematuros, diz estudo
Questões éticas
Como toda nova solução baseada em inteligência artificial, a VALL-E preocupa especialistas em cibersegurança. Isso porque é possível que as imitações das vozes sejam usadas como ferramenta para aplicar e sofisticar golpes.
Um exemplo é o golpe do falso sequestro: usando a tecnologia, criminosos conseguiriam gerar áudios falsos para induzir uma vítima a achar que um familiar está em uma emergência e precisa dos seus dados bancários para fazer um saque.
Aplicações como a VALL-E preocupam também comunicadores e especialistas em desinformação. Se cair nas mãos erradas, a tecnologia poderá facilitar e ampliar a disseminação de fake news. Uma vez que as vozes de pessoas públicas como políticos e artistas podem ser facilmente imitados pela IA, seria muito mais difícil saber se determinada declaração é verdadeira ou se foi manipulada. A possibilidade de a tecnologia reduzir ou até acabar com o trabalho de dubladores também é uma preocupação.
Por conta desse perigo, a Microsoft detém de uma declaração de ética sobre o uso da VALL-E. Além disso, a empresa não disponibilizou a ferramenta para o público geral e somente pode ser conferida a partir das amostras divulgadas pela companhia.
“Os experimentos deste trabalho foram realizados sob a suposição de que o usuário do modelo é o locutor alvo e foi aprovado pelo locutor”, esclareceu os autores do estudo.
A reprodução da voz é feita em apenas 3 segundos – Foto: reprodução
Com informações de VALL-E.