terça-feira, 23 de março de 2021

Singing Voice Synthesis da Supertone - Um caminho sem volta?

 


 

Olá pessoal.
Estava eu nesse final de domingo, comendo cocadas de leite condensado feitas pela minha Irmã, vendo o Fantástico, quando apareceu uma matéria sobre IA (Inteligência Artificial).
Até aí nada de mais...
Sempre achei interessante esse assunto.
Tem até um filme que vi faz muito tempo, onde o tema principal era a IA, que passa uma mensagem bem legal.


O nome do filme é A.I. (Artificial Intelligence). Fui pesquisar, e o filme é de 2001, e tem a mão do competente Steven Spielberg.
Quem não viu, aconselho ver.
Pois bem...


A matéria no Fantástico começou perguntando a quem estava vendo o programa: --- Você seria capaz de adivinhar se uma música é cantada por uma pessoa ou por um computador?
Um programa de TV com auditório da Coreia do Sul fez esse desafio, como se fosse um show de calouros, onde a audiência teria que adivinhar se quem estava fazendo melhor era a pessoa real ou a "máquina"?
Passaram por algumas áreas, como golfe, retrato falado, e até a criação da imagem do rosto da pessoa de acordo com a análise de sua voz.
A voz...
Foi aí que entrou o assunto que chamou ainda mais a minha atenção (lógico, né?).
O programa de TV lançou um desafio, colocando a voz de um cantor muito conhecido no país.
Só que esse cantor famoso tinha morrido muitos anos atrás, e a música era recente!
Não tinha como ele cantar essa música!
A turma se assustou.
E não tinha como não se assustar, pois a voz era igual a do cantor falecido.
Aí foram explicar.



Na matéria, diz que o software que conseguiu recriar a voz do cantor famoso foi criado por "um time de engenheiros de som de uma universidade Sul-Coreana".
Fui pesquisar aqui em casa na internet para escrever esse texto, e apareceu para mim a empresa Supertone, da Coreia do Sul.
Já que a Globo não quis colocar os créditos da empresa, estou fazendo aqui. Nada mais justo, né?
Quem quiser ir ao site da empresa, clique AQUI.
Usei o Chrome como navegador, traduzindo a página.
Não é muito boa a tradução, mas é bem melhor do que não entender nada olhando para as letrinhas de figurinha!


Encontrei uma boa matéria sobre esse assunto, agora na nossa língua, no site da Techtudo.
O título?
Inteligência artificial traz cantor de volta dos mortos.
Bem chamativa, não é?
Foi lá que descobri que o pai da criança é a Supertone.
Quer ler essa matéria? Clique AQUI.
Não é de hoje que a IA está no áudio.
O famoso Auto-Tune reinou durante muito tempo no mundo do áudio afinando vozes, e agora quem já está reinando a um bom tempo é o Melodyne, principalmente quando ele assustou a todos da área, mostrando que poderia afinar uma nota de guitarra dentro de um acorde, ou afinar uma voz dentro de um coro mixado.
Eu mesmo me assustei.
Em setembro do ano passado, falei sobre o simulador de voz Mr. Falante, onde a pessoa colocava um texto na voz de uma pessoa que nunca leu esse texto.
Mesmo ainda não sendo 100% o resultado sonoro final, pelo que eu conferi no site do fabricante naquele dia, já era bem interessante o software.
Tanto o Mr. Falante quanto esse software da Supertone, baseiam-se na técnica usada para criar vídeos falsos chamada "Deepfake".
Fazendo um resumo bem chulo dessa técnica, o software, depois de receber várias informações sobre o original (imagens e/ou  vozes), ele vai estudando o assunto, para depois recriar algo bem parecido com o original. Um clone!
Esse da Supertone, segundo a matéria no Techtudo, usa uma técnica de aprendizado de máquina chamada "Singing Voice Synthesis", que meu tradutor chamou de Síntese de Voz Cantante, ou segundo a tradução livre no Techtudo, Síntese de Voz de Canto.
Mesma coisa, né?
O que importa é o que essa técnica é capaz de fazer!

Dando um giro pela internet hoje sobre o assunto, fui direcionado para o Vocaloid5, onde você já pode ter a sua disposição, em Inglês e Japonês, 4 bancos de vozes, com mais de 1000 frases vocais e mais de 1000 amostras de áudio.
Mesmo sendo limitado, já dá pra montar uns vocais bem legais, mas só nas duas línguas que citei acima.


Mais detalhes sobre o Vocaloid5, clique AQUI.
No caso do software da Supertone, o "bicho pega", pois vai ser possível colocar qualquer cantor (vivo ou morto) para cantar qualquer música, em qualquer idioma!!!!!!!
Basta o software estudar as amostras de áudio.
Imaginaram?
Na matéria do Fantástico, tem até o grande Freddie Mercury cantando em Sul-coreano!!!
E não tem quem diga que não é ele cantando!!!
Impressionante.
Segundo o site Techtudo, nesse caso do cantor Sul-coreano, "A IA aprendeu 700 canções diferentes de vários artistas para compreender técnicas de entonação e ritmo. Depois desse processo, a tecnologia foi treinada com 20 músicas de Kim Kwang-seok, de modo que pudesse ajustar a síntese e recriar a voz do artista".
Ainda na matéria exibida na Globo, um dos responsáveis pelo software afirma: --- E não é só na música, vamos poder dublar os filmes em qualquer idioma simulando as vozes dos atores originais, mesmo eles não sabendo uma palavra do idioma!
Duvidam? Eu não!
Só questão de tempo, pelo que estou vendo.


Já no final da matéria, o mesmo rapaz fala uma coisa que comprova o quanto a ferramenta que eles criaram é absurdamente potente! Mas como sabemos, essa potência pode ajudar ou prejudicar alguém, né?
O termo já não soa bem. Deepfake, SingFake. Fake = Falso. Não esqueçam.
Para garantir, eles já estão desenvolvendo uma outra tecnologia (ferramenta) capaz de identificar onde a IA foi usada, mesmo tendo sido feita por outra empresa!
Já falei em setembro de 2020 que achava quase impossível frear esse avanço dos softwares.
Caminho sem volta?
Continuo achando a mesma coisa. Caminho sem volta.
Um abraço a todos.

PS: Quem quiser ver a reportagem exibida no Fantástico, clique AQUI.

2 comentários:

Anônimo disse...

Também acho que é um caminho sem volta, cada vez mais a ficção torna-se real.

Titio disse...

Olá Anônimo.
Pois é... Murro em ponta de faca, enxugar gelo...
Fico vendo a briga para não acabar com a profissão de cobrador de ônibus.
É a mesma coisa. Vai acabar, como acabou curso de datilografia, entregador de ticket de estacionamento de Shoppings, e por aí vai...
Vários shows hoje em dia, estão sendo feitos por apenas um técnico, que opera o PA e monitor ao mesmo tempo. Né?
Se for esquentar a cabeça, é pior.
Obrigado pela participação.
Um abraço.