Em 1968, John Lennon cantava no disco branco dos Beatles que todos tinham algo a esconder, exceto ele e o seu macaco. É quase uma verdade: assim como os seus três companheiros de banda, o vocalista também tinha coisas a esconder – principalmente dos fãs. Mas, agora, segredos que permaneceram guardados por 50 anos foram expostos por sofisticados algoritmos de inteligência artificial (IA).
No documentário Get Back, disponível no Disney+, o diretor Peter Jackson restaurou o material captado em 1969 por Michael Lindsay-Hogg para o documentário Let It Be. As melhorias nas imagens trazem aos olhos cores vibrantes e causam impacto imediato. Mas é no novo áudio que partes das personalidades dos integrantes dos Beatles se descortinam, o que ajuda a construir a narrativa do filme.
O desafio era grande: quando Lindsay-Hogg registrou os ensaios dos Beatles nos estúdios Twickenham, ele espalhou alguns microfones pelo espaço, que captavam em uma única massa sonora tudo o que acontecia: conversas, ruídos e sons de instrumentos – era como uma gravação de show feita pelo celular nos dias atuais. Assim, era impossível controlar todas essas fontes para trazer o que havia de melhor e mais interessante. O formato é a antítese da gravação de um disco, em que cada elemento é gravado separadamente e é possível ter domínio sobre aquilo que se planeja mostrar.
Era hora de recorrer à tecnologia. “Fizemos grandes avanços em áudio no documentário. Desenvolvemos um sistema de aprendizado de máquina (uma técnica de inteligência artificial) para o qual ensinamos o som de uma guitarra, o som de um baixo e o som da voz. Assim, pudemos pegar a faixa em mono (com todos os sons gravados) e separar todos os instrumentos”, contou Jackson à revista Variety.
A técnica se chama “unmixing”, algo como “desmixagem”. Ao contrário da “mixagem”, que tenta acomodar da melhor forma os vários elementos sonoros de uma gravação em uma única faixa, a desmixagem tenta desmembrar os vários componentes de uma gravação. “É como se fosse possível pegar uma vitamina de frutas e isolar a banana, a maçã e o mamão”, explica Geraldo Ramos, fundador da startup Moises, especializada em algoritmos do tipo.
O esforço para isolar instrumentos não é assunto novo para produtores e engenheiros de som. No passado, os profissionais usavam equalizadores para tentar eliminar as frequências de determinados instrumentos – as tentativas eram feitas principalmente para apagar os vocais e, como resultado, ter versões instrumentais de músicas. Dificilmente funcionava. Foi só a partir da metade da década de 2000, quando a onda de digitalização se consolidou e transformou estúdios em todo o mundo, que os experimentos com desmixagem aumentaram.
Empresas de software, como a AudioSourceRE e a Audionamix, estão entre as primeiras a lançarem programas de computador dedicados à desmixagem. Um dos principais nomes da área, porém, está indiretamente ligado também aos Beatles.
A partir dos anos 2010, James Clarke, principal engenheiro de software de Abbey Road, o estúdio onde a banda gravou vários dos seus discos, começou a experimentar com programas de controle de frequências, o que permitiu que ele remasterizasse o disco “Live at the Hollywood Bowl”, único disco ao vivo dos Beatles lançado oficialmente – a versão retrabalhada saiu em 2016. Nele, Clarke tratou o ruído da plateia, captado por diversos microfones, como um único instrumento e foi capaz de reduzi-lo, dando destaque à banda. Ainda havia limites, mas uma revolução estava a caminho.
Na mesma época do lançamento da versão retrabalhada de “Live at the Hollywood Bowl”, acontecia o alvorecer da nova era da inteligência artificial (IA). Era natural que empresas de software, engenheiros de som e produtores buscassem nos algoritmos formas de aprimorar a desmixagem.
A IA costuma ser boa para detectar padrões, o que, de certa forma, é parte do processo de desmixagem. Em tese, um engenheiro de som com “ouvido absoluto”, olhos superatentos para espectrogramas (as representações visuais de frequências), altíssima habilidade para lidar com equalizadores e programas de computadores tradicionais seria um bom candidato para identificar o comportamento de frequências e timbres de instrumentos e fazer as manipulações necessárias para fazer a separação. Seria um tipo raríssimo de profissional, quase um robô – e mesmo assim, ele estaria atrás da IA.
Para que uma máquina faça a desmixagem, ela precisa treinar com muitos exemplos dos sons que ela deve procurar dentro de uma gravação. Por isso, os algoritmos são expostos aos instrumentos isoladamente. No caso de análise focada em um artista específico, como dos Beatles, o ideal é que a máquina seja exposta aos mesmos modelos de amplificadores, guitarras, contrabaixos e peças de bateria usados pela banda.
Mesmo no caso da banda inglesa, que teoricamente tem fartos registros de instrumentos tocando separadamente nas gravações dos álbuns, o volume de informações pode ser insuficiente para treinar a IA. Nesses casos, é possível fazer algo chamado de data augmentation (aumento de dados, em português), que significa fazer pequenas alterações no pacote de dados original para retreinar o sistema. “Você pode pegar os mesmos instrumentos e alterar artificialmente em 10 semitons para cima e para baixo”, explica Ramos.
Outra saída para engordar o pacote de dados da IA é fazer gravações atuais com instrumentos da época – pode parecer uma saída cara, afinal, poucos lugares têm vastos acervos de equipamentos antigos, sempre os mais caros do mercado. Isso, porém, pode ser contornado digitalmente por meio de plugins (programas de computador) que emulam os timbres de instrumentos e amplificadores.
Apesar do cuidado com timbres e equipamentos, no princípio, o som era imagem. Os primeiros algoritmos usados na análise do aúdio eram redes neurais convolucionais (CNN, na sigla em inglês). “As CNNs são muito boas para analisar imagens”, explica Anderson Soares, coordenador do Centro de Excelência em Inteligência Artificial da Universidade Federal de Goiás (UFG).
Isso significa que os sistemas analisavam o comportamento dos sons por meio de espectrogramas, representações visuais do que acontece nas frequências quando um som é emitido. A análise sonora de verdade só passou a ser feita mais recentemente por meio de outros tipos de algoritmos como LSTM (long short-term memory) e Transformers – essa última considerada a técnica mais avançada de IA. Atualmente, os algoritmos mais sofisticados de desmixagem combinam análise visual e sonora.
Após entender isoladamente o comportamento de cada fonte sonora, a máquina é capaz de identificar com alto grau de precisão esses padrões mesmo que estejam todos misturados em uma grande massa sonora. E, parte quase impossível para um humano fazer, é capaz de extrair com precisão cada uma dessas fontes.
A explosão da desmixagem aconteceu a partir de novembro de 2019, quando o serviço de streaming Deezer publicou o Spleeter, um algoritmo de código aberto para a separação de áudio. Com a publicação, startups especializadas na tarefa surgiram, como a Lalal.ai e a Moises – com o gás inicial do projeto da Deezer, cada startup passou a desenvolver os próprios algoritmos e, mais importante, a trabalhar com as próprias bases de dados.
Além da Deezer, algumas das principais pesquisas em desmixagem são feitas por gigantes da tecnologia: Spotify, Facebook e ByteDance (dona do TikTok). Faz sentido: o ramo de atuação dessas companhias é analisar áudio para recomendação. Não é possível saber como a desmixagem é usada dentro das plataformas dessas empresas, mas Deezer e Spotify já experimentaram com o recurso de karaokê, no qual algoritmos eliminavam os vocais para os usuários cantarem – a possibilidade de enroscos jurídicos relacionados a direitos autorais frearam os projetos.
O produtor Felipe Vassão, que tem trabalhos com o rapper Emicida, conta que a desmixagem virou uma ferramenta importante para DJs e beat makers, pois a técnica permite aprofundar a maneira como elementos musicais são sampleados e usados em novas canções. “Funciona muito para publicidade também. Eu já desmixei uma música dos anos 1960 para um comercial. A ideia era trabalhar nas pistas separadas e fazer uma mixagem atualizada”, diz ele, sem revelar o nome da canção.
Já Ramos, da Moises, conta que o principal filão da tecnologia é a prática musical: pessoas que querem aprender partes instrumentais e cantar e tocar junto com seus artistas favoritos – muitas dessas performances acabam virando vídeos no YouTube. “Por causa disso, estamos fazendo parcerias com escolas musicais e igrejas”, conta o pernambucano de 36 anos radicado nos EUA. A Moises, que começou 2021 com 240 mil usuários, tem atualmente 10 milhões de pessoas cadastradas no serviço.
Por fim, a desmixagem é usada na recuperação e na preservação de áudio. Ramos conta que seu sistema de IA ajudou o produtor Kassin a isolar a voz de Beth Carvalho na música Visual. Lançada em 1978, as pistas separadas da gravação original foram perdidas e o produtor precisou recorrer a IA para criar uma versão da música lançada em 2020 na qual Luana Carvalho, filha da cantora, divide os vocais com a mãe, falecida em 2019.
Get Back, a equipe de Peter Jackson foi além de recuperar os instrumentos. “Percebemos que o John e o George ficavam bastante conscientes de que suas conversas privadas estavam sendo filmadas o tempo todo”, disse o diretor ao site Guitar.com.
“Quando eles estavam conversando, eles aumentavam bastante os amplificadores e ficavam fazendo barulho. Eles não estavam tocando, nem afinando. Então os microfones do Michael Lindsay-Hogg captavam só barulho de guitarra, mas você via os Beatles tendo conversas privadas”, diz ele. Jackson, então, disse que sua equipe treinou algoritmos não apenas para identificar instrumentos – ele capacitou a máquina para reconhecer as vozes dos quatro integrantes da banda, o que permitiu manipulação total do que foi exibido.
O avanço é exemplo de um novo momento para a IA, não apenas para os fãs dos Beatles. “A IA sempre foi boa para consumir dados, mas agora ela está gerando dados. Teremos muitas informações entre 1930 e 1980, que é um período de registros fracos. Será uma era de realidade mista, na qual as informações não são virtuais, mas também não são reais”, afirma Soares, da UFG.
É o que reafirmou Jackson à Guitar.com: “Algumas partes chave do filme trazem conversas privadas que eles tentaram esconder, mas conseguimos remover as guitarras”.
Ramos lembra que os algoritmos de desmixagem estão apenas no início de uma curva evolutiva e que o céu é o limite para a tecnologia. Não é algo para se duvidar: se a máquina transformou lendas em humanos, o que mais ela poderá fazer?