Uma nova atualização na tecnologia de vídeo para áudio do Google permitirá que os usuários apliquem trilhas sonoras, efeitos sonoros e diálogos gerados por IA a clipes de vídeo.
Segundo uma postagem no blog da gigante da tecnologia, a tecnologia “combina pixels de vídeo com prompts de texto em linguagem natural para gerar paisagens sonoras ricas para a ação na tela.”
O Google acrescenta que a atualização é “um grande passo para dar vida a filmes gerados.”
A DeepMind, laboratório de pesquisa em IA do Google, afirmou que a tecnologia pode “compreender pixels brutos” sozinha, portanto, os prompts de texto não são estritamente necessários — embora ajudem na precisão do software.
A tecnologia também oferece controle criativo aprimorado, onde “V2A pode gerar um número ilimitado de trilhas sonoras para qualquer entrada de vídeo.”
“Opcionalmente, um ‘prompt positivo’ pode ser definido para guiar a saída gerada em direção aos sons desejados, ou um ‘prompt negativo’ para afastá-la dos sons indesejados,” disse um porta-voz do Google.
A atualização ainda não foi lançada ao público, com a declaração acrescentando: “Ainda assim, há uma série de outras limitações que estamos tentando resolver e mais pesquisas estão em andamento.”
“Como a qualidade do áudio depende da qualidade do vídeo, artefatos ou distorções no vídeo, que estão fora da distribuição de treinamento do modelo, podem levar a uma queda perceptível na qualidade do áudio.”
Veja alguns exemplos dessa nova tecnologia em ação abaixo: