O Google apresentou na semana passada seu modelo mais avançado de geração de vídeos por inteligência artificial (IA). Chamado de Veo 3, o sistema cria clipes realistas a partir de comandos de texto, com direito a trilhas sonoras, ruídos de fundo e sincronização labial. A novidade foi anunciada durante o evento anual Google I/O 2025, em meio a outras inovações em IA desenvolvidas pela empresa.
Desenvolvido pela equipe do Google DeepMind, o Veo 3 é capaz de interpretar descrições complexas e gerar automaticamente um vídeo coerente com esse cenário. A simulação inclui efeitos visuais e sonoros em harmonia, algo incomum em modelos anteriores.
Os vídeos produzidos pelo Veo 3 podem ter resolução de até 1080p e durar até um minuto. O nível de detalhe alcançado pelo modelo tem chamado atenção: em testes divulgados pela empresa, as cenas são quase indistinguíveis de filmagens captadas por câmeras reais.
Um diferencial importante está na compreensão de linguagem. O Veo 3 consegue adaptar seus resultados a diferentes tons e estilos. Um comando pedindo por “uma cena de ação hollywoodiana” terá estética e ritmo distintos de um vídeo com a descrição “documentário sobre floresta amazônica”, segundo o Google.
A tecnologia é descrita como multimodal. Isso significa que ela integra não só imagem, mas também som, movimento e contexto. A IA pode gerar desde vozes humanas até barulhos ambientes, como multidões, ondas do mar ou buzinas no trânsito, tudo sincronizado com o vídeo.
Entre os principais usos previstos para o Veo 3 estão produções audiovisuais independentes, conteúdos para redes sociais, campanhas publicitárias, vídeos educacionais e até videogames. O Google afirma que está desenvolvendo ferramentas de curadoria e edição para facilitar o uso por pessoas sem formação técnica.
Apesar do entusiasmo, o modelo está sendo liberado gradualmente. Inicialmente restrito aos EUA, o acesso ao Veo 3 exige assinatura do plano Google AI Ultra, um serviço premium que custa US$ 249 por mês. O sistema pode ser utilizado por meio da plataforma Flow ou do aplicativo Gemini. No Brasil, apenas alguns usuários já conseguiram testar a plataforma.
Como usar o Veo 3?
Para usuários que já assinam o plano Google AI Ultra, criar vídeos com o Veo 3 envolve um processo relativamente simples. Primeiro, é preciso acessar o aplicativo Gemini ou a plataforma Flow. Em seguida, o usuário insere um prompt textual ou fornece uma imagem de referência.
Com base nessas entradas, o Veo 3 gera automaticamente um vídeo com até 8 segundos de duração (versão inicial), com imagens em alta definição e som sincronizado. O usuário pode personalizar o resultado, ajustando elementos como trilha sonora, efeitos sonoros e estilo visual.
O modelo oferece controles para simular diferentes estéticas cinematográficas, como noir, animação 3D ou documentário. Também é possível adicionar falas específicas e escolher o tipo de voz a ser usada, de acordo com o tom da cena.
Segundo o Google, o sistema ainda apresenta algumas limitações. Prompts muito complexos com múltiplas camadas espaciais podem gerar resultados inconsistentes, especialmente na sincronização de áudio. Ainda assim, a ferramenta representa um avanço significativo em relação a versões anteriores.
Usuários corporativos também podem utilizar o Veo 3 via Vertex AI, a plataforma da Google voltada ao uso empresarial de IA. O modelo anterior, o Veo 2, continua disponível nessa plataforma, com custo de US$ 0,50 por segundo de vídeo gerado.