Domine a Inteligência Artificial | Gere vídeos com IA gratuitamente no seu próprio computador usando HunyuanVideo

Gere vídeos com IA gratuitamente no seu próprio computador usando HunyuanVideo

HunyuanVideo é um modelo de inteligência artificial open-source para geração de vídeos, permitindo que você crie vídeos realistas a partir de texto gratuitamente no seu próprio computador. Diferente de plataformas fechadas e pagas, este modelo avançado pode ser baixado e executado localmente, garantindo autonomia total na criação de conteúdos visuais com IA. Ele se destaca por oferecer qualidade superior e movimentos naturais, comparáveis – ou até melhores – que os principais modelos comerciais. Se você busca usar inteligência artificial para gerar vídeos gratuitamente no seu PC, o HunyuanVideo é a melhor escolha, combinando tecnologia de ponta em modelagem, compressão e aprendizado multimodal para transformar descrições em texto em vídeos impressionantes.

Principais Características

Arquitetura Inovadora:
HunyuanVideo trabalha em um espaço latente comprimido tanto no domínio espacial quanto temporal, utilizando um Causal 3D VAE. Essa abordagem reduz drasticamente o número de tokens necessários, permitindo treinar vídeos na resolução e taxa de quadros originais.
Processamento Multimodal:
O modelo incorpora um encoder de texto baseado em um Multimodal Large Language Model (MLLM). Isso possibilita um alinhamento mais preciso entre a descrição textual e os detalhes visuais, melhorando a qualidade da geração do vídeo.
Design Unificado para Imagens e Vídeos:
A arquitetura adota uma estratégia "dual-stream para single-stream". Inicialmente, os tokens de vídeo e texto são processados separadamente, garantindo que cada modalidade aprenda suas características específicas. Em seguida, eles são combinados para que o modelo capte as interações complexas entre o aspecto visual e o semântico.
Reescrita de Prompts:
Para melhorar a interpretação dos comandos dos usuários, o HunyuanVideo conta com um módulo de prompt rewrite. Esse componente adapta o texto fornecido para um formato que o modelo compreende melhor, com dois modos: o Normal, que foca na compreensão da intenção do usuário, e o Master, que enfatiza detalhes como composição e iluminação para uma geração visualmente mais rica.
Desempenho Superior:
Em avaliações com mais de 1.500 prompts, o HunyuanVideo demonstrou resultados excepcionais, superando modelos de referência em aspectos como qualidade do movimento e aderência ao texto. Isso o torna uma opção de destaque para quem busca gerar vídeos com alta fidelidade visual e expressividade.
Requisitos Técnicos:
Para rodar o modelo, são necessárias GPUs com suporte a CUDA. As configurações testadas exigem, por exemplo, 60GB de memória para vídeos em resolução 720px x 1280px e 45GB para resoluções um pouco menores.

HunyuanVideo representa um avanço significativo no campo da geração de vídeos, permitindo que desenvolvedores e artistas criem conteúdos dinâmicos com alta qualidade e fidelidade à descrição textual. No tutorial que iremos montar utilizando o ComfyUI, exploraremos como integrar esse modelo em um fluxo de trabalho prático, desde a preparação do ambiente até a geração de vídeos a partir de prompts personalizados.

Esta introdução fornece a base para compreendermos a tecnologia por trás do HunyuanVideo e como ela pode ser aplicada de forma prática e eficiente. Vamos seguir para os próximos passos do tutorial, detalhando a instalação e a integração com o ComfyUI.

Exemplo de prompt em ingles: On a busy Tokyo street, the camera descends to show the vibrant city. Modern buildings and shops line the street, with a neon-lit convenience store. The shot moves to a vending machine…..

Resultado

Video gerado pelo prompt: On a busy Tokyo street, the camera descends to show the vibrant city. Modern buildings and shops line the street, with a neon-lit convenience store. The shot moves to a vending machine

Tutorial de instalação usando o ComfyUI

Aprenda como instalar e usar o ComfyUi aqui.

Exemplo de fluxo de trabalho de texto para vídeo (Text-To-Video)
Você pode gerar vídeos e imagens fixas sem esforço com o HunyuanVideo. Veja como começar:

Atualize para a versão mais recente do ComfyUI ou baixe o aplicativo Desktop mais recente. Baixe aqui
Baixe os seguintes arquivos de modelo:
- hunyuan_video_t2v_720p_bf16.safetensors → Coloque em ComfyUI/models/diffusion_models.
- clip_l.safetensors e llava_llama3_fp8_scaled.safetensors → Coloque em ComfyUI/models/text_encoders.
- hunyuan_video_vae_bf16.safetensors → Coloque em ComfyUI/models/vae.
Carregue o arquivo JSON do fluxo de trabalho fornecido no ComfyUI ou arraste-o e solte na interface. Baixe aqui

2. Gere uma imagem usando o mesmo fluxo de trabalho
Este modelo pode gerar imagens fixas configurando o comprimento do vídeo para 1.

Para acompanhar as atualizações da série de modelos Hunyuan, inscreva-se em nosso blog e na página de fluxo de trabalho de exemplo. Baixe aqui

Exemplos retirados de: https://blog.comfy.org/p/hunyuanvideo-native-support-in-comfyui