Cómo Crear Personajes Consistentes en ComfyUI con Flux + PuLID
Aprende a crear personajes de IA visualmente consistentes en ComfyUI usando Flux y IPAdapter. Genera poses, expresiones y escenas variadas manteniendo siempre la misma identidad del personaje.
Si alguna vez has generado imágenes con IA para un proyecto narrativo —un corto de IA, un canal de YouTube, un cómic— sabes lo frustrante que es: mismo prompt, distintos rasgos faciales en cada generación. Este es el problema central que resuelve el workflow de personajes consistentes con Flux + PuLID en ComfyUI.
En este artículo te explico cómo funciona el sistema, qué modelos necesitas, y cómo configurarlo tanto desde una imagen de referencia como desde texto puro.
¿Por qué falla la consistencia por defecto? Los modelos de difusión muestrean desde un espacio latente con variabilidad intrínseca. Aunque uses el mismo prompt exacto, pequeñas diferencias en el seed o el contexto producen rasgos faciales distintos. Para proyectos donde el personaje debe ser reconocible —influencers virtuales, cortos IA, libros ilustrados, series de contenido— esto es un bloqueante real. La solución combina dos mecanismos:
Anclar la identidad facial → PuLID extrae y transfiere los rasgos de tu personaje a cada generación nueva Controlar poses y composición → ControlNet guía la estructura espacial sin alterar la identidad
Modelos y Nodos Necesarios Antes de abrir ComfyUI, asegúrate de tener estos modelos descargados (vía ComfyUI Manager → Install Models): ComponenteModeloBaseflux1-dev-fp8.safetensorsCLIPt5xxl_fp8_e4m3fn.safetensors + clip_l.safetensorsVAEae.safetensorsControlNetFLUX.1-dev-ControlNet-Union-ProPuLIDflux_pulid.safetensorsUpscale4x-ClearRealityV1.pthFace Detectorface_yolov8m.pt
Nota para RTX 5070 / 12GB VRAM: Usa las versiones fp8 de todos los modelos posibles y activa BlockSwap en el nodo ModelSamplingFlux para que el workflow quepa en memoria sin degradar calidad significativamente.
Estructura del Workflow: 4 Fases El workflow se organiza en cuatro grupos encadenados. Los grupos 2, 3 y 4 están desactivados al inicio mediante el nodo Fast Groups Muter (rgthree) — se activan automáticamente en secuencia. Grupo 1 — Generación del Character Sheet Este es el núcleo del workflow. A partir de tu entrada (imagen o prompt), genera una hoja de personaje multivista: el mismo sujeto en múltiples ángulos y poses. Si partes desde texto:
Activa el subgrupo 00_Character Generation Escribe tu prompt describiendo solo al personaje (sin fondos, sin escena) Pon el switch del nodo Multiview a 1
Si partes desde imagen de referencia:
Carga tu imagen en el nodo Load Image — idealmente un retrato frontal, pose A o T, fondo limpio PuLID extrae la identidad facial automáticamente No necesitas describir la cara en el prompt; ya la tiene
La pose sheet (archivo OpenPose incluido en el workflow) actúa como esqueleto guía para ControlNet, generando vistas coherentes a 0°, 45°, 90° y más. Grupo 2 — Upscale + Face Enhancement Una vez generado el character sheet inicial, este grupo:
Aplica 4x-ClearRealityV1 para escalar a alta resolución Pasa por Face Detailer (face_yolov8m.pt) que detecta rostros y los regenera con mayor detalle Corrige artefactos comunes: iris, párpados, proporciones
Parámetro clave: En el nodo de upscale y Face Detailer, el seed debe estar en modo Fixed (no Random). Si lo dejas aleatorio, perderás consistencia entre el character sheet y las imágenes finales.
Grupo 3 — Expresiones Faciales Con el personaje ya definido y escalado, este grupo genera variantes emocionales usando los rasgos extraídos por PuLID:
Expresión neutral Sonrisa Sorpresa Expresión seria
Cada variante mantiene la identidad facial intacta porque PuLID sigue aplicado como condicionamiento. Aquí puedes añadir tus propias variantes modificando los prompts de expresión (Prompt_Emotion_1, Prompt_Emotion_2…). Grupo 4 — Character Sheet Final Compila todas las salidas anteriores en una única hoja de personaje lista para:
Usar como referencia visual en tu proyecto Exportar como dataset para entrenar un LoRA personalizado del personaje Publicar directamente como asset de contenido
Los resultados se guardan en ComfyUI/output/.
Parámetros Clave a Ajustar Estos son los únicos que debes tocar para la mayoría de proyectos: Prompt (Grupo 1) → Describe al personaje. Solo rasgos, ropa, estilo. No describas fondo ni escena.
Denoising strength → 0.20–0.30 en el paso de upscale con Flux. Más alto = más cambios = menos consistencia.
PuLID weight → 0.8–1.0 para máxima fidelidad a la referencia. Bájalo a 0.6 si quieres más variación artística.
ControlNet strength → 0.6–0.8. Controla cuánto respeta la pose sheet. Demasiado alto = rigidez; demasiado bajo = poses rotas.
Seed (Upscale) → SIEMPRE en Fixed. Nunca en Random.
Limitaciones Conocidas Flux vs SDXL: La versión Flux es más lenta y el ControlNet menos robusto que en SDXL. Si tu GPU es limitada o priorizas velocidad, el workflow tiene una versión SDXL (con WildCard XL Turbo) que es significativamente más rápida y da resultados muy similares para la mayoría de estilos. Personajes no humanos: PuLID está entrenado principalmente con caras humanas. Para personajes muy estilizados, animales antropomórficos o criaturas fantásticas con rasgos muy alejados de lo humano, la consistencia baja notablemente. En esos casos, considera entrenar un LoRA específico usando el character sheet generado como dataset. VRAM < 16GB: Activa BlockSwap agresivo y usa exclusivamente modelos fp8. Espera tiempos de generación de 10–20 minutos por ejecución completa del workflow.
Flujo de Trabajo Recomendado para Creadores de Contenido Si tu objetivo es producir contenido en serie (canal de YouTube, cuentas IA, cómics), este es el pipeline más eficiente:
Una sola vez por personaje → Ejecuta el workflow completo y guarda el character sheet Entrena un LoRA con ese dataset (usa Flux Gym o AI Toolkit) — 20–30 imágenes son suficientes Usa el LoRA en tus workflows de generación habituales para mantener consistencia sin necesitar PuLID en cada generación Para variaciones rápidas (nuevas escenas, outfits) → vuelve al workflow con el mismo seed fijo y modifica solo el prompt de escena
Este enfoque te da el mejor balance entre velocidad de producción y fidelidad del personaje a largo plazo.
¿Te ha resultado útil este artículo?
Hablar con MAGUITECH
