Editly
Volver al blog
Guía de prompts de Ideogram 4.0: del texto plano al dominio del JSON

Guía de prompts de Ideogram 4.0: del texto plano al dominio del JSON

Aprende a formular prompts para Ideogram 4.0 con texto plano y JSON. Cubre la arquitectura de entrenamiento detrás de las captions JSON y ejemplos de prompts para pósteres, fotos de producto, logos y fotografía.

EditlyEquipo de Editly

Ideogram 4.0 es un modelo de generación de imágenes open-weight de 9.300 millones de parámetros con renderizado de texto de vanguardia, control de diseño mediante bounding box y condicionamiento por paleta de colores. Los pesos están disponibles en HuggingFace, el código de inferencia está en GitHub, y todo el sistema funciona con un formato de prompts basado en JSON que desconcertó a muchos cuando se lanzó.

Esta guía explica por qué existe este sistema JSON, qué controla cada campo, y te ofrece prompts que puedes copiar y adaptar para tu trabajo.

¿Por qué Ideogram 4.0 usa prompts en JSON?

La mayoría de los modelos de imagen se entrenan con pares (imagen, descripción de texto). La descripción es una frase en lenguaje natural, y el modelo aprende a conectar palabras con conceptos visuales. Funciona, pero genera ambigüedad — cuando escribes "coche rojo a la izquierda de un edificio azul", el modelo tiene que adivinar qué color corresponde a qué objeto y qué significa "a la izquierda" espacialmente.

Ideogram 4.0 tomó un camino diferente. Fue entrenado exclusivamente con descripciones JSON estructuradas. Cada imagen de entrenamiento se emparejó con un objeto JSON que separa explícitamente la descripción de la escena, los parámetros de estilo y los elementos individuales con sus posiciones en bounding box. Según la documentación oficial, las descripciones de entrenamiento son "deliberadamente extremadamente descriptivas" — cada JSON describe exhaustivamente todo lo que hay en la imagen.

Esto significa que el modelo no necesita adivinar relaciones espaciales. Una coordenada de bounding box se mapea directamente a una posición entrenada porque el modelo vio millones de ejemplos en el mismo formato de coordenadas. Las paletas de colores funcionan igual: los códigos hex en el JSON se mapean a asociaciones de colores entrenadas, no a interpretaciones vagas de nombres de colores.

La conclusión práctica: los prompts JSON desbloquean una precisión de diseño, tipografía y color que el texto plano no puede igualar. Pero el texto plano también funciona — la función Magic Prompt de Ideogram usa un LLM para convertir tu entrada casual en JSON estructurado antes de la generación.

Texto plano vs JSON: la diferencia real

Aquí está el mismo concepto formulado de ambas formas:

Texto plano:

A jazz festival poster with bold typography, warm colors, and a saxophone silhouette

JSON:

{"high_level_description":"A vibrant jazz festival poster featuring bold typography and a saxophone silhouette against warm-toned geometric shapes","style_description":{"aesthetics":"retro, grain texture, bold contrast","lighting":"warm stage lighting with amber tones","medium":"graphic_design","art_style":"vintage concert poster with screen-print texture","color_palette":["#E8572A","#F2A03D","#1B1B2F","#F5E6CC","#C2185B"]},"compositional_deconstruction":{"background":"Deep navy blue with subtle radial gradient and halftone dot pattern","elements":[{"type":"text","bbox":[50,100,250,900],"text":"JAZZ\nFESTIVAL","desc":"Large bold sans-serif title in warm orange, slightly tilted 3 degrees clockwise"},{"type":"obj","bbox":[300,200,850,750],"desc":"Golden saxophone silhouette with geometric art deco fragmentation, pieces floating upward"},{"type":"text","bbox":[870,150,950,850],"text":"JUNE 28-30 • RIVERSIDE PARK • TICKETS AT JAZZFEST.COM","desc":"Small caps tracking-wide footer text in cream color"}]}}

Resultado texto plano

Póster de jazz en texto plano — el modelo decide por sí mismo el diseño, los colores y la ubicación del texto

Resultado JSON

Mismo concepto con JSON — paleta controlada, posiciones de texto precisas, composición intencional

La versión en texto plano produce una imagen utilizable. La versión JSON te da un póster donde cada elemento está exactamente donde lo colocaste, en los colores exactos que especificaste.

Esquema JSON de un vistazo

La estructura completa de caption tiene tres campos de primer nivel:

Campo Requerido Qué controla
high_level_description Recomendado Resumen de la imagen en 1-2 frases
style_description Opcional Iluminación, medio, estética, paleta de colores
compositional_deconstruction Fondo + elementos individuales con posiciones

Dentro de style_description, eliges photo (especificaciones de cámara/objetivo) o art_style (estilo de ilustración/diseño) — nunca ambos.

Cada elemento se tipifica como obj (objeto visual) o text (tipografía dentro de la imagen). Las bounding boxes usan [y_min, x_min, y_max, x_max] en coordenadas normalizadas 0–1000. Las paletas de colores aceptan hasta 16 códigos hex globalmente, 5 por elemento.

Plantilla en blanco para rellenar:

{"high_level_description":"[1-2 sentence summary]","style_description":{"aesthetics":"[mood keywords]","lighting":"[lighting setup]","medium":"[photograph|illustration|3d_render|painting|graphic_design]","art_style":"[style description — OR use photo instead]","color_palette":["#HEXCODE","#HEXCODE"]},"compositional_deconstruction":{"background":"[background/environment description]","elements":[{"type":"obj","bbox":[y_min,x_min,y_max,x_max],"desc":"[detailed element description]"},{"type":"text","bbox":[y_min,x_min,y_max,x_max],"text":"[literal text to render]","desc":"[text styling description]"}]}}

Ejemplos de prompts por caso de uso

Pósteres de eventos

Los pósteres muestran el renderizado de texto de Ideogram 4.0 en su máxima expresión. Múltiples bloques de texto en posiciones exactas con diferentes tamaños y estilos.

{"high_level_description":"A minimalist tech conference poster with clean typography and geometric accents","style_description":{"aesthetics":"clean, modern, Swiss design influenced","lighting":"flat, even studio lighting","medium":"graphic_design","art_style":"minimalist poster design with strong grid structure","color_palette":["#0D0D0D","#FFFFFF","#4ECDC4","#FF6B6B"]},"compositional_deconstruction":{"background":"Pure white background with subtle 12-column grid lines in light gray","elements":[{"type":"text","bbox":[80,60,300,940],"text":"DEVCON\n2026","desc":"Ultra-bold grotesque typeface in black, massive size, tight leading"},{"type":"obj","bbox":[350,100,700,900],"desc":"Abstract geometric composition of overlapping circles and rectangles in teal and coral, suggesting network nodes and connections"},{"type":"text","bbox":[750,60,900,940],"text":"SEPTEMBER 15-17\nSAN FRANCISCO\nREGISTER AT DEVCON.IO","desc":"Light weight mono-spaced text in dark gray, left-aligned, generous line spacing"}]}}

Póster conferencia tech

Diseño en cuadrícula limpio, colocación precisa del texto, paleta de acento bicolor controlada

Fotografía de producto

Cambia al modo photo con especificaciones de cámara. La bounding box controla la colocación del producto y el espacio negativo.

{"high_level_description":"A premium skincare bottle photographed on a marble surface with soft natural lighting","style_description":{"aesthetics":"editorial, clean, luxury","lighting":"soft diffused window light from upper left, subtle reflection on marble","photo":"85mm f/2.8, shallow depth of field, color-graded","medium":"photograph","color_palette":["#F7F3EE","#D4C5B2","#8B7355","#FFFFFF","#E8DDD3"]},"compositional_deconstruction":{"background":"Polished white marble surface with subtle gray veining, soft gradient to warm cream in the background","elements":[{"type":"obj","bbox":[150,300,850,700],"desc":"Tall frosted glass skincare bottle with minimal gold typography label, cap removed and placed beside the bottle, casting soft shadow to the right"}]}}

Fotografía de producto

Dirección de iluminación controlada, textura de mármol, espacio negativo intencional alrededor del producto

Los logos necesitan colores planos y bordes limpios. Usa art_style para una salida tipo vectorial y mantén los elementos al mínimo.

{"high_level_description":"A modern geometric logo mark for a sustainable energy company","style_description":{"aesthetics":"minimal, geometric, professional","lighting":"flat, no shadows","medium":"graphic_design","art_style":"flat vector logo design, no gradients, clean edges","color_palette":["#2D5F2D","#4CAF50","#FFFFFF"]},"compositional_deconstruction":{"background":"Pure white, no texture","elements":[{"type":"obj","bbox":[200,200,800,800],"desc":"Abstract leaf shape formed by three overlapping chevrons pointing upward, creating a subtle upward arrow in the negative space, rendered in two shades of green"}]}}

Diseño de logo

Logo vectorial plano — colores sólidos, sin degradados, geometría precisa

Fotografía realista

Para el fotorrealismo, las especificaciones detalladas de la cámara en el campo photo marcan la mayor diferencia.

{"high_level_description":"A candid street photograph of a woman walking through a rain-soaked Tokyo alley at night","style_description":{"aesthetics":"cinematic, moody, high contrast","lighting":"neon signs reflecting off wet pavement, warm tungsten from shop interiors mixing with cool blue ambient","photo":"35mm f/1.4, shot wide open, rain droplets visible on lens edge, slight motion blur on passing figures","medium":"photograph","color_palette":["#1A1A2E","#E94560","#F5A623","#16213E","#0F3460"]},"compositional_deconstruction":{"background":"Narrow Tokyo back-alley at night, wet asphalt reflecting neon kanji signs, steam rising from a ramen shop vent on the left","elements":[{"type":"obj","bbox":[100,350,900,650],"desc":"Young woman in a dark trench coat holding a transparent umbrella, mid-stride, face partially lit by warm shop light, looking slightly to camera right"},{"type":"obj","bbox":[50,50,400,200],"desc":"Glowing red and pink neon sign with Japanese characters, slightly out of focus due to shallow depth of field"}]}}

Fotografía callejera

Fotografía callejera cinematográfica — reflejos de neón, poca profundidad de campo, mezcla controlada de luz cálida/fría

Gráficos para redes sociales

Los gráficos sociales suelen necesitar texto en negrita con colores de marca. Usa bounding boxes amplias para el texto del titular y mantén bajo el número de elementos.

{"high_level_description":"An Instagram carousel cover slide announcing a product launch with bold headline and gradient background","style_description":{"aesthetics":"bold, contemporary, startup","lighting":"soft ambient, no harsh shadows","medium":"graphic_design","art_style":"modern social media graphic with rounded corners and soft gradients","color_palette":["#6C5CE7","#A29BFE","#FFFFFF","#DFE6E9","#2D3436"]},"compositional_deconstruction":{"background":"Smooth gradient from deep purple at top-left to soft lavender at bottom-right","elements":[{"type":"text","bbox":[150,100,450,900],"text":"SOMETHING\nBIG IS\nCOMING","desc":"Extra-bold sans-serif headline in white, left-aligned, stacked on three lines with tight leading"},{"type":"text","bbox":[550,100,650,900],"text":"JUNE 30 • 9AM PST • BE FIRST IN LINE","desc":"Medium weight text in light gray, same left alignment as headline"},{"type":"obj","bbox":[700,300,950,700],"desc":"Abstract 3D blob shape in frosted glass material with purple and pink internal refraction, floating with subtle shadow beneath"}]}}

Gráfico redes sociales

Anuncio de lanzamiento estilo Instagram — fondo degradado, titular apilado, elemento de acento 3D

Diseño de packaging

El packaging de productos se beneficia de la colocación precisa del texto y el control de color consistente con la marca.

{"high_level_description":"A flat-lay photograph of artisan chocolate bar packaging on a dark slate surface","style_description":{"aesthetics":"artisan, premium, textured","lighting":"soft overhead light with slight directional warmth from the right","photo":"50mm f/4, even focus across the surface, high color fidelity","medium":"photograph","color_palette":["#2C1810","#D4A574","#F5E6D3","#1A1A1A","#8B6914"]},"compositional_deconstruction":{"background":"Dark charcoal slate surface with subtle texture, scattered cocoa nibs and gold foil fragments around the edges","elements":[{"type":"obj","bbox":[100,150,900,850],"desc":"Rectangular chocolate bar wrapper in matte cream paper with embossed cocoa pod illustration, partially unwrapped to reveal dark chocolate squares, gold foil inner wrapper visible at one end"}]}}

Diseño de packaging

Packaging artesanal en flat-lay — textura de superficie controlada, paleta de colores precisa, sensación premium

Infografías

Las infografías combinan múltiples bloques de texto con elementos visuales. Las bounding boxes son fundamentales aquí — sin ellas, los solapamientos de texto están prácticamente garantizados.

{"high_level_description":"A vertical infographic showing 4 steps of a morning routine with icons and numbered labels","style_description":{"aesthetics":"friendly, clean, informational","lighting":"flat, no shadows","medium":"graphic_design","art_style":"flat illustration style with rounded shapes and soft colors","color_palette":["#FF9F43","#54A0FF","#5F27CD","#10AC84","#F8F9FA"]},"compositional_deconstruction":{"background":"Light warm gray, clean and minimal","elements":[{"type":"text","bbox":[30,100,120,900],"text":"YOUR PERFECT\nMORNING ROUTINE","desc":"Bold rounded sans-serif header in dark purple, centered"},{"type":"obj","bbox":[140,50,350,450],"desc":"Circular icon of a glass of water with lemon slice, numbered 01 in orange beside it"},{"type":"text","bbox":[160,500,330,950],"text":"HYDRATE FIRST\nDrink 500ml water before coffee","desc":"Left-aligned text, title in bold dark, subtitle in medium gray"},{"type":"obj","bbox":[370,50,580,450],"desc":"Circular icon of a person stretching, numbered 02 in blue beside it"},{"type":"text","bbox":[390,500,560,950],"text":"MOVE YOUR BODY\n10 minutes of stretching or yoga","desc":"Left-aligned text, title in bold dark, subtitle in medium gray"},{"type":"obj","bbox":[600,50,810,450],"desc":"Circular icon of a journal and pen, numbered 03 in purple beside it"},{"type":"text","bbox":[620,500,790,950],"text":"WRITE 3 GOALS\nPrioritize before checking email","desc":"Left-aligned text, title in bold dark, subtitle in medium gray"},{"type":"obj","bbox":[830,50,950,450],"desc":"Circular icon of a healthy breakfast bowl, numbered 04 in green beside it"},{"type":"text","bbox":[840,500,940,950],"text":"EAT WELL\nProtein-rich breakfast, no sugar","desc":"Left-aligned text, title in bold dark, subtitle in medium gray"}]}}

Infografía

Infografía estructurada — cada bloque de texto e icono tiene su propia bounding box para evitar solapamientos

Diseño de personajes

Los conceptos de personajes funcionan bien con campos desc detallados y una paleta de colores restringida para mantener la coherencia visual.

{"high_level_description":"A character design sheet for a cyberpunk courier, showing front and side view on a neutral background","style_description":{"aesthetics":"cyberpunk, detailed, concept art","lighting":"soft studio rim light with cyan accent from the left","medium":"illustration","art_style":"semi-realistic character concept art, clean linework with cel shading","color_palette":["#0D1B2A","#1B3A5C","#00E5FF","#FF6B35","#E0E0E0"]},"compositional_deconstruction":{"background":"Flat medium gray background with subtle grid, suitable for character turnaround sheet","elements":[{"type":"obj","bbox":[50,50,950,480],"desc":"Front view of a young woman in a fitted dark navy tactical jacket with glowing cyan piping along the seams, cargo pants with orange accent straps, short asymmetric black hair with one cyan-highlighted strand, wearing augmented reality goggles pushed up on forehead"},{"type":"obj","bbox":[50,520,950,950],"desc":"Three-quarter side view of the same character, showing a messenger bag with holographic patches on the back, utility belt visible, boots with magnetic soles, same outfit and color scheme as front view"}]}}

Diseño de personaje

Hoja de concepto de personaje — diseño coherente en múltiples vistas usando una paleta de colores fija

Magic Prompt: el modo fácil

No todo el mundo quiere escribir JSON a mano. Ideogram 4.0 incluye Magic Prompt — un LLM que expande la entrada en texto plano a una caption JSON completa antes de la generación.

Escribe "a cozy coffee shop interior with morning light" y Magic Prompt produce un JSON completo con descripción de estilo, elementos, paleta de colores y bounding boxes. Para exploración general e ideación rápida, se encarga del trabajo pesado.

Usa Magic Prompt cuando:

  • Explores ideas rápidamente
  • La precisión del diseño no importa
  • Quieres que el modelo tome las decisiones creativas

Escribe JSON manualmente cuando:

  • Diseños con mucha tipografía (pósteres, gráficos sociales, packaging)
  • Se necesita una salida consistente con la marca con colores hex exactos
  • Fotografía de producto con composición específica
  • Múltiples elementos que no deben solaparse

Errores comunes y cómo evitarlos

Orden incorrecto de la bounding box. El formato es [y_min, x_min, y_max, x_max] — Y va primero, no X. Invertir esto coloca los elementos en posiciones inesperadas.

Usar photo y art_style a la vez. Elige uno. Estos campos son mutuamente excluyentes en los datos de entrenamiento — incluir ambos degrada la calidad de salida.

Orden de claves desordenado. El modelo fue entrenado con una secuencia de campos estricta. Coloca aestheticslightingmediumart_style/photocolor_palette. En elementos: typebboxdesc (o textdesc para elementos de texto).

Códigos hex abreviados. #FFF no es válido. Usa siempre códigos hex completos de seis caracteres en mayúsculas: #FFFFFF.

Bounding boxes de texto superpuestas. Dos elementos de texto que comparten la misma zona se renderizarán mal. Asigna a cada bloque de texto un área distinta y sin solapamiento.

Sobre-especificar escenas simples. Una high_level_description detallada con controles de estilo suele ser suficiente. Reserva las bounding boxes y las composiciones multi-elemento para cuando realmente necesites precisión espacial.

Preguntas frecuentes

¿Tengo que usar JSON para obtener buenos resultados?

No. El texto plano funciona, especialmente con Magic Prompt. JSON te da control sobre el diseño, los colores y la colocación del texto que el texto plano no puede ofrecer — pero para generación general de imágenes sin requisitos estrictos de composición, el texto plano es suficiente.

¿Cuántos colores puedo poner en una paleta?

Hasta 16 códigos hex en la paleta global style_description, 5 por elemento individual. Estos orientan los colores dominantes pero no son garantías exactas — piensa en ellos como sugerencias fuertes para el modelo.

¿Qué resolución soporta Ideogram 4.0?

Cualquier resolución desde 256×256 hasta 2048×2048, en múltiplos de 16 píxeles. Para la mejor calidad al ejecutarlo localmente, usa 2048×2048 con el preset de sampler V4_QUALITY_48.

¿En qué se diferencia de Ideogram 3.0?

Ideogram 4.0 es open-weight (3.0 era solo API), usa entrenamiento estructurado en JSON en lugar de lenguaje natural, y tiene un renderizado de texto significativamente mejorado. El control de diseño por bounding box y el condicionamiento por paleta de colores son nuevos en la versión 4.0.

¿Puedo ejecutar Ideogram 4.0 en local?

Sí. Los checkpoints fp8 y nf4 están en HuggingFace. La versión fp8 necesita una GPU con al menos 24 GB de VRAM. ComfyUI tiene nodos comunitarios, incluyendo el compositor de prompts de KJ que simplifica la construcción del JSON.

¿Dónde puedo usar Ideogram 4.0 en línea?

Editly soporta Ideogram 4.0 con entrada tanto en texto plano como en JSON. La plataforma oficial de Ideogram también lo ofrece a través de su API e interfaz web.