Editly
Voltar ao blog
Guia de Prompts do Ideogram 4.0: Do Texto Simples ao Domínio do JSON

Guia de Prompts do Ideogram 4.0: Do Texto Simples ao Domínio do JSON

Aprenda a criar prompts para o Ideogram 4.0 com texto simples e JSON. Cobre a arquitetura de treinamento, estrutura do schema e exemplos práticos para posters, produtos, logos e fotografia.

EditlyEquipe Editly

Ideogram 4.0 é um modelo open-weight de 9,3 bilhões de parâmetros com renderização de texto de ponta, controle de layout por bounding box e condicionamento de paleta de cores. Os pesos estão disponíveis no HuggingFace, o código de inferência está no GitHub, e todo o sistema funciona com um formato de prompting baseado em JSON que confundiu muita gente no lançamento.

Este guia explica por que esse sistema JSON existe, o que cada campo controla, e oferece prompts prontos para copiar e adaptar ao seu trabalho.

Por que o Ideogram 4.0 usa prompts JSON?

A maioria dos modelos de imagem treina com pares (imagem, legenda de texto). A legenda é uma frase em linguagem natural, e o modelo aprende a conectar palavras com conceitos visuais. Funciona, mas cria ambiguidade — quando você escreve "carro vermelho do lado esquerdo de um prédio azul," o modelo precisa descobrir qual cor pertence a qual objeto e o que "lado esquerdo" significa espacialmente.

O Ideogram 4.0 seguiu um caminho diferente. Foi treinado exclusivamente com legendas JSON estruturadas. Cada imagem de treinamento foi pareada com um objeto JSON que separa explicitamente a descrição da cena, os parâmetros de estilo e os elementos individuais com suas posições de bounding box. Segundo a documentação oficial, as legendas de treinamento são "deliberadamente extremamente descritivas" — cada JSON descreve exaustivamente tudo na imagem.

Isso significa que o modelo não adivinha relações espaciais. Uma coordenada de bounding box mapeia diretamente para uma posição treinada, porque o modelo viu milhões de exemplos no mesmo formato de coordenadas. Paletas de cores funcionam da mesma forma: códigos hex no JSON mapeiam para associações de cores treinadas, não interpretações vagas de nomes de cores.

A conclusão prática: prompts JSON desbloqueiam precisão de layout, tipografia e cor que texto simples não consegue igualar. Mas texto simples ainda funciona — a função Magic Prompt do Ideogram usa um LLM para converter sua entrada casual em JSON estruturado antes da geração.

Texto simples vs JSON: a diferença real

Aqui está o mesmo conceito com as duas abordagens:

Texto simples:

A jazz festival poster with bold typography, warm colors, and a saxophone silhouette

JSON:

{"high_level_description":"A vibrant jazz festival poster featuring bold typography and a saxophone silhouette against warm-toned geometric shapes","style_description":{"aesthetics":"retro, grain texture, bold contrast","lighting":"warm stage lighting with amber tones","medium":"graphic_design","art_style":"vintage concert poster with screen-print texture","color_palette":["#E8572A","#F2A03D","#1B1B2F","#F5E6CC","#C2185B"]},"compositional_deconstruction":{"background":"Deep navy blue with subtle radial gradient and halftone dot pattern","elements":[{"type":"text","bbox":[50,100,250,900],"text":"JAZZ\nFESTIVAL","desc":"Large bold sans-serif title in warm orange, slightly tilted 3 degrees clockwise"},{"type":"obj","bbox":[300,200,850,750],"desc":"Golden saxophone silhouette with geometric art deco fragmentation, pieces floating upward"},{"type":"text","bbox":[870,150,950,850],"text":"JUNE 28-30 • RIVERSIDE PARK • TICKETS AT JAZZFEST.COM","desc":"Small caps tracking-wide footer text in cream color"}]}}

Resultado texto simples

Poster de jazz em texto simples — o modelo decide layout, cores e posicionamento do texto por conta própria

Resultado JSON

Mesmo conceito com JSON — paleta controlada, posições precisas do texto, composição intencional

A versão em texto simples produz uma imagem utilizável. A versão JSON te dá um poster onde cada elemento fica exatamente onde você o colocou, nas cores exatas que você especificou.

Schema JSON em resumo

A estrutura completa da legenda tem três campos de nível superior:

Campo Obrigatório O que controla
high_level_description Recomendado Resumo da imagem em 1-2 frases
style_description Opcional Iluminação, meio, estética, paleta de cores
compositional_deconstruction Sim Fundo + elementos individuais com posições

Dentro de style_description, escolha photo (especificações de câmera/lente) ou art_style (estilo de ilustração/design) — nunca ambos.

Cada elemento é tipado como obj (objeto visual) ou text (tipografia na imagem). Bounding boxes usam [y_min, x_min, y_max, x_max] em coordenadas normalizadas de 0–1000. Paletas de cores aceitam até 16 códigos hex globalmente, 5 por elemento.

Template em branco para preencher:

{"high_level_description":"[1-2 sentence summary]","style_description":{"aesthetics":"[mood keywords]","lighting":"[lighting setup]","medium":"[photograph|illustration|3d_render|painting|graphic_design]","art_style":"[style description — OR use photo instead]","color_palette":["#HEXCODE","#HEXCODE"]},"compositional_deconstruction":{"background":"[background/environment description]","elements":[{"type":"obj","bbox":[y_min,x_min,y_max,x_max],"desc":"[detailed element description]"},{"type":"text","bbox":[y_min,x_min,y_max,x_max],"text":"[literal text to render]","desc":"[text styling description]"}]}}

Exemplos de prompt por caso de uso

Posters de eventos

Posters mostram a renderização de texto do Ideogram 4.0 no seu melhor. Múltiplos blocos de texto em posições exatas com tamanhos e estilos diferentes.

{"high_level_description":"A minimalist tech conference poster with clean typography and geometric accents","style_description":{"aesthetics":"clean, modern, Swiss design influenced","lighting":"flat, even studio lighting","medium":"graphic_design","art_style":"minimalist poster design with strong grid structure","color_palette":["#0D0D0D","#FFFFFF","#4ECDC4","#FF6B6B"]},"compositional_deconstruction":{"background":"Pure white background with subtle 12-column grid lines in light gray","elements":[{"type":"text","bbox":[80,60,300,940],"text":"DEVCON\n2026","desc":"Ultra-bold grotesque typeface in black, massive size, tight leading"},{"type":"obj","bbox":[350,100,700,900],"desc":"Abstract geometric composition of overlapping circles and rectangles in teal and coral, suggesting network nodes and connections"},{"type":"text","bbox":[750,60,900,940],"text":"SEPTEMBER 15-17\nSAN FRANCISCO\nREGISTER AT DEVCON.IO","desc":"Light weight mono-spaced text in dark gray, left-aligned, generous line spacing"}]}}

Poster conferência tech

Layout em grade limpo, posicionamento preciso do texto, paleta com duas cores de destaque

Fotografia de produto

Mude para o modo photo com especificações da câmera. O bounding box controla o posicionamento do produto e o espaço negativo.

{"high_level_description":"A premium skincare bottle photographed on a marble surface with soft natural lighting","style_description":{"aesthetics":"editorial, clean, luxury","lighting":"soft diffused window light from upper left, subtle reflection on marble","photo":"85mm f/2.8, shallow depth of field, color-graded","medium":"photograph","color_palette":["#F7F3EE","#D4C5B2","#8B7355","#FFFFFF","#E8DDD3"]},"compositional_deconstruction":{"background":"Polished white marble surface with subtle gray veining, soft gradient to warm cream in the background","elements":[{"type":"obj","bbox":[150,300,850,700],"desc":"Tall frosted glass skincare bottle with minimal gold typography label, cap removed and placed beside the bottle, casting soft shadow to the right"}]}}

Fotografia de produto

Direção da luz controlada, textura de mármore, espaço negativo intencional ao redor do produto

Logos precisam de cores chapadas e bordas limpas. Use art_style para saída em estilo vetorial e mantenha os elementos mínimos.

{"high_level_description":"A modern geometric logo mark for a sustainable energy company","style_description":{"aesthetics":"minimal, geometric, professional","lighting":"flat, no shadows","medium":"graphic_design","art_style":"flat vector logo design, no gradients, clean edges","color_palette":["#2D5F2D","#4CAF50","#FFFFFF"]},"compositional_deconstruction":{"background":"Pure white, no texture","elements":[{"type":"obj","bbox":[200,200,800,800],"desc":"Abstract leaf shape formed by three overlapping chevrons pointing upward, creating a subtle upward arrow in the negative space, rendered in two shades of green"}]}}

Design de logo

Logo em estilo vetorial plano — cores sólidas, sem gradientes, geometria precisa

Fotografia realista

Para fotorrealismo, especificações detalhadas da câmera no campo photo fazem a maior diferença.

{"high_level_description":"A candid street photograph of a woman walking through a rain-soaked Tokyo alley at night","style_description":{"aesthetics":"cinematic, moody, high contrast","lighting":"neon signs reflecting off wet pavement, warm tungsten from shop interiors mixing with cool blue ambient","photo":"35mm f/1.4, shot wide open, rain droplets visible on lens edge, slight motion blur on passing figures","medium":"photograph","color_palette":["#1A1A2E","#E94560","#F5A623","#16213E","#0F3460"]},"compositional_deconstruction":{"background":"Narrow Tokyo back-alley at night, wet asphalt reflecting neon kanji signs, steam rising from a ramen shop vent on the left","elements":[{"type":"obj","bbox":[100,350,900,650],"desc":"Young woman in a dark trench coat holding a transparent umbrella, mid-stride, face partially lit by warm shop light, looking slightly to camera right"},{"type":"obj","bbox":[50,50,400,200],"desc":"Glowing red and pink neon sign with Japanese characters, slightly out of focus due to shallow depth of field"}]}}

Fotografia de rua

Fotografia de rua cinematográfica — reflexos de neon, profundidade de campo reduzida, mix controlado de luz quente e fria

Gráficos para redes sociais

Gráficos sociais frequentemente precisam de texto em negrito com cores da marca. Use bounding boxes largos para o texto do título e mantenha poucos elementos.

{"high_level_description":"An Instagram carousel cover slide announcing a product launch with bold headline and gradient background","style_description":{"aesthetics":"bold, contemporary, startup","lighting":"soft ambient, no harsh shadows","medium":"graphic_design","art_style":"modern social media graphic with rounded corners and soft gradients","color_palette":["#6C5CE7","#A29BFE","#FFFFFF","#DFE6E9","#2D3436"]},"compositional_deconstruction":{"background":"Smooth gradient from deep purple at top-left to soft lavender at bottom-right","elements":[{"type":"text","bbox":[150,100,450,900],"text":"SOMETHING\nBIG IS\nCOMING","desc":"Extra-bold sans-serif headline in white, left-aligned, stacked on three lines with tight leading"},{"type":"text","bbox":[550,100,650,900],"text":"JUNE 30 • 9AM PST • BE FIRST IN LINE","desc":"Medium weight text in light gray, same left alignment as headline"},{"type":"obj","bbox":[700,300,950,700],"desc":"Abstract 3D blob shape in frosted glass material with purple and pink internal refraction, floating with subtle shadow beneath"}]}}

Gráfico para redes sociais

Anúncio de lançamento estilo Instagram — fundo degradê, título empilhado, elemento decorativo 3D

Design de embalagem

Embalagens de produtos se beneficiam do posicionamento preciso do texto e controle consistente de cores da marca.

{"high_level_description":"A flat-lay photograph of artisan chocolate bar packaging on a dark slate surface","style_description":{"aesthetics":"artisan, premium, textured","lighting":"soft overhead light with slight directional warmth from the right","photo":"50mm f/4, even focus across the surface, high color fidelity","medium":"photograph","color_palette":["#2C1810","#D4A574","#F5E6D3","#1A1A1A","#8B6914"]},"compositional_deconstruction":{"background":"Dark charcoal slate surface with subtle texture, scattered cocoa nibs and gold foil fragments around the edges","elements":[{"type":"obj","bbox":[100,150,900,850],"desc":"Rectangular chocolate bar wrapper in matte cream paper with embossed cocoa pod illustration, partially unwrapped to reveal dark chocolate squares, gold foil inner wrapper visible at one end"}]}}

Design de embalagem

Flat-lay de embalagem artesanal — textura da superfície controlada, paleta de cores precisa, sensação premium

Infográficos

Infográficos combinam múltiplos blocos de texto com elementos visuais. Bounding boxes são essenciais aqui — sem eles, a sobreposição de texto é praticamente garantida.

{"high_level_description":"A vertical infographic showing 4 steps of a morning routine with icons and numbered labels","style_description":{"aesthetics":"friendly, clean, informational","lighting":"flat, no shadows","medium":"graphic_design","art_style":"flat illustration style with rounded shapes and soft colors","color_palette":["#FF9F43","#54A0FF","#5F27CD","#10AC84","#F8F9FA"]},"compositional_deconstruction":{"background":"Light warm gray, clean and minimal","elements":[{"type":"text","bbox":[30,100,120,900],"text":"YOUR PERFECT\nMORNING ROUTINE","desc":"Bold rounded sans-serif header in dark purple, centered"},{"type":"obj","bbox":[140,50,350,450],"desc":"Circular icon of a glass of water with lemon slice, numbered 01 in orange beside it"},{"type":"text","bbox":[160,500,330,950],"text":"HYDRATE FIRST\nDrink 500ml water before coffee","desc":"Left-aligned text, title in bold dark, subtitle in medium gray"},{"type":"obj","bbox":[370,50,580,450],"desc":"Circular icon of a person stretching, numbered 02 in blue beside it"},{"type":"text","bbox":[390,500,560,950],"text":"MOVE YOUR BODY\n10 minutes of stretching or yoga","desc":"Left-aligned text, title in bold dark, subtitle in medium gray"},{"type":"obj","bbox":[600,50,810,450],"desc":"Circular icon of a journal and pen, numbered 03 in purple beside it"},{"type":"text","bbox":[620,500,790,950],"text":"WRITE 3 GOALS\nPrioritize before checking email","desc":"Left-aligned text, title in bold dark, subtitle in medium gray"},{"type":"obj","bbox":[830,50,950,450],"desc":"Circular icon of a healthy breakfast bowl, numbered 04 in green beside it"},{"type":"text","bbox":[840,500,940,950],"text":"EAT WELL\nProtein-rich breakfast, no sugar","desc":"Left-aligned text, title in bold dark, subtitle in medium gray"}]}}

Infográfico

Infográfico estruturado — cada bloco de texto e ícone tem seu próprio bounding box para evitar sobreposições

Character design

Conceitos de personagens funcionam bem com campos desc detalhados e uma paleta de cores restrita para consistência visual.

{"high_level_description":"A character design sheet for a cyberpunk courier, showing front and side view on a neutral background","style_description":{"aesthetics":"cyberpunk, detailed, concept art","lighting":"soft studio rim light with cyan accent from the left","medium":"illustration","art_style":"semi-realistic character concept art, clean linework with cel shading","color_palette":["#0D1B2A","#1B3A5C","#00E5FF","#FF6B35","#E0E0E0"]},"compositional_deconstruction":{"background":"Flat medium gray background with subtle grid, suitable for character turnaround sheet","elements":[{"type":"obj","bbox":[50,50,950,480],"desc":"Front view of a young woman in a fitted dark navy tactical jacket with glowing cyan piping along the seams, cargo pants with orange accent straps, short asymmetric black hair with one cyan-highlighted strand, wearing augmented reality goggles pushed up on forehead"},{"type":"obj","bbox":[50,520,950,950],"desc":"Three-quarter side view of the same character, showing a messenger bag with holographic patches on the back, utility belt visible, boots with magnetic soles, same outfit and color scheme as front view"}]}}

Character design

Prancha de conceito do personagem — design consistente entre as vistas usando uma paleta de cores fixa

Magic Prompt: o modo fácil

Nem todo mundo quer escrever JSON à mão. O Ideogram 4.0 inclui Magic Prompt — um LLM que expande a entrada em texto simples para uma legenda JSON completa antes da geração.

Digite "a cozy coffee shop interior with morning light" e o Magic Prompt produz um JSON completo com descrição de estilo, elementos, paleta de cores e bounding boxes. Para exploração geral e ideação rápida, ele faz o trabalho pesado.

Use Magic Prompt quando:

  • Explorar ideias rapidamente
  • A precisão do layout não importa
  • Você quer que o modelo tome decisões criativas

Escreva JSON manualmente quando:

  • Designs com muita tipografia (posters, gráficos sociais, embalagens)
  • Saída consistente com a marca exigindo códigos hex exatos
  • Fotografia de produto com composição específica
  • Múltiplos elementos que não devem se sobrepor

Erros comuns e como evitá-los

Ordem do bounding box errada. O formato é [y_min, x_min, y_max, x_max] — Y vem primeiro, não X. Inverter isso coloca os elementos em posições inesperadas.

Usar photo e art_style ao mesmo tempo. Escolha um. Esses campos são mutuamente exclusivos nos dados de treinamento — incluir ambos degrada a qualidade da saída.

Ordem dos campos embaralhada. O modelo foi treinado com uma sequência rigorosa de campos. Coloque aestheticslightingmediumart_style/photocolor_palette. Nos elementos: typebboxdesc (ou textdesc para elementos de texto).

Códigos hex abreviados. #FFF é inválido. Sempre use o formato completo de seis caracteres em maiúsculas: #FFFFFF.

Bounding boxes de texto sobrepostos. Dois elementos de texto compartilhando a mesma região renderizam mal. Dê a cada bloco de texto uma área distinta e não sobreposta.

Especificar demais para cenas simples. Um high_level_description detalhado com controles de estilo geralmente é suficiente. Reserve bounding boxes e composições com múltiplos elementos para quando você realmente precisar de precisão espacial.

Perguntas frequentes

Preciso usar JSON para ter bons resultados?

Não. Texto simples funciona, especialmente com Magic Prompt. JSON te dá controle sobre layout, cores e posicionamento de texto que texto simples não consegue oferecer — mas para geração de imagens geral sem necessidades rígidas de composição, texto simples está ótimo.

Quantas cores posso colocar em uma paleta?

Até 16 códigos hex na paleta global style_description, 5 por elemento individual. Eles direcionam as cores dominantes mas não são garantias exatas — pense neles como sugestões fortes para o modelo.

Qual resolução o Ideogram 4.0 suporta?

Qualquer resolução de 256×256 a 2048×2048, em múltiplos de 16 pixels. Para melhor qualidade rodando localmente, use 2048×2048 com o preset de sampler V4_QUALITY_48.

Qual a diferença para o Ideogram 3.0?

O Ideogram 4.0 é open-weight (3.0 era apenas API), usa treinamento JSON estruturado em vez de linguagem natural, e tem renderização de texto significativamente melhorada. O layout por bounding box e o condicionamento de paleta de cores são novidades da versão 4.0.

Posso rodar o Ideogram 4.0 localmente?

Sim. Os checkpoints fp8 e nf4 estão no HuggingFace. A versão fp8 precisa de uma GPU com pelo menos 24GB de VRAM. O ComfyUI tem nós da comunidade incluindo o prompt composer do KJ que simplifica a construção do JSON.

Onde posso usar o Ideogram 4.0 online?

O Editly suporta o Ideogram 4.0 com entrada tanto em texto simples quanto em JSON. A plataforma oficial do Ideogram também oferece através da API e interface web.