Editly
Torna al blog
Guida ai Prompt di Ideogram 4.0: Dal Testo Libero alla Padronanza del JSON

Guida ai Prompt di Ideogram 4.0: Dal Testo Libero alla Padronanza del JSON

Impara a creare prompt per Ideogram 4.0 con testo libero e JSON. Copre l'architettura di addestramento, la struttura dello schema e esempi pratici per poster, prodotti, loghi e fotografia.

EditlyTeam Editly

Ideogram 4.0 è un modello open-weight da 9,3 miliardi di parametri con rendering del testo allo stato dell'arte, controllo del layout tramite bounding box e condizionamento della palette colori. I pesi sono disponibili su HuggingFace, il codice di inferenza si trova su GitHub, e l'intero sistema si basa su un formato di prompting JSON che ha disorientato molti al suo debutto.

Questa guida spiega perché esiste questo sistema JSON, cosa controlla ogni campo, e offre prompt pronti da copiare e adattare per il tuo lavoro.

Perché Ideogram 4.0 usa prompt JSON?

La maggior parte dei modelli di generazione immagini si addestra su coppie (immagine, didascalia testuale). La didascalia è una frase in linguaggio naturale, e il modello impara a collegare le parole ai concetti visivi. Funziona, ma crea ambiguità — quando scrivi "auto rossa sul lato sinistro di un edificio blu," il modello deve capire quale colore appartiene a quale oggetto e cosa significa "lato sinistro" nello spazio.

Ideogram 4.0 è stato addestrato esclusivamente su didascalie JSON strutturate. Ogni immagine di addestramento era accoppiata con un oggetto JSON che separa esplicitamente la descrizione della scena, i parametri di stile e i singoli elementi con le loro posizioni tramite bounding box. Secondo la documentazione ufficiale, le didascalie di addestramento sono "deliberatamente estremamente descrittive" — ogni JSON descrive esaustivamente tutto ciò che è presente nell'immagine.

Questo design significa che il modello non indovina le relazioni spaziali. Una coordinata di bounding box corrisponde direttamente a una posizione appresa, perché il modello ha visto milioni di esempi nello stesso formato. Le palette colori funzionano allo stesso modo: i codici hex nel JSON corrispondono ad associazioni cromatiche apprese, non a interpretazioni vaghe dei nomi dei colori.

La conclusione pratica: i prompt JSON sbloccano una precisione di layout, tipografia e colore che il testo libero non può eguagliare. Ma il testo libero funziona comunque — la funzione Magic Prompt di Ideogram usa un LLM per convertire il tuo input casuale in JSON strutturato prima della generazione.

Testo libero vs JSON: la differenza reale

Ecco lo stesso concetto espresso in entrambi i modi:

Testo libero:

A jazz festival poster with bold typography, warm colors, and a saxophone silhouette

JSON:

{"high_level_description":"A vibrant jazz festival poster featuring bold typography and a saxophone silhouette against warm-toned geometric shapes","style_description":{"aesthetics":"retro, grain texture, bold contrast","lighting":"warm stage lighting with amber tones","medium":"graphic_design","art_style":"vintage concert poster with screen-print texture","color_palette":["#E8572A","#F2A03D","#1B1B2F","#F5E6CC","#C2185B"]},"compositional_deconstruction":{"background":"Deep navy blue with subtle radial gradient and halftone dot pattern","elements":[{"type":"text","bbox":[50,100,250,900],"text":"JAZZ\nFESTIVAL","desc":"Large bold sans-serif title in warm orange, slightly tilted 3 degrees clockwise"},{"type":"obj","bbox":[300,200,850,750],"desc":"Golden saxophone silhouette with geometric art deco fragmentation, pieces floating upward"},{"type":"text","bbox":[870,150,950,850],"text":"JUNE 28-30 • RIVERSIDE PARK • TICKETS AT JAZZFEST.COM","desc":"Small caps tracking-wide footer text in cream color"}]}}

Risultato testo libero

Poster jazz da testo libero — il modello decide autonomamente layout, colori e posizione del testo

Risultato JSON

Stesso concetto con JSON — palette controllata, posizioni precise del testo, composizione intenzionale

La versione in testo libero produce un'immagine utilizzabile. La versione JSON ti dà un poster dove ogni elemento si trova esattamente dove lo hai posizionato, nei colori esatti che hai specificato.

Schema JSON a colpo d'occhio

La struttura completa della didascalia ha tre campi di primo livello:

Campo Obbligatorio Cosa controlla
high_level_description Consigliato Riassunto dell'immagine in 1-2 frasi
style_description Opzionale Illuminazione, medium, estetica, palette colori
compositional_deconstruction Sfondo + elementi individuali con posizioni

All'interno di style_description, scegli photo (specifiche fotocamera/obiettivo) oppure art_style (stile illustrazione/design) — mai entrambi.

Ogni elemento è tipizzato come obj (oggetto visivo) o text (testo nell'immagine). I bounding box usano il formato [y_min, x_min, y_max, x_max] in coordinate normalizzate 0–1000. Le palette colori accettano fino a 16 codici hex globalmente, 5 per elemento.

Template vuoto da compilare:

{"high_level_description":"[1-2 sentence summary]","style_description":{"aesthetics":"[mood keywords]","lighting":"[lighting setup]","medium":"[photograph|illustration|3d_render|painting|graphic_design]","art_style":"[style description — OR use photo instead]","color_palette":["#HEXCODE","#HEXCODE"]},"compositional_deconstruction":{"background":"[background/environment description]","elements":[{"type":"obj","bbox":[y_min,x_min,y_max,x_max],"desc":"[detailed element description]"},{"type":"text","bbox":[y_min,x_min,y_max,x_max],"text":"[literal text to render]","desc":"[text styling description]"}]}}

Esempi di prompt per caso d'uso

Poster per eventi

I poster mettono in mostra il rendering del testo di Ideogram 4.0 al meglio. Più blocchi di testo in posizioni esatte con dimensioni e stili diversi.

{"high_level_description":"A minimalist tech conference poster with clean typography and geometric accents","style_description":{"aesthetics":"clean, modern, Swiss design influenced","lighting":"flat, even studio lighting","medium":"graphic_design","art_style":"minimalist poster design with strong grid structure","color_palette":["#0D0D0D","#FFFFFF","#4ECDC4","#FF6B6B"]},"compositional_deconstruction":{"background":"Pure white background with subtle 12-column grid lines in light gray","elements":[{"type":"text","bbox":[80,60,300,940],"text":"DEVCON\n2026","desc":"Ultra-bold grotesque typeface in black, massive size, tight leading"},{"type":"obj","bbox":[350,100,700,900],"desc":"Abstract geometric composition of overlapping circles and rectangles in teal and coral, suggesting network nodes and connections"},{"type":"text","bbox":[750,60,900,940],"text":"SEPTEMBER 15-17\nSAN FRANCISCO\nREGISTER AT DEVCON.IO","desc":"Light weight mono-spaced text in dark gray, left-aligned, generous line spacing"}]}}

Poster conferenza tech

Layout a griglia pulito, posizionamento preciso del testo, palette con due colori accentuati

Fotografia di prodotto

Passa alla modalità photo con le specifiche della fotocamera. Il bounding box controlla il posizionamento del prodotto e lo spazio negativo.

{"high_level_description":"A premium skincare bottle photographed on a marble surface with soft natural lighting","style_description":{"aesthetics":"editorial, clean, luxury","lighting":"soft diffused window light from upper left, subtle reflection on marble","photo":"85mm f/2.8, shallow depth of field, color-graded","medium":"photograph","color_palette":["#F7F3EE","#D4C5B2","#8B7355","#FFFFFF","#E8DDD3"]},"compositional_deconstruction":{"background":"Polished white marble surface with subtle gray veining, soft gradient to warm cream in the background","elements":[{"type":"obj","bbox":[150,300,850,700],"desc":"Tall frosted glass skincare bottle with minimal gold typography label, cap removed and placed beside the bottle, casting soft shadow to the right"}]}}

Fotografia di prodotto

Direzione della luce controllata, texture marmo, spazio negativo intenzionale attorno al prodotto

I loghi richiedono colori piatti e bordi netti. Usa art_style per un output in stile vettoriale e mantieni gli elementi minimali.

{"high_level_description":"A modern geometric logo mark for a sustainable energy company","style_description":{"aesthetics":"minimal, geometric, professional","lighting":"flat, no shadows","medium":"graphic_design","art_style":"flat vector logo design, no gradients, clean edges","color_palette":["#2D5F2D","#4CAF50","#FFFFFF"]},"compositional_deconstruction":{"background":"Pure white, no texture","elements":[{"type":"obj","bbox":[200,200,800,800],"desc":"Abstract leaf shape formed by three overlapping chevrons pointing upward, creating a subtle upward arrow in the negative space, rendered in two shades of green"}]}}

Design del logo

Logo in stile vettoriale piatto — colori solidi, nessun gradiente, geometria precisa

Fotografia realistica

Per il fotorealismo, le specifiche dettagliate della fotocamera nel campo photo fanno la differenza più grande.

{"high_level_description":"A candid street photograph of a woman walking through a rain-soaked Tokyo alley at night","style_description":{"aesthetics":"cinematic, moody, high contrast","lighting":"neon signs reflecting off wet pavement, warm tungsten from shop interiors mixing with cool blue ambient","photo":"35mm f/1.4, shot wide open, rain droplets visible on lens edge, slight motion blur on passing figures","medium":"photograph","color_palette":["#1A1A2E","#E94560","#F5A623","#16213E","#0F3460"]},"compositional_deconstruction":{"background":"Narrow Tokyo back-alley at night, wet asphalt reflecting neon kanji signs, steam rising from a ramen shop vent on the left","elements":[{"type":"obj","bbox":[100,350,900,650],"desc":"Young woman in a dark trench coat holding a transparent umbrella, mid-stride, face partially lit by warm shop light, looking slightly to camera right"},{"type":"obj","bbox":[50,50,400,200],"desc":"Glowing red and pink neon sign with Japanese characters, slightly out of focus due to shallow depth of field"}]}}

Fotografia di strada

Fotografia di strada cinematografica — riflessi al neon, profondità di campo ridotta, mix controllato di luci calde e fredde

Grafiche per social media

Le grafiche social spesso richiedono testo in grassetto con colori del brand. Usa bounding box ampi per il testo del titolo e mantieni basso il numero di elementi.

{"high_level_description":"An Instagram carousel cover slide announcing a product launch with bold headline and gradient background","style_description":{"aesthetics":"bold, contemporary, startup","lighting":"soft ambient, no harsh shadows","medium":"graphic_design","art_style":"modern social media graphic with rounded corners and soft gradients","color_palette":["#6C5CE7","#A29BFE","#FFFFFF","#DFE6E9","#2D3436"]},"compositional_deconstruction":{"background":"Smooth gradient from deep purple at top-left to soft lavender at bottom-right","elements":[{"type":"text","bbox":[150,100,450,900],"text":"SOMETHING\nBIG IS\nCOMING","desc":"Extra-bold sans-serif headline in white, left-aligned, stacked on three lines with tight leading"},{"type":"text","bbox":[550,100,650,900],"text":"JUNE 30 • 9AM PST • BE FIRST IN LINE","desc":"Medium weight text in light gray, same left alignment as headline"},{"type":"obj","bbox":[700,300,950,700],"desc":"Abstract 3D blob shape in frosted glass material with purple and pink internal refraction, floating with subtle shadow beneath"}]}}

Grafica social media

Annuncio di lancio in stile Instagram — sfondo sfumato, titolo impilato, elemento decorativo 3D

Design del packaging

Il packaging dei prodotti beneficia del posizionamento preciso del testo e del controllo coerente dei colori del brand.

{"high_level_description":"A flat-lay photograph of artisan chocolate bar packaging on a dark slate surface","style_description":{"aesthetics":"artisan, premium, textured","lighting":"soft overhead light with slight directional warmth from the right","photo":"50mm f/4, even focus across the surface, high color fidelity","medium":"photograph","color_palette":["#2C1810","#D4A574","#F5E6D3","#1A1A1A","#8B6914"]},"compositional_deconstruction":{"background":"Dark charcoal slate surface with subtle texture, scattered cocoa nibs and gold foil fragments around the edges","elements":[{"type":"obj","bbox":[100,150,900,850],"desc":"Rectangular chocolate bar wrapper in matte cream paper with embossed cocoa pod illustration, partially unwrapped to reveal dark chocolate squares, gold foil inner wrapper visible at one end"}]}}

Design del packaging

Flat-lay di packaging artigianale — texture della superficie controllata, palette colori precisa, sensazione premium

Infografiche

Le infografiche combinano più blocchi di testo con elementi visivi. I bounding box sono fondamentali — senza di essi, la sovrapposizione del testo è quasi garantita.

{"high_level_description":"A vertical infographic showing 4 steps of a morning routine with icons and numbered labels","style_description":{"aesthetics":"friendly, clean, informational","lighting":"flat, no shadows","medium":"graphic_design","art_style":"flat illustration style with rounded shapes and soft colors","color_palette":["#FF9F43","#54A0FF","#5F27CD","#10AC84","#F8F9FA"]},"compositional_deconstruction":{"background":"Light warm gray, clean and minimal","elements":[{"type":"text","bbox":[30,100,120,900],"text":"YOUR PERFECT\nMORNING ROUTINE","desc":"Bold rounded sans-serif header in dark purple, centered"},{"type":"obj","bbox":[140,50,350,450],"desc":"Circular icon of a glass of water with lemon slice, numbered 01 in orange beside it"},{"type":"text","bbox":[160,500,330,950],"text":"HYDRATE FIRST\nDrink 500ml water before coffee","desc":"Left-aligned text, title in bold dark, subtitle in medium gray"},{"type":"obj","bbox":[370,50,580,450],"desc":"Circular icon of a person stretching, numbered 02 in blue beside it"},{"type":"text","bbox":[390,500,560,950],"text":"MOVE YOUR BODY\n10 minutes of stretching or yoga","desc":"Left-aligned text, title in bold dark, subtitle in medium gray"},{"type":"obj","bbox":[600,50,810,450],"desc":"Circular icon of a journal and pen, numbered 03 in purple beside it"},{"type":"text","bbox":[620,500,790,950],"text":"WRITE 3 GOALS\nPrioritize before checking email","desc":"Left-aligned text, title in bold dark, subtitle in medium gray"},{"type":"obj","bbox":[830,50,950,450],"desc":"Circular icon of a healthy breakfast bowl, numbered 04 in green beside it"},{"type":"text","bbox":[840,500,940,950],"text":"EAT WELL\nProtein-rich breakfast, no sugar","desc":"Left-aligned text, title in bold dark, subtitle in medium gray"}]}}

Infografica

Infografica strutturata — ogni blocco di testo e icona ha il proprio bounding box per evitare sovrapposizioni

Character design

I concept dei personaggi funzionano bene con campi desc dettagliati e una palette colori vincolata per la coerenza visiva.

{"high_level_description":"A character design sheet for a cyberpunk courier, showing front and side view on a neutral background","style_description":{"aesthetics":"cyberpunk, detailed, concept art","lighting":"soft studio rim light with cyan accent from the left","medium":"illustration","art_style":"semi-realistic character concept art, clean linework with cel shading","color_palette":["#0D1B2A","#1B3A5C","#00E5FF","#FF6B35","#E0E0E0"]},"compositional_deconstruction":{"background":"Flat medium gray background with subtle grid, suitable for character turnaround sheet","elements":[{"type":"obj","bbox":[50,50,950,480],"desc":"Front view of a young woman in a fitted dark navy tactical jacket with glowing cyan piping along the seams, cargo pants with orange accent straps, short asymmetric black hair with one cyan-highlighted strand, wearing augmented reality goggles pushed up on forehead"},{"type":"obj","bbox":[50,520,950,950],"desc":"Three-quarter side view of the same character, showing a messenger bag with holographic patches on the back, utility belt visible, boots with magnetic soles, same outfit and color scheme as front view"}]}}

Character design

Scheda concept del personaggio — design coerente tra le viste grazie a una palette colori fissa

Magic Prompt: la modalità facile

Non tutti vogliono scrivere JSON a mano. Ideogram 4.0 include Magic Prompt — un LLM che espande l'input in testo libero in una didascalia JSON completa prima della generazione.

Scrivi "a cozy coffee shop interior with morning light" e Magic Prompt produce un JSON completo con descrizione dello stile, elementi, palette colori e bounding box. Per l'esplorazione generale e l'ideazione rapida, fa il lavoro pesante al posto tuo.

Usa Magic Prompt quando:

  • Esplori idee rapidamente
  • La precisione del layout non è importante
  • Vuoi che il modello prenda le decisioni creative

Scrivi JSON manualmente quando:

  • Design con molta tipografia (poster, grafiche social, packaging)
  • Output coerente con il brand che richiede codici hex esatti
  • Fotografia di prodotto con composizione specifica
  • Più elementi che non devono sovrapporsi

Errori comuni e come evitarli

Ordine del bounding box sbagliato. Il formato è [y_min, x_min, y_max, x_max] — la Y viene prima, non la X. Invertirli posiziona gli elementi in posizioni inaspettate.

Usare sia photo che art_style. Scegline uno. Questi campi sono mutuamente esclusivi nei dati di addestramento — includere entrambi degrada la qualità dell'output.

Ordine dei campi mescolato. Il modello è stato addestrato su una sequenza di campi rigorosa. Metti aestheticslightingmediumart_style/photocolor_palette. Negli elementi: typebboxdesc (oppure textdesc per gli elementi di testo).

Codici hex abbreviati. #FFF non è valido. Usa sempre il formato completo a sei caratteri in maiuscolo: #FFFFFF.

Bounding box del testo sovrapposti. Due elementi di testo che condividono la stessa area renderanno male. Assegna a ogni blocco di testo un'area distinta e non sovrapposta.

Specificare troppo per scene semplici. Un high_level_description dettagliato con controlli di stile è spesso sufficiente. Riserva i bounding box e le composizioni multi-elemento per quando hai davvero bisogno di precisione spaziale.

Domande frequenti

Devo usare JSON per ottenere buoni risultati?

No. Il testo libero funziona, specialmente con Magic Prompt. JSON ti dà il controllo su layout, colori e posizionamento del testo che il testo libero non può offrire — ma per la generazione di immagini generiche senza esigenze di composizione rigide, il testo libero va benissimo.

Quanti colori posso mettere in una palette?

Fino a 16 codici hex nella palette globale style_description, 5 per singolo elemento. Questi guidano i colori dominanti ma non sono garanzie esatte — considerali come suggerimenti forti per il modello.

Quale risoluzione supporta Ideogram 4.0?

Qualsiasi risoluzione da 256×256 a 2048×2048, in multipli di 16 pixel. Per la migliore qualità in locale, usa 2048×2048 con il preset del sampler V4_QUALITY_48.

In cosa differisce da Ideogram 3.0?

Ideogram 4.0 è open-weight (3.0 era solo API), usa l'addestramento JSON strutturato invece del linguaggio naturale, e ha un rendering del testo notevolmente migliorato. Il layout tramite bounding box e il condizionamento della palette colori sono novità della versione 4.0.

Posso eseguire Ideogram 4.0 in locale?

Sì. I checkpoint fp8 e nf4 sono su HuggingFace. La versione fp8 richiede una GPU con almeno 24GB di VRAM. ComfyUI ha nodi della community tra cui il prompt composer di KJ che semplifica la costruzione del JSON.

Dove posso usare Ideogram 4.0 online?

Editly supporta Ideogram 4.0 con input sia in testo libero che in JSON. Anche la piattaforma ufficiale Ideogram lo offre tramite la loro API e l'interfaccia web.