Editly
Retour au blog
Guide de prompts Ideogram 4.0 : du texte brut à la maîtrise du JSON

Guide de prompts Ideogram 4.0 : du texte brut à la maîtrise du JSON

Apprenez à formuler des prompts pour Ideogram 4.0 en texte brut et en JSON. Couvre l'architecture d'entraînement derrière les captions JSON et des exemples de prompts pour affiches, photos produit, logos et photographie.

EditlyL'équipe Editly

Ideogram 4.0 est un modèle de génération d'images open-weight de 9,3 milliards de paramètres avec un rendu de texte de pointe, un contrôle de mise en page par bounding box et un conditionnement par palette de couleurs. Les poids sont disponibles sur HuggingFace, le code d'inférence se trouve sur GitHub, et l'ensemble du système repose sur un format de prompt basé sur JSON qui a déstabilisé beaucoup de monde à sa sortie.

Ce guide explique pourquoi ce système JSON existe, ce que chaque champ contrôle, et vous fournit des prompts prêts à copier et adapter pour vos projets.

Pourquoi Ideogram 4.0 utilise-t-il des prompts JSON ?

La plupart des modèles d'images s'entraînent sur des paires (image, description textuelle). La description est une phrase en langage naturel, et le modèle apprend à associer les mots à des concepts visuels. Cela fonctionne, mais crée de l'ambiguïté — quand vous écrivez « voiture rouge à gauche d'un bâtiment bleu », le modèle doit deviner quelle couleur appartient à quel objet et ce que « à gauche » signifie spatialement.

Ideogram 4.0 a pris un chemin différent. Il a été entraîné exclusivement avec des descriptions JSON structurées. Chaque image d'entraînement était associée à un objet JSON qui sépare explicitement la description de la scène, les paramètres de style et les éléments individuels avec leurs positions en bounding box. Selon la documentation officielle, les descriptions d'entraînement sont « délibérément extrêmement détaillées » — chaque JSON décrit de manière exhaustive tout ce qui se trouve dans l'image.

Cela signifie que le modèle n'a pas à deviner les relations spatiales. Une coordonnée de bounding box correspond directement à une position apprise, car le modèle a vu des millions d'exemples dans le même format de coordonnées. Les palettes de couleurs fonctionnent de la même manière : les codes hex dans le JSON correspondent à des associations de couleurs apprises, pas à des interprétations vagues de noms de couleurs.

Le point clé : les prompts JSON offrent une précision de mise en page, de typographie et de couleur que le texte brut ne peut pas égaler. Mais le texte brut fonctionne quand même — la fonctionnalité Magic Prompt d'Ideogram utilise un LLM pour convertir votre saisie libre en JSON structuré avant la génération.

Texte brut vs JSON : la différence concrète

Voici le même concept formulé des deux façons :

Texte brut :

A jazz festival poster with bold typography, warm colors, and a saxophone silhouette

JSON :

{"high_level_description":"A vibrant jazz festival poster featuring bold typography and a saxophone silhouette against warm-toned geometric shapes","style_description":{"aesthetics":"retro, grain texture, bold contrast","lighting":"warm stage lighting with amber tones","medium":"graphic_design","art_style":"vintage concert poster with screen-print texture","color_palette":["#E8572A","#F2A03D","#1B1B2F","#F5E6CC","#C2185B"]},"compositional_deconstruction":{"background":"Deep navy blue with subtle radial gradient and halftone dot pattern","elements":[{"type":"text","bbox":[50,100,250,900],"text":"JAZZ\nFESTIVAL","desc":"Large bold sans-serif title in warm orange, slightly tilted 3 degrees clockwise"},{"type":"obj","bbox":[300,200,850,750],"desc":"Golden saxophone silhouette with geometric art deco fragmentation, pieces floating upward"},{"type":"text","bbox":[870,150,950,850],"text":"JUNE 28-30 • RIVERSIDE PARK • TICKETS AT JAZZFEST.COM","desc":"Small caps tracking-wide footer text in cream color"}]}}

Résultat texte brut

Affiche jazz en texte brut — le modèle décide lui-même de la mise en page, des couleurs et du placement du texte

Résultat JSON

Même concept en JSON — palette contrôlée, positions de texte précises, composition intentionnelle

La version texte brut produit une image utilisable. La version JSON vous donne une affiche où chaque élément est exactement là où vous l'avez placé, dans les couleurs exactes que vous avez spécifiées.

Aperçu du schéma JSON

La structure complète de caption comporte trois champs de premier niveau :

Champ Requis Ce qu'il contrôle
high_level_description Recommandé Résumé de l'image en 1-2 phrases
style_description Optionnel Éclairage, medium, esthétique, palette de couleurs
compositional_deconstruction Oui Arrière-plan + éléments individuels avec positions

Dans style_description, vous choisissez soit photo (spécifications caméra/objectif) soit art_style (style d'illustration/design) — jamais les deux.

Chaque élément est typé comme obj (objet visuel) ou text (typographie dans l'image). Les bounding boxes utilisent [y_min, x_min, y_max, x_max] en coordonnées normalisées 0–1000. Les palettes de couleurs acceptent jusqu'à 16 codes hex globalement, 5 par élément.

Modèle vierge à remplir :

{"high_level_description":"[1-2 sentence summary]","style_description":{"aesthetics":"[mood keywords]","lighting":"[lighting setup]","medium":"[photograph|illustration|3d_render|painting|graphic_design]","art_style":"[style description — OR use photo instead]","color_palette":["#HEXCODE","#HEXCODE"]},"compositional_deconstruction":{"background":"[background/environment description]","elements":[{"type":"obj","bbox":[y_min,x_min,y_max,x_max],"desc":"[detailed element description]"},{"type":"text","bbox":[y_min,x_min,y_max,x_max],"text":"[literal text to render]","desc":"[text styling description]"}]}}

Exemples de prompts par cas d'usage

Affiches d'événements

Les affiches mettent en valeur le rendu de texte d'Ideogram 4.0. Plusieurs blocs de texte à des positions exactes avec différentes tailles et styles.

{"high_level_description":"A minimalist tech conference poster with clean typography and geometric accents","style_description":{"aesthetics":"clean, modern, Swiss design influenced","lighting":"flat, even studio lighting","medium":"graphic_design","art_style":"minimalist poster design with strong grid structure","color_palette":["#0D0D0D","#FFFFFF","#4ECDC4","#FF6B6B"]},"compositional_deconstruction":{"background":"Pure white background with subtle 12-column grid lines in light gray","elements":[{"type":"text","bbox":[80,60,300,940],"text":"DEVCON\n2026","desc":"Ultra-bold grotesque typeface in black, massive size, tight leading"},{"type":"obj","bbox":[350,100,700,900],"desc":"Abstract geometric composition of overlapping circles and rectangles in teal and coral, suggesting network nodes and connections"},{"type":"text","bbox":[750,60,900,940],"text":"SEPTEMBER 15-17\nSAN FRANCISCO\nREGISTER AT DEVCON.IO","desc":"Light weight mono-spaced text in dark gray, left-aligned, generous line spacing"}]}}

Affiche conférence tech

Mise en page en grille, placement de texte précis, palette d'accent bicolore contrôlée

Photographie produit

Passez en mode photo avec les spécifications de l'appareil. La bounding box contrôle le placement du produit et l'espace négatif.

{"high_level_description":"A premium skincare bottle photographed on a marble surface with soft natural lighting","style_description":{"aesthetics":"editorial, clean, luxury","lighting":"soft diffused window light from upper left, subtle reflection on marble","photo":"85mm f/2.8, shallow depth of field, color-graded","medium":"photograph","color_palette":["#F7F3EE","#D4C5B2","#8B7355","#FFFFFF","#E8DDD3"]},"compositional_deconstruction":{"background":"Polished white marble surface with subtle gray veining, soft gradient to warm cream in the background","elements":[{"type":"obj","bbox":[150,300,850,700],"desc":"Tall frosted glass skincare bottle with minimal gold typography label, cap removed and placed beside the bottle, casting soft shadow to the right"}]}}

Photographie produit

Direction d'éclairage contrôlée, texture marbre, espace négatif intentionnel autour du produit

Les logos nécessitent des couleurs aplat et des bords nets. Utilisez art_style pour une sortie de type vectoriel et gardez les éléments au minimum.

{"high_level_description":"A modern geometric logo mark for a sustainable energy company","style_description":{"aesthetics":"minimal, geometric, professional","lighting":"flat, no shadows","medium":"graphic_design","art_style":"flat vector logo design, no gradients, clean edges","color_palette":["#2D5F2D","#4CAF50","#FFFFFF"]},"compositional_deconstruction":{"background":"Pure white, no texture","elements":[{"type":"obj","bbox":[200,200,800,800],"desc":"Abstract leaf shape formed by three overlapping chevrons pointing upward, creating a subtle upward arrow in the negative space, rendered in two shades of green"}]}}

Création de logo

Logo vectoriel aplat — couleurs unies, pas de dégradés, géométrie précise

Photographie réaliste

Pour le photoréalisme, les spécifications détaillées de l'appareil dans le champ photo font la plus grande différence.

{"high_level_description":"A candid street photograph of a woman walking through a rain-soaked Tokyo alley at night","style_description":{"aesthetics":"cinematic, moody, high contrast","lighting":"neon signs reflecting off wet pavement, warm tungsten from shop interiors mixing with cool blue ambient","photo":"35mm f/1.4, shot wide open, rain droplets visible on lens edge, slight motion blur on passing figures","medium":"photograph","color_palette":["#1A1A2E","#E94560","#F5A623","#16213E","#0F3460"]},"compositional_deconstruction":{"background":"Narrow Tokyo back-alley at night, wet asphalt reflecting neon kanji signs, steam rising from a ramen shop vent on the left","elements":[{"type":"obj","bbox":[100,350,900,650],"desc":"Young woman in a dark trench coat holding a transparent umbrella, mid-stride, face partially lit by warm shop light, looking slightly to camera right"},{"type":"obj","bbox":[50,50,400,200],"desc":"Glowing red and pink neon sign with Japanese characters, slightly out of focus due to shallow depth of field"}]}}

Photographie de rue

Photographie de rue cinématographique — reflets néon, faible profondeur de champ, mélange contrôlé de lumière chaude/froide

Graphiques pour réseaux sociaux

Les visuels sociaux nécessitent souvent du texte gras avec les couleurs de la marque. Utilisez de larges bounding boxes pour le texte de titre et gardez le nombre d'éléments bas.

{"high_level_description":"An Instagram carousel cover slide announcing a product launch with bold headline and gradient background","style_description":{"aesthetics":"bold, contemporary, startup","lighting":"soft ambient, no harsh shadows","medium":"graphic_design","art_style":"modern social media graphic with rounded corners and soft gradients","color_palette":["#6C5CE7","#A29BFE","#FFFFFF","#DFE6E9","#2D3436"]},"compositional_deconstruction":{"background":"Smooth gradient from deep purple at top-left to soft lavender at bottom-right","elements":[{"type":"text","bbox":[150,100,450,900],"text":"SOMETHING\nBIG IS\nCOMING","desc":"Extra-bold sans-serif headline in white, left-aligned, stacked on three lines with tight leading"},{"type":"text","bbox":[550,100,650,900],"text":"JUNE 30 • 9AM PST • BE FIRST IN LINE","desc":"Medium weight text in light gray, same left alignment as headline"},{"type":"obj","bbox":[700,300,950,700],"desc":"Abstract 3D blob shape in frosted glass material with purple and pink internal refraction, floating with subtle shadow beneath"}]}}

Graphique réseaux sociaux

Annonce de lancement style Instagram — fond en dégradé, titre empilé, élément d'accent 3D

Design d'emballage

L'emballage produit bénéficie d'un placement de texte précis et d'un contrôle de couleur cohérent avec la marque.

{"high_level_description":"A flat-lay photograph of artisan chocolate bar packaging on a dark slate surface","style_description":{"aesthetics":"artisan, premium, textured","lighting":"soft overhead light with slight directional warmth from the right","photo":"50mm f/4, even focus across the surface, high color fidelity","medium":"photograph","color_palette":["#2C1810","#D4A574","#F5E6D3","#1A1A1A","#8B6914"]},"compositional_deconstruction":{"background":"Dark charcoal slate surface with subtle texture, scattered cocoa nibs and gold foil fragments around the edges","elements":[{"type":"obj","bbox":[100,150,900,850],"desc":"Rectangular chocolate bar wrapper in matte cream paper with embossed cocoa pod illustration, partially unwrapped to reveal dark chocolate squares, gold foil inner wrapper visible at one end"}]}}

Design d'emballage

Emballage artisanal en flat-lay — texture de surface contrôlée, palette de couleurs précise, sensation premium

Infographies

Les infographies combinent plusieurs blocs de texte avec des éléments visuels. Les bounding boxes sont essentielles ici — sans elles, les chevauchements de texte sont quasi garantis.

{"high_level_description":"A vertical infographic showing 4 steps of a morning routine with icons and numbered labels","style_description":{"aesthetics":"friendly, clean, informational","lighting":"flat, no shadows","medium":"graphic_design","art_style":"flat illustration style with rounded shapes and soft colors","color_palette":["#FF9F43","#54A0FF","#5F27CD","#10AC84","#F8F9FA"]},"compositional_deconstruction":{"background":"Light warm gray, clean and minimal","elements":[{"type":"text","bbox":[30,100,120,900],"text":"YOUR PERFECT\nMORNING ROUTINE","desc":"Bold rounded sans-serif header in dark purple, centered"},{"type":"obj","bbox":[140,50,350,450],"desc":"Circular icon of a glass of water with lemon slice, numbered 01 in orange beside it"},{"type":"text","bbox":[160,500,330,950],"text":"HYDRATE FIRST\nDrink 500ml water before coffee","desc":"Left-aligned text, title in bold dark, subtitle in medium gray"},{"type":"obj","bbox":[370,50,580,450],"desc":"Circular icon of a person stretching, numbered 02 in blue beside it"},{"type":"text","bbox":[390,500,560,950],"text":"MOVE YOUR BODY\n10 minutes of stretching or yoga","desc":"Left-aligned text, title in bold dark, subtitle in medium gray"},{"type":"obj","bbox":[600,50,810,450],"desc":"Circular icon of a journal and pen, numbered 03 in purple beside it"},{"type":"text","bbox":[620,500,790,950],"text":"WRITE 3 GOALS\nPrioritize before checking email","desc":"Left-aligned text, title in bold dark, subtitle in medium gray"},{"type":"obj","bbox":[830,50,950,450],"desc":"Circular icon of a healthy breakfast bowl, numbered 04 in green beside it"},{"type":"text","bbox":[840,500,940,950],"text":"EAT WELL\nProtein-rich breakfast, no sugar","desc":"Left-aligned text, title in bold dark, subtitle in medium gray"}]}}

Infographie

Infographie structurée — chaque bloc de texte et icône possède sa propre bounding box pour éviter les chevauchements

Design de personnage

Les concepts de personnages fonctionnent bien avec des champs desc détaillés et une palette de couleurs restreinte pour la cohérence visuelle.

{"high_level_description":"A character design sheet for a cyberpunk courier, showing front and side view on a neutral background","style_description":{"aesthetics":"cyberpunk, detailed, concept art","lighting":"soft studio rim light with cyan accent from the left","medium":"illustration","art_style":"semi-realistic character concept art, clean linework with cel shading","color_palette":["#0D1B2A","#1B3A5C","#00E5FF","#FF6B35","#E0E0E0"]},"compositional_deconstruction":{"background":"Flat medium gray background with subtle grid, suitable for character turnaround sheet","elements":[{"type":"obj","bbox":[50,50,950,480],"desc":"Front view of a young woman in a fitted dark navy tactical jacket with glowing cyan piping along the seams, cargo pants with orange accent straps, short asymmetric black hair with one cyan-highlighted strand, wearing augmented reality goggles pushed up on forehead"},{"type":"obj","bbox":[50,520,950,950],"desc":"Three-quarter side view of the same character, showing a messenger bag with holographic patches on the back, utility belt visible, boots with magnetic soles, same outfit and color scheme as front view"}]}}

Design de personnage

Fiche de concept de personnage — design cohérent sur plusieurs vues grâce à une palette de couleurs verrouillée

Magic Prompt : le mode facile

Tout le monde ne veut pas écrire du JSON à la main. Ideogram 4.0 inclut Magic Prompt — un LLM qui développe les saisies en texte brut en une caption JSON complète avant la génération.

Tapez « a cozy coffee shop interior with morning light » et Magic Prompt produit un JSON complet avec description de style, éléments, palette de couleurs et bounding boxes. Pour l'exploration générale et l'idéation rapide, il fait le gros du travail.

Utilisez Magic Prompt quand :

  • Vous explorez des idées rapidement
  • La précision de mise en page n'a pas d'importance
  • Vous voulez que le modèle prenne les décisions créatives

Écrivez le JSON manuellement quand :

  • Designs à forte composante typographique (affiches, visuels sociaux, emballages)
  • Une sortie cohérente avec la marque nécessitant des couleurs hex exactes
  • Photographie produit avec une composition spécifique
  • Plusieurs éléments qui ne doivent pas se chevaucher

Erreurs courantes et comment les éviter

Mauvais ordre des bounding boxes. Le format est [y_min, x_min, y_max, x_max] — Y vient en premier, pas X. Inverser cela place les éléments à des positions inattendues.

Utiliser à la fois photo et art_style. Choisissez-en un. Ces champs sont mutuellement exclusifs dans les données d'entraînement — inclure les deux dégrade la qualité de sortie.

Ordre des clés mélangé. Le modèle a été entraîné avec un ordre de champs strict. Mettez aestheticslightingmediumart_style/photocolor_palette. Pour les éléments : typebboxdesc (ou textdesc pour les éléments texte).

Codes hex abrégés. #FFF est invalide. Utilisez toujours des codes hex complets à six caractères en majuscules : #FFFFFF.

Bounding boxes de texte qui se chevauchent. Deux éléments texte partageant la même zone seront mal rendus. Attribuez à chaque bloc de texte une zone distincte et non chevauchante.

Sur-spécification des scènes simples. Une high_level_description détaillée avec des contrôles de style suffit souvent. Réservez les bounding boxes et les compositions multi-éléments pour les cas où vous avez réellement besoin de précision spatiale.

Questions fréquemment posées

Faut-il obligatoirement utiliser le JSON pour obtenir de bons résultats ?

Non. Le texte brut fonctionne, surtout avec Magic Prompt. Le JSON vous donne un contrôle sur la mise en page, les couleurs et le placement du texte que le texte brut ne peut pas offrir — mais pour la génération d'images générale sans exigences strictes de composition, le texte brut convient parfaitement.

Combien de couleurs peut-on mettre dans une palette ?

Jusqu'à 16 codes hex dans la palette globale style_description, 5 par élément individuel. Ceux-ci orientent les couleurs dominantes mais ne sont pas des garanties exactes — considérez-les comme des suggestions fortes au modèle.

Quelle résolution Ideogram 4.0 prend-il en charge ?

Toute résolution de 256×256 à 2048×2048, par multiples de 16 pixels. Pour la meilleure qualité en local, utilisez 2048×2048 avec le preset de sampler V4_QUALITY_48.

En quoi est-ce différent d'Ideogram 3.0 ?

Ideogram 4.0 est open-weight (3.0 était uniquement API), utilise un entraînement structuré en JSON au lieu du langage naturel, et offre un rendu de texte nettement amélioré. Le contrôle de mise en page par bounding box et le conditionnement par palette de couleurs sont nouveaux dans la version 4.0.

Peut-on exécuter Ideogram 4.0 en local ?

Oui. Les checkpoints fp8 et nf4 sont sur HuggingFace. La version fp8 nécessite un GPU avec au moins 24 Go de VRAM. ComfyUI dispose de nodes communautaires, dont le composeur de prompts de KJ qui simplifie la construction JSON.

Où peut-on utiliser Ideogram 4.0 en ligne ?

Editly prend en charge Ideogram 4.0 avec les entrées en texte brut et en JSON. La plateforme officielle Ideogram le propose également via son API et son interface web.