Ideogram 4.0 ist ein 9,3 Milliarden Parameter großes Open-Weight-Bildmodell mit erstklassigem Text-Rendering, Bounding-Box-Layoutsteuerung und Farbpaletten-Konditionierung. Die Gewichte sind auf HuggingFace verfügbar, der Inferenzcode liegt auf GitHub, und das gesamte System basiert auf einem JSON-basierten Prompt-Format, das anfangs viele Nutzer überrascht hat.
Dieser Leitfaden erklärt, warum dieses JSON-System existiert, was jedes Feld steuert, und liefert Prompts, die Sie direkt kopieren und für Ihre Arbeit anpassen können.
Warum verwendet Ideogram 4.0 JSON-Prompts?
Die meisten Bildmodelle werden mit (Bild, Textbeschreibung)-Paaren trainiert. Die Beschreibung ist ein natürlichsprachlicher Satz, und das Modell lernt, Wörter mit visuellen Konzepten zu verknüpfen. Das funktioniert, erzeugt aber Mehrdeutigkeiten — wenn Sie „rotes Auto links neben einem blauen Gebäude" schreiben, muss das Modell herausfinden, welche Farbe zu welchem Objekt gehört und was „links" räumlich bedeutet.
Ideogram 4.0 wurde ausschließlich mit strukturierten JSON-Beschreibungen trainiert. Jedes Trainingsbild wurde mit einem JSON-Objekt gepaart, das Szenenbeschreibung, Stilparameter und einzelne Elemente mit ihren Bounding-Box-Positionen explizit trennt. Laut der offiziellen Dokumentation sind die Trainingsbeschreibungen „absichtlich extrem detailliert" — jedes JSON beschreibt alles im Bild erschöpfend.
Dadurch muss das Modell räumliche Beziehungen nicht erraten. Eine Bounding-Box-Koordinate wird direkt auf eine trainierte Position abgebildet, weil das Modell Millionen von Beispielen im selben Koordinatenformat gesehen hat. Farbpaletten funktionieren genauso: Hex-Codes im JSON werden auf trainierte Farbzuordnungen abgebildet, nicht auf vage Interpretationen von Farbnamen.
Das praktische Fazit: JSON-Prompts ermöglichen eine Präzision bei Layout, Typografie und Farbe, die reiner Text nicht bieten kann. Aber reiner Text funktioniert trotzdem — Ideograms Magic Prompt verwendet ein LLM, um Ihre lockere Eingabe vor der Generierung in strukturiertes JSON umzuwandeln.
Reiner Text vs JSON: Der tatsächliche Unterschied
Hier ist dasselbe Konzept auf beide Arten als Prompt formuliert:
Reiner Text:
A jazz festival poster with bold typography, warm colors, and a saxophone silhouette
JSON:
{"high_level_description":"A vibrant jazz festival poster featuring bold typography and a saxophone silhouette against warm-toned geometric shapes","style_description":{"aesthetics":"retro, grain texture, bold contrast","lighting":"warm stage lighting with amber tones","medium":"graphic_design","art_style":"vintage concert poster with screen-print texture","color_palette":["#E8572A","#F2A03D","#1B1B2F","#F5E6CC","#C2185B"]},"compositional_deconstruction":{"background":"Deep navy blue with subtle radial gradient and halftone dot pattern","elements":[{"type":"text","bbox":[50,100,250,900],"text":"JAZZ\nFESTIVAL","desc":"Large bold sans-serif title in warm orange, slightly tilted 3 degrees clockwise"},{"type":"obj","bbox":[300,200,850,750],"desc":"Golden saxophone silhouette with geometric art deco fragmentation, pieces floating upward"},{"type":"text","bbox":[870,150,950,850],"text":"JUNE 28-30 • RIVERSIDE PARK • TICKETS AT JAZZFEST.COM","desc":"Small caps tracking-wide footer text in cream color"}]}}

Jazz-Poster aus reinem Text — das Modell entscheidet selbst über Layout, Farben und Textplatzierung

Dasselbe Konzept mit JSON — kontrollierte Palette, präzise Textpositionen, bewusste Komposition
Die Reintext-Version erzeugt ein brauchbares Bild. Die JSON-Version liefert ein Poster, bei dem jedes Element genau dort sitzt, wo Sie es platziert haben, in exakt den Farben, die Sie angegeben haben.
JSON-Schema auf einen Blick
Die vollständige Caption-Struktur hat drei Top-Level-Felder:
| Feld | Erforderlich | Was es steuert |
|---|---|---|
high_level_description |
Empfohlen | 1-2 Sätze Bildzusammenfassung |
style_description |
Optional | Beleuchtung, Medium, Ästhetik, Farbpalette |
compositional_deconstruction |
Ja | Hintergrund + einzelne Elemente mit Positionen |
Innerhalb von style_description wählen Sie entweder photo (Kamera-/Objektivspezifikationen) oder art_style (Illustrations-/Designstil) — niemals beides.
Jedes Element wird als obj (visuelles Objekt) oder text (Typografie im Bild) typisiert. Bounding Boxes verwenden [y_min, x_min, y_max, x_max] in normalisierten 0–1000 Koordinaten. Farbpaletten akzeptieren bis zu 16 Hex-Codes global, 5 pro Element.
Leere Vorlage zum Ausfüllen:
{"high_level_description":"[1-2 sentence summary]","style_description":{"aesthetics":"[mood keywords]","lighting":"[lighting setup]","medium":"[photograph|illustration|3d_render|painting|graphic_design]","art_style":"[style description — OR use photo instead]","color_palette":["#HEXCODE","#HEXCODE"]},"compositional_deconstruction":{"background":"[background/environment description]","elements":[{"type":"obj","bbox":[y_min,x_min,y_max,x_max],"desc":"[detailed element description]"},{"type":"text","bbox":[y_min,x_min,y_max,x_max],"text":"[literal text to render]","desc":"[text styling description]"}]}}
Prompt-Beispiele nach Anwendungsfall
Veranstaltungsposter
Poster zeigen Ideogram 4.0s Text-Rendering von seiner besten Seite. Mehrere Textblöcke an exakten Positionen mit unterschiedlichen Größen und Stilen.
{"high_level_description":"A minimalist tech conference poster with clean typography and geometric accents","style_description":{"aesthetics":"clean, modern, Swiss design influenced","lighting":"flat, even studio lighting","medium":"graphic_design","art_style":"minimalist poster design with strong grid structure","color_palette":["#0D0D0D","#FFFFFF","#4ECDC4","#FF6B6B"]},"compositional_deconstruction":{"background":"Pure white background with subtle 12-column grid lines in light gray","elements":[{"type":"text","bbox":[80,60,300,940],"text":"DEVCON\n2026","desc":"Ultra-bold grotesque typeface in black, massive size, tight leading"},{"type":"obj","bbox":[350,100,700,900],"desc":"Abstract geometric composition of overlapping circles and rectangles in teal and coral, suggesting network nodes and connections"},{"type":"text","bbox":[750,60,900,940],"text":"SEPTEMBER 15-17\nSAN FRANCISCO\nREGISTER AT DEVCON.IO","desc":"Light weight mono-spaced text in dark gray, left-aligned, generous line spacing"}]}}

Klares Rasterlayout, präzise Textplatzierung, kontrollierte Zweifarbakzent-Palette
Produktfotografie
Wechseln Sie in den photo-Modus mit Kameraspezifikationen. Die Bounding Box steuert Produktplatzierung und Negativraum.
{"high_level_description":"A premium skincare bottle photographed on a marble surface with soft natural lighting","style_description":{"aesthetics":"editorial, clean, luxury","lighting":"soft diffused window light from upper left, subtle reflection on marble","photo":"85mm f/2.8, shallow depth of field, color-graded","medium":"photograph","color_palette":["#F7F3EE","#D4C5B2","#8B7355","#FFFFFF","#E8DDD3"]},"compositional_deconstruction":{"background":"Polished white marble surface with subtle gray veining, soft gradient to warm cream in the background","elements":[{"type":"obj","bbox":[150,300,850,700],"desc":"Tall frosted glass skincare bottle with minimal gold typography label, cap removed and placed beside the bottle, casting soft shadow to the right"}]}}

Kontrollierte Lichtrichtung, Marmortextur, bewusster Negativraum um das Produkt
Logo-Design
Logos brauchen flache Farben und klare Kanten. Verwenden Sie art_style für vektorähnliche Ausgabe und halten Sie die Elemente minimal.
{"high_level_description":"A modern geometric logo mark for a sustainable energy company","style_description":{"aesthetics":"minimal, geometric, professional","lighting":"flat, no shadows","medium":"graphic_design","art_style":"flat vector logo design, no gradients, clean edges","color_palette":["#2D5F2D","#4CAF50","#FFFFFF"]},"compositional_deconstruction":{"background":"Pure white, no texture","elements":[{"type":"obj","bbox":[200,200,800,800],"desc":"Abstract leaf shape formed by three overlapping chevrons pointing upward, creating a subtle upward arrow in the negative space, rendered in two shades of green"}]}}

Flaches Vektor-Logo — Volltonfarben, keine Verläufe, präzise Geometrie
Realistische Fotografie
Für Fotorealismus machen detaillierte Kameraspezifikationen im photo-Feld den größten Unterschied.
{"high_level_description":"A candid street photograph of a woman walking through a rain-soaked Tokyo alley at night","style_description":{"aesthetics":"cinematic, moody, high contrast","lighting":"neon signs reflecting off wet pavement, warm tungsten from shop interiors mixing with cool blue ambient","photo":"35mm f/1.4, shot wide open, rain droplets visible on lens edge, slight motion blur on passing figures","medium":"photograph","color_palette":["#1A1A2E","#E94560","#F5A623","#16213E","#0F3460"]},"compositional_deconstruction":{"background":"Narrow Tokyo back-alley at night, wet asphalt reflecting neon kanji signs, steam rising from a ramen shop vent on the left","elements":[{"type":"obj","bbox":[100,350,900,650],"desc":"Young woman in a dark trench coat holding a transparent umbrella, mid-stride, face partially lit by warm shop light, looking slightly to camera right"},{"type":"obj","bbox":[50,50,400,200],"desc":"Glowing red and pink neon sign with Japanese characters, slightly out of focus due to shallow depth of field"}]}}

Filmische Straßenfotografie — Neonreflexionen, geringe Schärfentiefe, kontrollierte Warm-/Kaltlichtmischung
Social-Media-Grafiken
Social-Media-Grafiken brauchen oft fetten Text mit Markenfarben. Verwenden Sie breite Bounding Boxes für Überschriftentext und halten Sie die Elementanzahl niedrig.
{"high_level_description":"An Instagram carousel cover slide announcing a product launch with bold headline and gradient background","style_description":{"aesthetics":"bold, contemporary, startup","lighting":"soft ambient, no harsh shadows","medium":"graphic_design","art_style":"modern social media graphic with rounded corners and soft gradients","color_palette":["#6C5CE7","#A29BFE","#FFFFFF","#DFE6E9","#2D3436"]},"compositional_deconstruction":{"background":"Smooth gradient from deep purple at top-left to soft lavender at bottom-right","elements":[{"type":"text","bbox":[150,100,450,900],"text":"SOMETHING\nBIG IS\nCOMING","desc":"Extra-bold sans-serif headline in white, left-aligned, stacked on three lines with tight leading"},{"type":"text","bbox":[550,100,650,900],"text":"JUNE 30 • 9AM PST • BE FIRST IN LINE","desc":"Medium weight text in light gray, same left alignment as headline"},{"type":"obj","bbox":[700,300,950,700],"desc":"Abstract 3D blob shape in frosted glass material with purple and pink internal refraction, floating with subtle shadow beneath"}]}}

Instagram-Launch-Ankündigung — Verlaufshintergrund, gestapelte Überschrift, 3D-Akzentelement
Verpackungsdesign
Produktverpackungen profitieren von präziser Textplatzierung und markenkonsistenter Farbsteuerung.
{"high_level_description":"A flat-lay photograph of artisan chocolate bar packaging on a dark slate surface","style_description":{"aesthetics":"artisan, premium, textured","lighting":"soft overhead light with slight directional warmth from the right","photo":"50mm f/4, even focus across the surface, high color fidelity","medium":"photograph","color_palette":["#2C1810","#D4A574","#F5E6D3","#1A1A1A","#8B6914"]},"compositional_deconstruction":{"background":"Dark charcoal slate surface with subtle texture, scattered cocoa nibs and gold foil fragments around the edges","elements":[{"type":"obj","bbox":[100,150,900,850],"desc":"Rectangular chocolate bar wrapper in matte cream paper with embossed cocoa pod illustration, partially unwrapped to reveal dark chocolate squares, gold foil inner wrapper visible at one end"}]}}

Handwerkliche Verpackung als Flat-Lay — kontrollierte Oberflächentextur, präzise Farbpalette, Premium-Ausstrahlung
Infografiken
Infografiken kombinieren mehrere Textblöcke mit visuellen Elementen. Bounding Boxes sind hier entscheidend — ohne sie sind Textüberlappungen fast garantiert.
{"high_level_description":"A vertical infographic showing 4 steps of a morning routine with icons and numbered labels","style_description":{"aesthetics":"friendly, clean, informational","lighting":"flat, no shadows","medium":"graphic_design","art_style":"flat illustration style with rounded shapes and soft colors","color_palette":["#FF9F43","#54A0FF","#5F27CD","#10AC84","#F8F9FA"]},"compositional_deconstruction":{"background":"Light warm gray, clean and minimal","elements":[{"type":"text","bbox":[30,100,120,900],"text":"YOUR PERFECT\nMORNING ROUTINE","desc":"Bold rounded sans-serif header in dark purple, centered"},{"type":"obj","bbox":[140,50,350,450],"desc":"Circular icon of a glass of water with lemon slice, numbered 01 in orange beside it"},{"type":"text","bbox":[160,500,330,950],"text":"HYDRATE FIRST\nDrink 500ml water before coffee","desc":"Left-aligned text, title in bold dark, subtitle in medium gray"},{"type":"obj","bbox":[370,50,580,450],"desc":"Circular icon of a person stretching, numbered 02 in blue beside it"},{"type":"text","bbox":[390,500,560,950],"text":"MOVE YOUR BODY\n10 minutes of stretching or yoga","desc":"Left-aligned text, title in bold dark, subtitle in medium gray"},{"type":"obj","bbox":[600,50,810,450],"desc":"Circular icon of a journal and pen, numbered 03 in purple beside it"},{"type":"text","bbox":[620,500,790,950],"text":"WRITE 3 GOALS\nPrioritize before checking email","desc":"Left-aligned text, title in bold dark, subtitle in medium gray"},{"type":"obj","bbox":[830,50,950,450],"desc":"Circular icon of a healthy breakfast bowl, numbered 04 in green beside it"},{"type":"text","bbox":[840,500,940,950],"text":"EAT WELL\nProtein-rich breakfast, no sugar","desc":"Left-aligned text, title in bold dark, subtitle in medium gray"}]}}

Strukturierte Infografik — jeder Textblock und jedes Icon hat seine eigene Bounding Box, um Überlappungen zu verhindern
Charakter-Design
Charakterkonzepte funktionieren gut mit detaillierten desc-Feldern und einer eingeschränkten Farbpalette für visuelle Konsistenz.
{"high_level_description":"A character design sheet for a cyberpunk courier, showing front and side view on a neutral background","style_description":{"aesthetics":"cyberpunk, detailed, concept art","lighting":"soft studio rim light with cyan accent from the left","medium":"illustration","art_style":"semi-realistic character concept art, clean linework with cel shading","color_palette":["#0D1B2A","#1B3A5C","#00E5FF","#FF6B35","#E0E0E0"]},"compositional_deconstruction":{"background":"Flat medium gray background with subtle grid, suitable for character turnaround sheet","elements":[{"type":"obj","bbox":[50,50,950,480],"desc":"Front view of a young woman in a fitted dark navy tactical jacket with glowing cyan piping along the seams, cargo pants with orange accent straps, short asymmetric black hair with one cyan-highlighted strand, wearing augmented reality goggles pushed up on forehead"},{"type":"obj","bbox":[50,520,950,950],"desc":"Three-quarter side view of the same character, showing a messenger bag with holographic patches on the back, utility belt visible, boots with magnetic soles, same outfit and color scheme as front view"}]}}

Charakter-Konzeptblatt — konsistentes Design über verschiedene Ansichten durch fixierte Farbpalette
Magic Prompt: Der einfache Weg
Nicht jeder möchte JSON von Hand schreiben. Ideogram 4.0 enthält Magic Prompt — ein LLM, das Reintext-Eingaben vor der Generierung in eine vollständige JSON-Caption expandiert.
Geben Sie „a cozy coffee shop interior with morning light" ein, und Magic Prompt erzeugt ein vollständiges JSON mit Stilbeschreibung, Elementen, Farbpalette und Bounding Boxes. Für allgemeine Erkundung und schnelle Ideenfindung nimmt es Ihnen die Hauptarbeit ab.
Verwenden Sie Magic Prompt, wenn:
- Sie schnell Ideen erkunden
- Layout-Präzision keine Rolle spielt
- Sie das Modell kreative Entscheidungen treffen lassen möchten
Schreiben Sie JSON manuell, wenn:
- Typografieintensive Designs (Poster, Social-Media-Grafiken, Verpackungen)
- Markenkonsistente Ausgabe mit exakten Hex-Farben erforderlich ist
- Produktfotografie mit spezifischer Komposition
- Mehrere Elemente sich nicht überlappen dürfen
Häufige Fehler und wie Sie sie vermeiden
Falsche Bounding-Box-Reihenfolge. Das Format ist [y_min, x_min, y_max, x_max] — Y kommt zuerst, nicht X. Wird dies vertauscht, landen Elemente an unerwarteten Positionen.
Gleichzeitige Verwendung von photo und art_style. Wählen Sie eines. Diese Felder sind in den Trainingsdaten gegenseitig ausschließend — beide einzuschließen verschlechtert die Ausgabequalität.
Durcheinander gewürfelte Schlüsselreihenfolge. Das Modell wurde mit einer strengen Feldreihenfolge trainiert. Setzen Sie aesthetics → lighting → medium → art_style/photo → color_palette. Bei Elementen: type → bbox → desc (oder text → desc bei Textelementen).
Kurzform-Hex-Codes. #FFF ist ungültig. Verwenden Sie immer vollständige sechsstellige Hex-Werte in Großbuchstaben: #FFFFFF.
Überlappende Text-Bounding-Boxes. Zwei Textelemente, die denselben Bereich teilen, werden schlecht gerendert. Geben Sie jedem Textblock einen eigenen, nicht überlappenden Bereich.
Überdetaillierung einfacher Szenen. Eine detaillierte high_level_description mit Stilsteuerung reicht oft aus. Reservieren Sie Bounding Boxes und Mehrfachelement-Kompositionen für Fälle, in denen Sie tatsächlich räumliche Präzision benötigen.
Häufig gestellte Fragen
Muss ich JSON verwenden, um gute Ergebnisse zu erzielen?
Nein. Reiner Text funktioniert, besonders mit Magic Prompt. JSON gibt Ihnen Kontrolle über Layout, Farben und Textplatzierung, die reiner Text nicht bieten kann — aber für allgemeine Bildgenerierung ohne strenge Kompositionsanforderungen ist reiner Text völlig ausreichend.
Wie viele Farben kann ich in eine Farbpalette aufnehmen?
Bis zu 16 Hex-Codes in der globalen style_description-Palette, 5 pro einzelnem Element. Diese steuern die dominanten Farben, sind aber keine exakten Garantien — betrachten Sie sie als starke Vorschläge an das Modell.
Welche Auflösung unterstützt Ideogram 4.0?
Jede Auflösung von 256×256 bis 2048×2048, in Vielfachen von 16 Pixeln. Für beste Qualität beim lokalen Betrieb verwenden Sie 2048×2048 mit dem V4_QUALITY_48 Sampler-Preset.
Wie unterscheidet sich dies von Ideogram 3.0?
Ideogram 4.0 ist Open-Weight (3.0 war nur als API verfügbar), verwendet JSON-strukturiertes Training statt natürlicher Sprache und hat deutlich verbessertes Text-Rendering. Bounding-Box-Layout und Farbpaletten-Konditionierung sind neu in 4.0.
Kann ich Ideogram 4.0 lokal ausführen?
Ja. Die fp8- und nf4-Checkpoints sind auf HuggingFace verfügbar. Die fp8-Version benötigt eine GPU mit mindestens 24 GB VRAM. ComfyUI hat Community-Nodes, darunter KJs Prompt-Composer, der die JSON-Erstellung vereinfacht.
Wo kann ich Ideogram 4.0 online nutzen?
Editly unterstützt Ideogram 4.0 mit sowohl Reintext- als auch JSON-Eingabe. Die offizielle Ideogram-Plattform bietet es ebenfalls über ihre API und Weboberfläche an.

