Ideogram 4.0 — это модель генерации изображений с открытыми весами и 9,3 миллиарда параметров, которая отличается качественным рендерингом текста, управлением расположением через bounding box и настройкой цветовой палитры. Веса доступны на HuggingFace, код для инференса — на GitHub, а вся система работает на JSON-формате промптов, который поначалу озадачил многих.
В этом руководстве мы разберём, зачем нужна эта JSON-система, за что отвечает каждое поле, и предоставим готовые промпты, которые можно скопировать и адаптировать под свои задачи.
Почему Ideogram 4.0 использует JSON-промпты?
Большинство моделей генерации изображений обучаются на парах (изображение, текстовое описание). Описание — это предложение на естественном языке, и модель учится связывать слова с визуальными концепциями. Это работает, но создаёт неоднозначность: когда вы пишете «красная машина слева от синего здания», модель должна сама разобраться, какой цвет к какому объекту относится и что означает «слева» в пространственном смысле.
Ideogram 4.0 пошла другим путём — обучение велось исключительно на структурированных JSON-описаниях. Каждое обучающее изображение было сопряжено с JSON-объектом, который явно разделяет описание сцены, параметры стиля и отдельные элементы с их координатами bounding box. Согласно официальной документации, обучающие описания «намеренно крайне детализированы» — каждый JSON исчерпывающе описывает всё, что есть на изображении.
Благодаря такому подходу модель не угадывает пространственные соотношения. Координаты bounding box напрямую отображаются на обученные позиции, потому что модель видела миллионы примеров в том же формате координат. Цветовые палитры работают аналогично: hex-коды в JSON соответствуют обученным цветовым ассоциациям, а не приблизительным интерпретациям названий цветов.
Практический вывод: JSON-промпты открывают точность управления компоновкой, типографикой и цветом, недоступную обычному тексту. Но обычный текст тоже работает — функция Magic Prompt в Ideogram использует LLM для преобразования вашего простого ввода в структурированный JSON перед генерацией.
Обычный текст vs JSON: реальная разница
Вот одна и та же концепция, оформленная двумя способами:
Обычный текст:
A jazz festival poster with bold typography, warm colors, and a saxophone silhouette
JSON:
{"high_level_description":"A vibrant jazz festival poster featuring bold typography and a saxophone silhouette against warm-toned geometric shapes","style_description":{"aesthetics":"retro, grain texture, bold contrast","lighting":"warm stage lighting with amber tones","medium":"graphic_design","art_style":"vintage concert poster with screen-print texture","color_palette":["#E8572A","#F2A03D","#1B1B2F","#F5E6CC","#C2185B"]},"compositional_deconstruction":{"background":"Deep navy blue with subtle radial gradient and halftone dot pattern","elements":[{"type":"text","bbox":[50,100,250,900],"text":"JAZZ\nFESTIVAL","desc":"Large bold sans-serif title in warm orange, slightly tilted 3 degrees clockwise"},{"type":"obj","bbox":[300,200,850,750],"desc":"Golden saxophone silhouette with geometric art deco fragmentation, pieces floating upward"},{"type":"text","bbox":[870,150,950,850],"text":"JUNE 28-30 • RIVERSIDE PARK • TICKETS AT JAZZFEST.COM","desc":"Small caps tracking-wide footer text in cream color"}]}}

Джазовый постер из обычного текста — модель сама решает расположение, цвета и размещение текста

Та же концепция с JSON — контролируемая палитра, точное расположение текста, осмысленная композиция
Версия с обычным текстом даёт пригодное изображение. Версия с JSON даёт постер, где каждый элемент находится именно там, где вы его разместили, именно в тех цветах, которые вы указали.
Обзор JSON-схемы
Полная структура описания состоит из трёх полей верхнего уровня:
| Поле | Обязательность | Что контролирует |
|---|---|---|
high_level_description |
Рекомендуется | Краткое описание изображения в 1-2 предложениях |
style_description |
Опционально | Освещение, медиум, эстетика, цветовая палитра |
compositional_deconstruction |
Да | Фон + отдельные элементы с позициями |
Внутри style_description нужно выбрать либо photo (параметры камеры/объектива), либо art_style (стиль иллюстрации/дизайна) — никогда оба сразу.
Каждый элемент имеет тип obj (визуальный объект) или text (текст на изображении). Bounding box задаётся в формате [y_min, x_min, y_max, x_max] в нормализованных координатах 0–1000. Цветовая палитра допускает до 16 hex-кодов глобально, до 5 на элемент.
Пустой шаблон для заполнения:
{"high_level_description":"[1-2 sentence summary]","style_description":{"aesthetics":"[mood keywords]","lighting":"[lighting setup]","medium":"[photograph|illustration|3d_render|painting|graphic_design]","art_style":"[style description — OR use photo instead]","color_palette":["#HEXCODE","#HEXCODE"]},"compositional_deconstruction":{"background":"[background/environment description]","elements":[{"type":"obj","bbox":[y_min,x_min,y_max,x_max],"desc":"[detailed element description]"},{"type":"text","bbox":[y_min,x_min,y_max,x_max],"text":"[literal text to render]","desc":"[text styling description]"}]}}
Примеры промптов по сценариям использования
Афиши мероприятий
Постеры — лучшая демонстрация возможностей рендеринга текста в Ideogram 4.0. Несколько текстовых блоков в точных позициях с разными размерами и стилями.
{"high_level_description":"A minimalist tech conference poster with clean typography and geometric accents","style_description":{"aesthetics":"clean, modern, Swiss design influenced","lighting":"flat, even studio lighting","medium":"graphic_design","art_style":"minimalist poster design with strong grid structure","color_palette":["#0D0D0D","#FFFFFF","#4ECDC4","#FF6B6B"]},"compositional_deconstruction":{"background":"Pure white background with subtle 12-column grid lines in light gray","elements":[{"type":"text","bbox":[80,60,300,940],"text":"DEVCON\n2026","desc":"Ultra-bold grotesque typeface in black, massive size, tight leading"},{"type":"obj","bbox":[350,100,700,900],"desc":"Abstract geometric composition of overlapping circles and rectangles in teal and coral, suggesting network nodes and connections"},{"type":"text","bbox":[750,60,900,940],"text":"SEPTEMBER 15-17\nSAN FRANCISCO\nREGISTER AT DEVCON.IO","desc":"Light weight mono-spaced text in dark gray, left-aligned, generous line spacing"}]}}

Чистая сеточная компоновка, точное размещение текста, контролируемая двухцветная акцентная палитра
Продуктовая фотография
Переключитесь в режим photo с параметрами камеры. Bounding box контролирует расположение продукта и негативное пространство.
{"high_level_description":"A premium skincare bottle photographed on a marble surface with soft natural lighting","style_description":{"aesthetics":"editorial, clean, luxury","lighting":"soft diffused window light from upper left, subtle reflection on marble","photo":"85mm f/2.8, shallow depth of field, color-graded","medium":"photograph","color_palette":["#F7F3EE","#D4C5B2","#8B7355","#FFFFFF","#E8DDD3"]},"compositional_deconstruction":{"background":"Polished white marble surface with subtle gray veining, soft gradient to warm cream in the background","elements":[{"type":"obj","bbox":[150,300,850,700],"desc":"Tall frosted glass skincare bottle with minimal gold typography label, cap removed and placed beside the bottle, casting soft shadow to the right"}]}}

Контролируемое направление света, мраморная текстура, продуманное негативное пространство вокруг продукта
Дизайн логотипа
Для логотипов нужны плоские цвета и чёткие края. Используйте art_style для векторного стиля и минимум элементов.
{"high_level_description":"A modern geometric logo mark for a sustainable energy company","style_description":{"aesthetics":"minimal, geometric, professional","lighting":"flat, no shadows","medium":"graphic_design","art_style":"flat vector logo design, no gradients, clean edges","color_palette":["#2D5F2D","#4CAF50","#FFFFFF"]},"compositional_deconstruction":{"background":"Pure white, no texture","elements":[{"type":"obj","bbox":[200,200,800,800],"desc":"Abstract leaf shape formed by three overlapping chevrons pointing upward, creating a subtle upward arrow in the negative space, rendered in two shades of green"}]}}

Плоский векторный логотип — сплошные цвета, без градиентов, точная геометрия
Реалистичная фотография
Для фотореализма решающую роль играют детальные параметры камеры в поле photo.
{"high_level_description":"A candid street photograph of a woman walking through a rain-soaked Tokyo alley at night","style_description":{"aesthetics":"cinematic, moody, high contrast","lighting":"neon signs reflecting off wet pavement, warm tungsten from shop interiors mixing with cool blue ambient","photo":"35mm f/1.4, shot wide open, rain droplets visible on lens edge, slight motion blur on passing figures","medium":"photograph","color_palette":["#1A1A2E","#E94560","#F5A623","#16213E","#0F3460"]},"compositional_deconstruction":{"background":"Narrow Tokyo back-alley at night, wet asphalt reflecting neon kanji signs, steam rising from a ramen shop vent on the left","elements":[{"type":"obj","bbox":[100,350,900,650],"desc":"Young woman in a dark trench coat holding a transparent umbrella, mid-stride, face partially lit by warm shop light, looking slightly to camera right"},{"type":"obj","bbox":[50,50,400,200],"desc":"Glowing red and pink neon sign with Japanese characters, slightly out of focus due to shallow depth of field"}]}}

Кинематографичная уличная фотография — неоновые отражения, малая глубина резкости, контролируемое смешение тёплого и холодного освещения
Графика для соцсетей
Графика для соцсетей обычно требует крупного текста с фирменными цветами. Используйте широкие bounding box для заголовков и минимум элементов.
{"high_level_description":"An Instagram carousel cover slide announcing a product launch with bold headline and gradient background","style_description":{"aesthetics":"bold, contemporary, startup","lighting":"soft ambient, no harsh shadows","medium":"graphic_design","art_style":"modern social media graphic with rounded corners and soft gradients","color_palette":["#6C5CE7","#A29BFE","#FFFFFF","#DFE6E9","#2D3436"]},"compositional_deconstruction":{"background":"Smooth gradient from deep purple at top-left to soft lavender at bottom-right","elements":[{"type":"text","bbox":[150,100,450,900],"text":"SOMETHING\nBIG IS\nCOMING","desc":"Extra-bold sans-serif headline in white, left-aligned, stacked on three lines with tight leading"},{"type":"text","bbox":[550,100,650,900],"text":"JUNE 30 • 9AM PST • BE FIRST IN LINE","desc":"Medium weight text in light gray, same left alignment as headline"},{"type":"obj","bbox":[700,300,950,700],"desc":"Abstract 3D blob shape in frosted glass material with purple and pink internal refraction, floating with subtle shadow beneath"}]}}

Анонс запуска в стиле Instagram — градиентный фон, многострочный заголовок, 3D-акцентный элемент
Дизайн упаковки
Дизайн упаковки выигрывает от точного расположения текста и контроля фирменных цветов.
{"high_level_description":"A flat-lay photograph of artisan chocolate bar packaging on a dark slate surface","style_description":{"aesthetics":"artisan, premium, textured","lighting":"soft overhead light with slight directional warmth from the right","photo":"50mm f/4, even focus across the surface, high color fidelity","medium":"photograph","color_palette":["#2C1810","#D4A574","#F5E6D3","#1A1A1A","#8B6914"]},"compositional_deconstruction":{"background":"Dark charcoal slate surface with subtle texture, scattered cocoa nibs and gold foil fragments around the edges","elements":[{"type":"obj","bbox":[100,150,900,850],"desc":"Rectangular chocolate bar wrapper in matte cream paper with embossed cocoa pod illustration, partially unwrapped to reveal dark chocolate squares, gold foil inner wrapper visible at one end"}]}}

Раскладка ремесленной упаковки — контролируемая текстура поверхности, точная цветовая палитра, премиальное ощущение
Инфографика
Инфографика сочетает множество текстовых блоков с визуальными элементами. Bounding box здесь критически важны — без них наложение текста практически гарантировано.
{"high_level_description":"A vertical infographic showing 4 steps of a morning routine with icons and numbered labels","style_description":{"aesthetics":"friendly, clean, informational","lighting":"flat, no shadows","medium":"graphic_design","art_style":"flat illustration style with rounded shapes and soft colors","color_palette":["#FF9F43","#54A0FF","#5F27CD","#10AC84","#F8F9FA"]},"compositional_deconstruction":{"background":"Light warm gray, clean and minimal","elements":[{"type":"text","bbox":[30,100,120,900],"text":"YOUR PERFECT\nMORNING ROUTINE","desc":"Bold rounded sans-serif header in dark purple, centered"},{"type":"obj","bbox":[140,50,350,450],"desc":"Circular icon of a glass of water with lemon slice, numbered 01 in orange beside it"},{"type":"text","bbox":[160,500,330,950],"text":"HYDRATE FIRST\nDrink 500ml water before coffee","desc":"Left-aligned text, title in bold dark, subtitle in medium gray"},{"type":"obj","bbox":[370,50,580,450],"desc":"Circular icon of a person stretching, numbered 02 in blue beside it"},{"type":"text","bbox":[390,500,560,950],"text":"MOVE YOUR BODY\n10 minutes of stretching or yoga","desc":"Left-aligned text, title in bold dark, subtitle in medium gray"},{"type":"obj","bbox":[600,50,810,450],"desc":"Circular icon of a journal and pen, numbered 03 in purple beside it"},{"type":"text","bbox":[620,500,790,950],"text":"WRITE 3 GOALS\nPrioritize before checking email","desc":"Left-aligned text, title in bold dark, subtitle in medium gray"},{"type":"obj","bbox":[830,50,950,450],"desc":"Circular icon of a healthy breakfast bowl, numbered 04 in green beside it"},{"type":"text","bbox":[840,500,940,950],"text":"EAT WELL\nProtein-rich breakfast, no sugar","desc":"Left-aligned text, title in bold dark, subtitle in medium gray"}]}}

Структурированная инфографика — каждый текстовый блок и иконка имеют свой bounding box для предотвращения наложений
Дизайн персонажей
Концепты персонажей хорошо работают с детальными полями desc и ограниченной цветовой палитрой для визуальной согласованности.
{"high_level_description":"A character design sheet for a cyberpunk courier, showing front and side view on a neutral background","style_description":{"aesthetics":"cyberpunk, detailed, concept art","lighting":"soft studio rim light with cyan accent from the left","medium":"illustration","art_style":"semi-realistic character concept art, clean linework with cel shading","color_palette":["#0D1B2A","#1B3A5C","#00E5FF","#FF6B35","#E0E0E0"]},"compositional_deconstruction":{"background":"Flat medium gray background with subtle grid, suitable for character turnaround sheet","elements":[{"type":"obj","bbox":[50,50,950,480],"desc":"Front view of a young woman in a fitted dark navy tactical jacket with glowing cyan piping along the seams, cargo pants with orange accent straps, short asymmetric black hair with one cyan-highlighted strand, wearing augmented reality goggles pushed up on forehead"},{"type":"obj","bbox":[50,520,950,950],"desc":"Three-quarter side view of the same character, showing a messenger bag with holographic patches on the back, utility belt visible, boots with magnetic soles, same outfit and color scheme as front view"}]}}

Лист концепта персонажа — единый дизайн в разных ракурсах благодаря зафиксированной цветовой палитре
Magic Prompt: простой режим
Не все хотят писать JSON вручную. В Ideogram 4.0 есть Magic Prompt — LLM, который разворачивает обычный текстовый ввод в полное JSON-описание перед генерацией.
Введите «a cozy coffee shop interior with morning light», и Magic Prompt создаст полный JSON с описанием стиля, элементами, цветовой палитрой и bounding box. Для быстрого исследования идей и черновых набросков он берёт на себя всю тяжёлую работу.
Используйте Magic Prompt, когда:
- Быстро исследуете идеи
- Точность компоновки не важна
- Хотите, чтобы модель принимала творческие решения
Пишите JSON вручную, когда:
- Дизайн с акцентом на типографику (постеры, графика для соцсетей, упаковка)
- Нужен результат с точными фирменными hex-цветами
- Продуктовая фотография с определённой композицией
- Несколько элементов, которые не должны накладываться
Частые ошибки и как их избежать
Неправильный порядок координат bounding box. Формат: [y_min, x_min, y_max, x_max] — Y идёт первым, не X. Перепутав, вы получите элементы в неожиданных местах.
Одновременное использование photo и art_style. Выберите что-то одно. Эти поля взаимоисключающие в обучающих данных — указание обоих ухудшает качество.
Перепутанный порядок полей. Модель обучена на строгой последовательности полей. Правильный порядок: aesthetics → lighting → medium → art_style/photo → color_palette. Для элементов: type → bbox → desc (или text → desc для текстовых элементов).
Сокращённые hex-коды. #FFF не работает. Всегда используйте полный шестисимвольный hex в верхнем регистре: #FFFFFF.
Перекрывающиеся bounding box текста. Два текстовых элемента в одной области будут отрисованы некачественно. Выделяйте каждому текстовому блоку отдельную, непересекающуюся область.
Избыточная детализация простых сцен. Подробного high_level_description с настройками стиля часто достаточно. Используйте bounding box и многоэлементные композиции только когда действительно нужна пространственная точность.
Часто задаваемые вопросы
Обязательно ли использовать JSON для хороших результатов?
Нет. Обычный текст работает, особенно с Magic Prompt. JSON даёт контроль над компоновкой, цветами и расположением текста, недоступный обычному тексту, — но для общей генерации изображений без строгих требований к композиции обычный текст вполне подходит.
Сколько цветов можно указать в палитре?
До 16 hex-кодов в глобальной палитре style_description, до 5 на отдельный элемент. Они направляют доминирующие цвета, но не гарантируют точное совпадение — воспринимайте их как настоятельные рекомендации модели.
Какое разрешение поддерживает Ideogram 4.0?
Любое от 256×256 до 2048×2048, кратное 16 пикселям. Для лучшего качества при локальном запуске используйте 2048×2048 с пресетом сэмплера V4_QUALITY_48.
Чем отличается от Ideogram 3.0?
Ideogram 4.0 — с открытыми весами (3.0 работала только через API), обучена на структурированном JSON вместо естественного языка и значительно улучшила рендеринг текста. Управление компоновкой через bounding box и настройка цветовой палитры — нововведения версии 4.0.
Можно ли запустить Ideogram 4.0 локально?
Да. Контрольные точки fp8 и nf4 доступны на HuggingFace. Для версии fp8 нужна видеокарта с минимум 24 ГБ видеопамяти. В ComfyUI есть пользовательские ноды, включая конструктор промптов от KJ, который упрощает создание JSON.
Где можно использовать Ideogram 4.0 онлайн?
Editly поддерживает Ideogram 4.0 с вводом как обычного текста, так и JSON. Официальная платформа Ideogram также предоставляет доступ через API и веб-интерфейс.

