Ideogram 4.0 هو نموذج مفتوح الأوزان لتوليد الصور يحتوي على 9.3 مليار معامل، ويتميز بعرض نصوص متقدم والتحكم في التخطيط عبر bounding box وضبط لوحة الألوان. الأوزان متاحة على HuggingFace، وكود الاستدلال على GitHub، ويعمل النظام بالكامل على صيغة JSON للمطالبات التي أربكت كثيرين عند إطلاقها.
يشرح هذا الدليل سبب وجود نظام JSON هذا، وما يتحكم به كل حقل، ويقدم مطالبات جاهزة يمكنك نسخها وتعديلها لعملك.
لماذا يستخدم Ideogram 4.0 مطالبات JSON؟
تتدرب معظم نماذج توليد الصور على أزواج (صورة، وصف نصي). الوصف عبارة عن جملة بلغة طبيعية، ويتعلم النموذج ربط الكلمات بالمفاهيم البصرية. هذا يعمل، لكنه يخلق غموضاً — عندما تكتب "سيارة حمراء على يسار مبنى أزرق"، يجب على النموذج أن يحدد بنفسه أي لون يخص أي كائن وماذا تعني "اليسار" مكانياً.
سلك Ideogram 4.0 مساراً مختلفاً — تم تدريبه حصرياً على أوصاف JSON المهيكلة. كل صورة تدريبية اقترنت بكائن JSON يفصل بوضوح وصف المشهد ومعاملات الأسلوب والعناصر الفردية مع إحداثيات bounding box الخاصة بها. وفقاً للوثائق الرسمية، فإن أوصاف التدريب "مفصلة بشكل مقصود للغاية" — كل JSON يصف بشكل شامل كل شيء في الصورة.
يعني هذا التصميم أن النموذج لا يخمن العلاقات المكانية. إحداثيات bounding box تُعيَّن مباشرة إلى مواضع مدربة لأن النموذج رأى ملايين الأمثلة بنفس صيغة الإحداثيات. لوحات الألوان تعمل بنفس الطريقة: أكواد hex في JSON تُعيَّن إلى ارتباطات لونية مدربة، وليس تفسيرات فضفاضة لأسماء الألوان.
الخلاصة العملية: مطالبات JSON تتيح دقة في التخطيط والطباعة والألوان لا يمكن للنص العادي مطابقتها. لكن النص العادي يعمل أيضاً — ميزة Magic Prompt في Ideogram تستخدم LLM لتحويل مدخلاتك البسيطة إلى JSON مهيكل قبل التوليد.
النص العادي مقابل JSON: الفرق الفعلي
إليك نفس المفهوم بطريقتين:
نص عادي:
A jazz festival poster with bold typography, warm colors, and a saxophone silhouette
JSON:
{"high_level_description":"A vibrant jazz festival poster featuring bold typography and a saxophone silhouette against warm-toned geometric shapes","style_description":{"aesthetics":"retro, grain texture, bold contrast","lighting":"warm stage lighting with amber tones","medium":"graphic_design","art_style":"vintage concert poster with screen-print texture","color_palette":["#E8572A","#F2A03D","#1B1B2F","#F5E6CC","#C2185B"]},"compositional_deconstruction":{"background":"Deep navy blue with subtle radial gradient and halftone dot pattern","elements":[{"type":"text","bbox":[50,100,250,900],"text":"JAZZ\nFESTIVAL","desc":"Large bold sans-serif title in warm orange, slightly tilted 3 degrees clockwise"},{"type":"obj","bbox":[300,200,850,750],"desc":"Golden saxophone silhouette with geometric art deco fragmentation, pieces floating upward"},{"type":"text","bbox":[870,150,950,850],"text":"JUNE 28-30 • RIVERSIDE PARK • TICKETS AT JAZZFEST.COM","desc":"Small caps tracking-wide footer text in cream color"}]}}

ملصق جاز من نص عادي — النموذج يقرر التخطيط والألوان وموضع النص بنفسه

نفس المفهوم بـ JSON — لوحة ألوان محكمة، مواضع نص دقيقة، تكوين مقصود
نسخة النص العادي تنتج صورة صالحة للاستخدام. نسخة JSON تعطيك ملصقاً كل عنصر فيه في المكان الذي حددته، بالألوان التي اخترتها بالضبط.
نظرة سريعة على مخطط JSON
هيكل الوصف الكامل يتكون من ثلاثة حقول رئيسية:
| الحقل | مطلوب | ما يتحكم به |
|---|---|---|
high_level_description |
موصى به | ملخص الصورة في جملة أو جملتين |
style_description |
اختياري | الإضاءة، الوسيط، الجمالية، لوحة الألوان |
compositional_deconstruction |
نعم | الخلفية + العناصر الفردية مع مواضعها |
داخل style_description، اختر إما photo (مواصفات الكاميرا/العدسة) أو art_style (أسلوب الرسم التوضيحي/التصميم) — لا يمكن استخدام كليهما.
كل عنصر من نوع obj (كائن بصري) أو text (نص داخل الصورة). صيغة bounding box هي [y_min, x_min, y_max, x_max] بإحداثيات معيارية من 0 إلى 1000. لوحة الألوان تقبل حتى 16 كود hex عالمياً، و5 لكل عنصر.
قالب فارغ لملئه:
{"high_level_description":"[1-2 sentence summary]","style_description":{"aesthetics":"[mood keywords]","lighting":"[lighting setup]","medium":"[photograph|illustration|3d_render|painting|graphic_design]","art_style":"[style description — OR use photo instead]","color_palette":["#HEXCODE","#HEXCODE"]},"compositional_deconstruction":{"background":"[background/environment description]","elements":[{"type":"obj","bbox":[y_min,x_min,y_max,x_max],"desc":"[detailed element description]"},{"type":"text","bbox":[y_min,x_min,y_max,x_max],"text":"[literal text to render]","desc":"[text styling description]"}]}}
أمثلة مطالبات حسب حالة الاستخدام
ملصقات الفعاليات
الملصقات تُظهر قدرات عرض النصوص في Ideogram 4.0 في أفضل حالاتها. عدة كتل نصية في مواضع دقيقة بأحجام وأنماط مختلفة.
{"high_level_description":"A minimalist tech conference poster with clean typography and geometric accents","style_description":{"aesthetics":"clean, modern, Swiss design influenced","lighting":"flat, even studio lighting","medium":"graphic_design","art_style":"minimalist poster design with strong grid structure","color_palette":["#0D0D0D","#FFFFFF","#4ECDC4","#FF6B6B"]},"compositional_deconstruction":{"background":"Pure white background with subtle 12-column grid lines in light gray","elements":[{"type":"text","bbox":[80,60,300,940],"text":"DEVCON\n2026","desc":"Ultra-bold grotesque typeface in black, massive size, tight leading"},{"type":"obj","bbox":[350,100,700,900],"desc":"Abstract geometric composition of overlapping circles and rectangles in teal and coral, suggesting network nodes and connections"},{"type":"text","bbox":[750,60,900,940],"text":"SEPTEMBER 15-17\nSAN FRANCISCO\nREGISTER AT DEVCON.IO","desc":"Light weight mono-spaced text in dark gray, left-aligned, generous line spacing"}]}}

تخطيط شبكي نظيف، موضع نص دقيق، لوحة ألوان مزدوجة محكمة
التصوير الفوتوغرافي للمنتجات
انتقل إلى وضع photo مع مواصفات الكاميرا. يتحكم bounding box في موضع المنتج والمساحة السلبية.
{"high_level_description":"A premium skincare bottle photographed on a marble surface with soft natural lighting","style_description":{"aesthetics":"editorial, clean, luxury","lighting":"soft diffused window light from upper left, subtle reflection on marble","photo":"85mm f/2.8, shallow depth of field, color-graded","medium":"photograph","color_palette":["#F7F3EE","#D4C5B2","#8B7355","#FFFFFF","#E8DDD3"]},"compositional_deconstruction":{"background":"Polished white marble surface with subtle gray veining, soft gradient to warm cream in the background","elements":[{"type":"obj","bbox":[150,300,850,700],"desc":"Tall frosted glass skincare bottle with minimal gold typography label, cap removed and placed beside the bottle, casting soft shadow to the right"}]}}

اتجاه إضاءة محكم، نسيج رخامي، مساحة سلبية مدروسة حول المنتج
تصميم الشعارات
تحتاج الشعارات إلى ألوان مسطحة وحواف نظيفة. استخدم art_style لإخراج بأسلوب متجهي وحافظ على الحد الأدنى من العناصر.
{"high_level_description":"A modern geometric logo mark for a sustainable energy company","style_description":{"aesthetics":"minimal, geometric, professional","lighting":"flat, no shadows","medium":"graphic_design","art_style":"flat vector logo design, no gradients, clean edges","color_palette":["#2D5F2D","#4CAF50","#FFFFFF"]},"compositional_deconstruction":{"background":"Pure white, no texture","elements":[{"type":"obj","bbox":[200,200,800,800],"desc":"Abstract leaf shape formed by three overlapping chevrons pointing upward, creating a subtle upward arrow in the negative space, rendered in two shades of green"}]}}

شعار متجهي مسطح — ألوان صلبة، بدون تدرجات، هندسة دقيقة
التصوير الواقعي
للحصول على واقعية فوتوغرافية، مواصفات الكاميرا المفصلة في حقل photo تُحدث الفرق الأكبر.
{"high_level_description":"A candid street photograph of a woman walking through a rain-soaked Tokyo alley at night","style_description":{"aesthetics":"cinematic, moody, high contrast","lighting":"neon signs reflecting off wet pavement, warm tungsten from shop interiors mixing with cool blue ambient","photo":"35mm f/1.4, shot wide open, rain droplets visible on lens edge, slight motion blur on passing figures","medium":"photograph","color_palette":["#1A1A2E","#E94560","#F5A623","#16213E","#0F3460"]},"compositional_deconstruction":{"background":"Narrow Tokyo back-alley at night, wet asphalt reflecting neon kanji signs, steam rising from a ramen shop vent on the left","elements":[{"type":"obj","bbox":[100,350,900,650],"desc":"Young woman in a dark trench coat holding a transparent umbrella, mid-stride, face partially lit by warm shop light, looking slightly to camera right"},{"type":"obj","bbox":[50,50,400,200],"desc":"Glowing red and pink neon sign with Japanese characters, slightly out of focus due to shallow depth of field"}]}}

تصوير شارع سينمائي — انعكاسات نيون، عمق ميدان ضحل، مزيج محكم من الإضاءة الدافئة والباردة
رسومات وسائل التواصل الاجتماعي
تحتاج رسومات السوشيال ميديا عادةً إلى نص بارز بألوان العلامة التجارية. استخدم bounding box واسعة للعناوين وقلل عدد العناصر.
{"high_level_description":"An Instagram carousel cover slide announcing a product launch with bold headline and gradient background","style_description":{"aesthetics":"bold, contemporary, startup","lighting":"soft ambient, no harsh shadows","medium":"graphic_design","art_style":"modern social media graphic with rounded corners and soft gradients","color_palette":["#6C5CE7","#A29BFE","#FFFFFF","#DFE6E9","#2D3436"]},"compositional_deconstruction":{"background":"Smooth gradient from deep purple at top-left to soft lavender at bottom-right","elements":[{"type":"text","bbox":[150,100,450,900],"text":"SOMETHING\nBIG IS\nCOMING","desc":"Extra-bold sans-serif headline in white, left-aligned, stacked on three lines with tight leading"},{"type":"text","bbox":[550,100,650,900],"text":"JUNE 30 • 9AM PST • BE FIRST IN LINE","desc":"Medium weight text in light gray, same left alignment as headline"},{"type":"obj","bbox":[700,300,950,700],"desc":"Abstract 3D blob shape in frosted glass material with purple and pink internal refraction, floating with subtle shadow beneath"}]}}

إعلان إطلاق بأسلوب Instagram — خلفية متدرجة، عنوان متعدد الأسطر، عنصر زخرفي ثلاثي الأبعاد
تصميم التغليف
يستفيد تصميم التغليف من الموضع الدقيق للنصوص والتحكم المتسق بألوان العلامة التجارية.
{"high_level_description":"A flat-lay photograph of artisan chocolate bar packaging on a dark slate surface","style_description":{"aesthetics":"artisan, premium, textured","lighting":"soft overhead light with slight directional warmth from the right","photo":"50mm f/4, even focus across the surface, high color fidelity","medium":"photograph","color_palette":["#2C1810","#D4A574","#F5E6D3","#1A1A1A","#8B6914"]},"compositional_deconstruction":{"background":"Dark charcoal slate surface with subtle texture, scattered cocoa nibs and gold foil fragments around the edges","elements":[{"type":"obj","bbox":[100,150,900,850],"desc":"Rectangular chocolate bar wrapper in matte cream paper with embossed cocoa pod illustration, partially unwrapped to reveal dark chocolate squares, gold foil inner wrapper visible at one end"}]}}

تصوير مسطح لتغليف حرفي — نسيج سطح محكم، لوحة ألوان دقيقة، إحساس فاخر
الإنفوجرافيك
يجمع الإنفوجرافيك بين كتل نصية متعددة وعناصر بصرية. bounding box حاسمة هنا — بدونها، تداخل النصوص شبه مضمون.
{"high_level_description":"A vertical infographic showing 4 steps of a morning routine with icons and numbered labels","style_description":{"aesthetics":"friendly, clean, informational","lighting":"flat, no shadows","medium":"graphic_design","art_style":"flat illustration style with rounded shapes and soft colors","color_palette":["#FF9F43","#54A0FF","#5F27CD","#10AC84","#F8F9FA"]},"compositional_deconstruction":{"background":"Light warm gray, clean and minimal","elements":[{"type":"text","bbox":[30,100,120,900],"text":"YOUR PERFECT\nMORNING ROUTINE","desc":"Bold rounded sans-serif header in dark purple, centered"},{"type":"obj","bbox":[140,50,350,450],"desc":"Circular icon of a glass of water with lemon slice, numbered 01 in orange beside it"},{"type":"text","bbox":[160,500,330,950],"text":"HYDRATE FIRST\nDrink 500ml water before coffee","desc":"Left-aligned text, title in bold dark, subtitle in medium gray"},{"type":"obj","bbox":[370,50,580,450],"desc":"Circular icon of a person stretching, numbered 02 in blue beside it"},{"type":"text","bbox":[390,500,560,950],"text":"MOVE YOUR BODY\n10 minutes of stretching or yoga","desc":"Left-aligned text, title in bold dark, subtitle in medium gray"},{"type":"obj","bbox":[600,50,810,450],"desc":"Circular icon of a journal and pen, numbered 03 in purple beside it"},{"type":"text","bbox":[620,500,790,950],"text":"WRITE 3 GOALS\nPrioritize before checking email","desc":"Left-aligned text, title in bold dark, subtitle in medium gray"},{"type":"obj","bbox":[830,50,950,450],"desc":"Circular icon of a healthy breakfast bowl, numbered 04 in green beside it"},{"type":"text","bbox":[840,500,940,950],"text":"EAT WELL\nProtein-rich breakfast, no sugar","desc":"Left-aligned text, title in bold dark, subtitle in medium gray"}]}}

إنفوجرافيك مهيكل — كل كتلة نصية وأيقونة لها bounding box خاص بها لمنع التداخل
تصميم الشخصيات
مفاهيم الشخصيات تعمل بشكل جيد مع حقول desc مفصلة ولوحة ألوان مقيدة للحفاظ على التناسق البصري.
{"high_level_description":"A character design sheet for a cyberpunk courier, showing front and side view on a neutral background","style_description":{"aesthetics":"cyberpunk, detailed, concept art","lighting":"soft studio rim light with cyan accent from the left","medium":"illustration","art_style":"semi-realistic character concept art, clean linework with cel shading","color_palette":["#0D1B2A","#1B3A5C","#00E5FF","#FF6B35","#E0E0E0"]},"compositional_deconstruction":{"background":"Flat medium gray background with subtle grid, suitable for character turnaround sheet","elements":[{"type":"obj","bbox":[50,50,950,480],"desc":"Front view of a young woman in a fitted dark navy tactical jacket with glowing cyan piping along the seams, cargo pants with orange accent straps, short asymmetric black hair with one cyan-highlighted strand, wearing augmented reality goggles pushed up on forehead"},{"type":"obj","bbox":[50,520,950,950],"desc":"Three-quarter side view of the same character, showing a messenger bag with holographic patches on the back, utility belt visible, boots with magnetic soles, same outfit and color scheme as front view"}]}}

ورقة مفهوم شخصية — تصميم متسق عبر زوايا مختلفة بفضل لوحة ألوان مثبتة
Magic Prompt: الوضع السهل
ليس الجميع يريد كتابة JSON يدوياً. يتضمن Ideogram 4.0 ميزة Magic Prompt — LLM يحوّل مدخلات النص العادي إلى وصف JSON كامل قبل التوليد.
اكتب "a cozy coffee shop interior with morning light" وسيُنتج Magic Prompt JSON كاملاً يتضمن وصف الأسلوب والعناصر ولوحة الألوان و bounding box. للاستكشاف السريع والتجريب المبدئي، يتولى العمل الشاق عنك.
استخدم Magic Prompt عندما:
- تستكشف أفكاراً بسرعة
- لا تحتاج دقة في التخطيط
- تريد من النموذج اتخاذ قرارات إبداعية
اكتب JSON يدوياً عندما:
- تصاميم تعتمد على الطباعة (ملصقات، رسومات سوشيال ميديا، تغليف)
- تحتاج نتائج بألوان hex دقيقة للعلامة التجارية
- تصوير منتجات بتكوين محدد
- عناصر متعددة يجب ألا تتداخل
الأخطاء الشائعة وكيفية تجنبها
ترتيب خاطئ لإحداثيات bounding box. الصيغة هي [y_min, x_min, y_max, x_max] — Y أولاً، وليس X. عكس الترتيب يضع العناصر في مواضع غير متوقعة.
استخدام photo و art_style معاً. اختر واحداً فقط. هذان الحقلان متعارضان في بيانات التدريب — استخدام كليهما يُضعف جودة المخرجات.
ترتيب خاطئ للحقول. النموذج مدرب على تسلسل حقول صارم. الترتيب الصحيح: aesthetics → lighting → medium → art_style/photo → color_palette. في العناصر: type → bbox → desc (أو text → desc للعناصر النصية).
أكواد hex مختصرة. #FFF غير صالح. استخدم دائماً hex كاملاً من ستة أحرف بالأحرف الكبيرة: #FFFFFF.
تداخل bounding box النصية. عنصران نصيان يتشاركان نفس المنطقة سيُعرضان بشكل سيئ. خصص لكل كتلة نصية منطقة مستقلة غير متداخلة.
الإفراط في التحديد للمشاهد البسيطة. high_level_description مفصل مع ضبط الأسلوب غالباً ما يكفي. استخدم bounding box والتكوينات متعددة العناصر فقط عندما تحتاج فعلاً إلى دقة مكانية.
الأسئلة الشائعة
هل يجب استخدام JSON للحصول على نتائج جيدة؟
لا. النص العادي يعمل، خاصة مع Magic Prompt. JSON يمنحك تحكماً في التخطيط والألوان وموضع النص لا يوفره النص العادي — لكن لتوليد الصور العام دون متطلبات تكوين صارمة، النص العادي كافٍ تماماً.
كم عدد الألوان التي يمكن وضعها في لوحة الألوان؟
حتى 16 كود hex في لوحة style_description العامة، و5 لكل عنصر فردي. هذه توجه الألوان السائدة لكنها ليست ضمانات دقيقة — اعتبرها اقتراحات قوية للنموذج.
ما الدقة التي يدعمها Ideogram 4.0؟
أي دقة من 256×256 إلى 2048×2048، بمضاعفات 16 بكسل. للحصول على أفضل جودة عند التشغيل محلياً، استخدم 2048×2048 مع إعداد العينات V4_QUALITY_48.
ما الفرق عن Ideogram 3.0؟
Ideogram 4.0 مفتوح الأوزان (3.0 كان عبر API فقط)، يستخدم تدريب JSON المهيكل بدلاً من اللغة الطبيعية، وحسّن عرض النصوص بشكل كبير. التحكم في التخطيط عبر bounding box وضبط لوحة الألوان جديدان في الإصدار 4.0.
هل يمكن تشغيل Ideogram 4.0 محلياً؟
نعم. نقاط التحقق fp8 و nf4 متاحة على HuggingFace. نسخة fp8 تحتاج بطاقة رسومية بذاكرة 24 جيجابايت على الأقل. ComfyUI لديه عقد مجتمعية تشمل منشئ المطالبات من KJ الذي يبسط بناء JSON.
أين يمكن استخدام Ideogram 4.0 عبر الإنترنت؟
Editly يدعم Ideogram 4.0 بإدخال نص عادي و JSON. منصة Ideogram الرسمية تقدمه أيضاً عبر API وواجهة الويب.

