دليل HappyHorse 1.1: ما الذي يميّز نموذج الفيديو بالذكاء الاصطناعي من Alibaba

HappyHorse هو نموذج لتوليد الفيديو بالذكاء الاصطناعي طوّره مركز ATH للابتكار، التابع لمجموعة Taotian Group في Alibaba. بعد إطلاق الإصدار 1.0 في أبريل 2026، صعد النموذج مباشرة إلى المرتبة الثانية في تصنيف Artificial Analysis (ELO 1357 في المرتبة الأولى بدون صوت، ELO 1212 متعادلاً مع Seedance 2.0 في تصنيف الصوت). صدر الإصدار 1.1 في 22 يونيو، بالتزامن مع إطلاق مسابقة عالمية لصناعة الأفلام بالذكاء الاصطناعي.

على عكس Seedance وKling، الميزة الأساسية لـ HappyHorse هي: بنية موحّدة — نموذج واحد يعالج النص والصور والفيديو والصوت في آن واحد — ليست وحدات منفصلة مجمّعة، بل Transformer أحادي التدفق بـ 15 مليار معامل يولّد كل شيء دفعة واحدة.

ما الذي تغيّر من 1.0 إلى 1.1

الجانب	1.0	1.1
جودة الحركة	أساسية	أكثر طبيعية، فيزياء أكثر إقناعاً
ثبات الشخصيات	انحراف عرضي	تحسّن، شخصيات أكثر استقراراً عبر المشاهد
اتباع التعليمات	التعليمات الطويلة كانت تنحرف	أدق مع التعليمات المعقدة متعددة المشاهد والشخصيات
ملمس الصورة	مظهر زيتي أحياناً، حدّة مفرطة	يحافظ على تفاصيل البشرة الحقيقية (المسام، خطوط التعبير)
توليد الصوت	مزامنة أصلية	نبرة وإيقاع وتوقفات أكثر طبيعية، دعم وصف الأصوات المحيطة في التعليمات
صور مرجعية	حتى 9	حتى 9 (بدون تغيير، لكن دقة المطابقة تحسّنت)

مقارنة HappyHorse 1.0 و1.1

باختصار: الإصدار 1.1 ليس ترقية في الوظائف، بل صقل شامل — معالجة المشاكل التي اشتكى منها مستخدمو 1.0: "المظهر الزيتي" و"الحدّة المفرطة" و"انحراف التعليمات الطويلة".

المواصفات الأساسية

البنية: Transformer أحادي التدفق بـ 15B معامل، 40 طبقة self-attention، توليد مشترك للفيديو والصوت
الدقة: حتى 1080P
المدة: حتى 10 ثوانٍ
صور مرجعية: حتى 9 (وضع R2V، تُعلَّم في التعليمات كـ character1 وcharacter2 إلخ)
مزامنة الشفاه: 7 لغات (الصينية، الكانتونية، الإنجليزية، اليابانية، الكورية، الألمانية، الفرنسية)
نسب العرض: 16:9، 9:16، 1:1

R2V: كيف تستخدم 9 صور مرجعية

ميزة Reference-to-Video (R2V) في HappyHorse هي ما يميّزه عن المنافسين. ارفع حتى 9 صور مرجعية، علّمها كـ character1 وcharacter2 إلخ، وسيدمج النموذج مظهر وملابس وأسلوب كل شخصية في الفيديو المولَّد.

سيناريوهات مناسبة:

فيديوهات العلامة التجارية: ارفع لوحة الألوان + الشعار + صور المنتج للحفاظ على هوية العلامة
سرد متعدد الشخصيات: صورة مرجعية لكل شخصية، مظهر ثابت عبر اللقطات
إبداع ثانوي على IP: ارفع تصميم الشخصية لتوليد فيديو ديناميكي لها

للمقارنة: Seedance 2.0 يدعم 12 مدخلاً مرجعياً (صور + صوت + فيديو)، Seedance 2.5 يتوسع إلى 50. حد HappyHorse البالغ 9 أقل، لكن نظام التعليم يجعل التحكم في مشاهد الشخصيات المتعددة أكثر سهولة.

التسعير

تختلف أسعار HappyHorse حسب المنصة (حتى يونيو 2026):

المنصة	720P للثانية	1080P للثانية	رصيد مجاني
fal.ai (شريك API الرسمي)	~$0.18	~$0.32	نعم
EvoLink	~$0.18	~$0.32	رصيد عند التسجيل
Alibaba Cloud Bailian	غير معلن	غير معلن	نعم

مقارنة أسعار API

بالمقارنة: سعر API الخاص بـ HappyHorse (~~$0.18/ث عند 720P) أعلى من Seedance 2.0 Mini (~~$0.07/ث) وKling 3.0 Turbo (~$0.11/ث)، لكن ترتيبه في تصنيف الجودة أعلى أيضاً.

موقعه بين المنافسين

النموذج	تصنيف ELO	أقصى دقة	أقصى مدة	صوت	مراجع	التكلفة/ث
HappyHorse 1.1	#1-2	1080P	10 ث	أصلي، 7 لغات	9 صور	~$0.18
Seedance 2.0	#1-2	4K	15 ث	أصلي	12	~$0.14
Kling 3.0	#3	4K/60fps	15 ث	أصلي + إضافي	نظام عناصر	~$0.11
Runway Gen-4	#4-5	1080P	10 ث	بدون أصلي	محدود	~$0.25

نقاط قوة HappyHorse في ترتيب الجودة ومزامنة الشفاه بـ 7 لغات؛ نقاط الضعف في الدقة (لا يوجد 4K)، المدة (10 ث مقابل 15 ث عند المنافسين) والسعر.

الخلاصة

HappyHorse 1.1 من أعلى نماذج الفيديو بالذكاء الاصطناعي تصنيفاً حالياً، والبنية الموحّدة بـ 15 مليار معامل تقدّم تنسيقاً صوتياً بصرياً ممتازاً فعلاً. لكنه ليس لكل شيء — حد 10 ثوانٍ وسقف 1080P يعنيان أن المقاطع الطويلة أو 4K تحتاج Seedance أو Kling.

التوصيات:

أعلى جودة، مزامنة شفاه بـ 7 لغات → HappyHorse 1.1
أفضل قيمة، مقاطع أطول → Seedance 2.0 Mini أو Kling 3.0 Turbo
4K، سرد 30 ثانية → Seedance 2.5 (يصدر في يوليو)