ByteDance تطلق نظام OmniHuman-1 للفيديوهات البشرية الواقعية
في خطوة تكنولوجية رائدة، أعلنت شركة ByteDance، الشركة الأم لمنصة TikTok الشهيرة، عن إطلاق إطار عمل جديد للذكاء الاصطناعي يحمل اسم OmniHuman-1، وهو نظام متقدم لتوليد فيديوهات بشرية واقعية يتميز بدقة عالية في تقليد حركات الجسد وتعبيرات الوجه، بما في ذلك مزامنة الشفاه، ليعيد رسم ملامح مستقبل صناعة المحتوى المرئي.
ابتكار يدمج الذكاء البشري بالصورة الرقمية
يوصف نظام OmniHuman بأنه نظام ذكاء اصطناعي متعدد الوسائط قادر على توليد مقاطع فيديو واقعية لشخصيات بشرية باستخدام صورة واحدة فقط للشخص، إلى جانب ما يُعرف بـ إشارات الحركة مثل فيديو أو صوت أو مزيج من كليهما.
ويعمل الإطار وفق خوارزميات متقدمة قادرة على تحليل وتفسير الإشارات الحركية وتحويلها إلى فيديو متكامل يظهر فيه الجسد البشري بالكامل بتعبيرات طبيعية وتفاصيل دقيقة.
وأشار الباحثون إلى أن هذه التقنية تعتمد على استراتيجية جديدة تُسمى التدريب متعدد الشروط، وهي طريقة تتيح للنظام التعلم من مصادر متعددة، مثل النصوص، الصور، مقاطع الفيديو، والصوت، بهدف تحسين قدرة الذكاء الاصطناعي على إنتاج حركات بشرية تتسم بالدقة والمرونة، حتى في ظل ندرة البيانات المتوفرة.
نتائج واقعية تثير
الإعجاب والقلق
ضمن إعلانها، شاركت ByteDance العديد من العروض التوضيحية لمقاطع فيديو تم إنشاؤها بواسطة نموذج OmniHuman، أظهرت قدرة النموذج على إنتاج فيديوهات كاملة للجسم البشري، مع حركة دقيقة للأطراف وتعبيرات وجه متزامنة مع الصوت، بما يشبه تمامًا أداء الممثلين الحقيقيين.
هذه النتائج، التي وُصفت بأنها واقعية بشكل مذهل، أثارت إعجاب المتابعين والمختصين، لكنها في الوقت ذاته فتحت باب القلق حول استخدامات هذه التكنولوجيا في التزييف العميق (Deepfake)، لا سيما في ظل قدرتها على إنتاج مقاطع يصعب التفرقة بينها وبين التصوير الحقيقي.
مرونة الاستخدام ودقة التطويع
واحدة من أبرز ميزات OmniHuman هي المرونة الكبيرة في توليد الفيديوهات، حيث يمكن للمستخدمين إنشاء مقاطع بنسبة عرض إلى ارتفاع مختلفة، ما يجعله مناسبًا لمجموعة متنوعة من الاستخدامات، سواء في مقاطع الهواتف المحمولة أو الإنتاج السينمائي أو التطبيقات التجارية والتعليمية.
كما يدعم النموذج إمكانيات التحكم في تفاصيل الحركة عبر إشارات صوتية فقط أو فيديو فقط، وهو ما يوفر نطاقًا واسعًا من حرية التخصيص، سواء لأغراض الترفيه أو الابتكار أو حتى المساعدة في النمذجة الطبية والتعليمية.
تقنيات معقدة..
وتدريب ضخم
كشفت ByteDance أن النموذج تم تدريبه على أكثر من 18,700 ساعة من مقاطع الفيديو البشرية، باستخدام تقنية تدريب مختلط تجمع بين مصادر متعددة في وقت واحد، مما مكنه من تحقيق أداء يتفوق على النماذج المنافسة، على حد وصف الباحثين، رغم أنهم لم ينشروا بعد مقاييس مقارنة تفصيلية.

وقد تم توثيق تفاصيل هذا المشروع البحثي في ورقة علمية نُشرت على منصة arXiv العلمية المفتوحة، حيث تم شرح البنية المعمارية للنموذج، وخوارزميات التدريب، والتحديات التي واجهها الفريق البحثي أثناء تطوير الإطار.
الاستخدامات الممكنة والتحديات الأخلاقية
يُتوقع أن يكون لـ OmniHuman تطبيقات واسعة في مجالات متنوعة، مثل صناعة الأفلام، الإعلانات، الألعاب الإلكترونية، التعليم الافتراضي، والواقع المعزز. ولكن في الوقت ذاته، يشير مختصون في أخلاقيات الذكاء الاصطناعي إلى أن هذا النوع من التكنولوجيا قد يُستخدم لأغراض ضارة، مثل تزوير الهويات، أو إنتاج فيديوهات مفبركة لأغراض سياسية أو تجارية.
ورغم أن ByteDance أكدت أن النموذج غير متاح حاليًا للتنزيل أو الاستخدام العام، إلا أن طرحه في المجال العام كمشروع مفتوح أثار تساؤلات حول حدود الوصول إليه، وكيفية التحكم في تطبيقاته مستقبلاً.
الشركة توضح: النموذج متاح للبحث فقط
في ردها على هذه المخاوف، أوضحت الشركة أن النموذج حاليًا مخصص للأغراض البحثية فقط، ولا توجد منصة أو خدمة تتيح للمستخدمين إنشاء الفيديوهات بشكل مباشر باستخدام OmniHuman. كما أكدت التزامها بتطبيق أعلى معايير السلامة الرقمية والأخلاقيات التقنية في أي تطوير أو نشر مستقبلي للتكنولوجيا.
وقالت ByteDance في بيانها: نحن ندرك تمامًا القوة التي تملكها هذه النماذج، ولذلك فإننا ملتزمون باستخدامها بطريقة مسؤولة تحترم الخصوصية وحقوق الأفراد.
مستقبل إنتاج الفيديو... بلا كاميرات؟
مع تطور تقنيات مثل OmniHuman، قد نكون أمام مستقبل تتغير فيه قواعد إنتاج الفيديو التقليدي.
حيث يصبح من الممكن إنتاج فيديوهات كاملة من خلال الذكاء الاصطناعي فقط، دون الحاجة إلى كاميرات، أو استوديوهات، أو حتى ممثلين حقيقيين. وقد يفتح ذلك آفاقًا جديدة أمام صناع المحتوى، لكنه يفرض كذلك تحديات قانونية وفكرية تتعلق بحقوق النشر والهوية الرقمية.
خلاصة:
يمثل إطلاق OmniHuman-1 من شركة ByteDance قفزة نوعية في عالم الذكاء الاصطناعي المرئي، ويضع أسساً جديدة لصناعة المحتوى الرقمي القائم على الأتمتة والمحاكاة الواقعية. وبينما ينتظر العالم