LeX-Art: إعادة النظر في توليد النصوص عبر توليف بيانات عالية الجودة وقابلة للتطوير

لمحة نيوز

في ظل التطورات المتسارعة في مجال النماذج اللغوية والرؤية الحاسوبية، برز مفهوم "LeX-Art: إعادة النظر في توليد النصوص عبر توليف بيانات عالية الجودة وقابلة للتطوير" كأحد الابتكارات الرائدة التي تسعى لتحسين قدرة نماذج تحويل النص إلى صورة (T2I) على إنتاج صور تحتوي على نصوص دقيقة وجذابة بصريًا. يعتمد هذا الإطار على منهجية مركزية تعتمد على البيانات، حيث يتم تحسين جودة البيانات المُستخدمة في تدريب النماذج بدلاً من التركيز فقط على تعديل بنية النماذج نفسها. سنتعرف في هذا المقال على المكونات الأساسية لهذا النظام وآلية عمله والنتائج التي يحققها.

1. خلفية وأهمية المشروع
لطالما كان توليد النصوص داخل الصور يمثل تحديًا كبيرًا في أنظمة تحويل النص إلى صورة؛ إذ أن الحفاظ على دقة النصوص ووضوحها مع دمجها بشكل متناغم مع عناصر الصورة الأخرى يُعد أمرًا بالغ الأهمية، خاصة في مجالات التصميم والإعلان. النماذج التقليدية غالبًا ما تركز على تحسين دقة النص باستخدام إشارات تحكم إضافية مثل معلومات الخطوط (glyphs)؛ ومع ذلك، قد يؤدي ذلك إلى تقليل التنوع الجمالي وتداخل غير سلس مع المحتوى البصري. وهنا تأتي فكرة LeX-Art التي تعيد النظر في كيفية توليد النصوص من خلال توليف بيانات عالية الجودة وتدريب النماذج على هذه البيانات المُحسنة.

2. المكونات الرئيسية لإطار LeX-Art
يتألف نظام LeX-Art من عدة مكونات متكاملة تعمل معًا لتحسين جودة الصور المُولدة:

مجموعة البيانات LeX-10K:
يُعد إنشاء مجموعة بيانات عالية الجودة من أبرز المراحل في هذا النظام. تم بناء LeX-10K عبر سلسلة من العمليات الممنهجة تبدأ باستخلاص عناوين

بسيطة من مجموعات بيانات موجودة مثل AnyWord-3M، ثم يتم تحسين هذه العناوين باستخدام نموذج لغوي متقدم يُدعى DeepSeek-R1. يقوم هذا النموذج بتوسيع العناوين البسيطة لتشمل تفاصيل دقيقة حول السمات البصرية مثل أنماط الخطوط وتنسيقات الألوان والتخطيطات المكانية. بعد ذلك، تُستخدم عدة طرق تصفية (مثل Q-Align ومحرك Paddle-OCR-v3) لاختيار أفضل الصور من بين عدة نسخ مولدة لكل عنوان، مما يضمن الحصول على صور عالية الدقة وجاذبة بصريًا.

نموذج LeX-Enhancer:
يعد LeX-Enhancer نموذجًا خفيف الوزن متخصصًا في تحسين النصوص المُقدمة إلى نظام تحويل النص إلى صورة. يتم تدريبه باستخدام تقنيات التقطير المعرفي (Knowledge Distillation) ونموذج Qwen2.5-14B مع استخدام تقنية LoRA، مما يسمح له بتوليد عناوين ثرية بالتفاصيل البصرية بشكل فعال وسريع. يُساهم هذا النموذج في تحسين دقة النص المُولَّد في الصورة عن طريق إثراء التوجيهات النصية بالتفاصيل التي تساعد النموذج على فهم المتطلبات البصرية بدقة أكبر.

نماذج LeX-FLUX وLeX-Lumina:
بعد إنشاء مجموعة البيانات المحسنة وتطوير LeX-Enhancer، يتم استخدام هذه المكونات لتعديل نماذج تحويل النص إلى صورة القائمة. يعتمد نموذج LeX-FLUX على FLUX.1 [dev] ويضم حوالي 12 مليار معلمة، بينما يعتمد LeX-Lumina على نموذج Lumina-Image 2.0 الذي يحتوي على 2 مليار معلمة. تم تعديل كلا النموذجين باستخدام مجموعة بيانات LeX-10K لتحقيق أداء متميز في دقة النصوص المُولدة، وضمان التناسق البصري بين النص والعناصر الأخرى في الصورة.

مقياس LeX-Bench ومؤشر PNED:
لتقييم أداء النماذج في توليد النصوص داخل

الصور، تم تطوير معيار LeX-Bench الذي يحتوي على مجموعة من التحديات المصنفة إلى مستويات (سهل، متوسط، صعب) لتقييم دقة النصوص، والجمالية، ومحاذاة النص مع المحتوى البصري. كما تم تقديم مقياس جديد يُدعى "المسافة التحريرية المُعَيرة زوجيًا" (Pairwise Normalized Edit Distance – PNED) والذي يقيس مدى تطابق النص المُولد مع النص الأصلي باستخدام خوارزمية المجرى (Hungarian Algorithm) لمقارنة الكلمات بشكل غير مرتب، مما يجعله أكثر مرونة في التعامل مع الفروقات في ترتيب الكلمات.

3. آلية العمل والتفاصيل التقنية
تعتمد آلية عمل LeX-Art على نهج متعدد المراحل:

تحسين العناوين النصية:
تُستخلص عناوين بسيطة من مجموعات البيانات الأولية ثم تُعالج بواسطة DeepSeek-R1 لتوسيعها وتحويلها إلى أوصاف بصرية مفصلة تشمل معلومات دقيقة عن اللون، الخط، والموقع.

توليد الصور واختيار الأفضل:
باستخدام العناوين المحسنة، يتم توليد عدة نسخ من كل صورة عبر استخدام قيم مختلفة للبذور العشوائية. تُطبق عملية "الأفضل من N" لاختيار الصورة ذات أعلى جودة وجمالية، حيث يُستخدم نظام Q-Align لاحتساب الدرجات اعتمادًا على وضوح الصورة والمعايير الجمالية.

تصحيح وتعديل التوجيهات:
نظرًا لاحتمالية عدم تطابق الصورة المولدة مع التوجيهات الأصلية بشكل كامل، يتم استخدام نموذج GPT-4o لإعادة صياغة الوصف النصي بما يتماشى مع المحتوى البصري الفعلي، مما يضمن توازنًا مثاليًا بين النص والصورة.

تقييم الأداء:
تُقيَّم النماذج باستخدام LeX-Bench ومقياس PNED للتأكد من دقة النص المُولد، تنسيقه، وجودته الجمالية، مع إجراء تجارب مقارنة تشمل تقييمات بشرية

ورقمية.

4. النتائج والتطبيقات المستقبلية
أظهرت التجارب العملية أن النماذج المعدلة باستخدام بيانات LeX-Art (مثل LeX-FLUX وLeX-Lumina) تحقق تحسينات ملحوظة في دقة النصوص من حيث الألوان، المواضع، وأنماط الخطوط مقارنةً بالنماذج الأساسية. على سبيل المثال، سجل نموذج LeX-Lumina زيادة في مؤشر PNED تصل إلى 79.81% على مجموعة بيانات CreateBench، كما تفوقت النماذج في تحقيق تحسينات بنسبة 3.18% في دقة الألوان و4.45% في المحاذاة النصية.

هذه النتائج ليست فقط مؤشرًا على نجاح المنهجية المعتمدة في LeX-Art، بل تفتح آفاقًا جديدة لتطبيقات مستقبلية متعددة مثل:

التصميم الإعلاني والمرئي: حيث يمكن استخدام هذه التقنيات لإنتاج ملصقات وشعارات تتميز بجودة عالية ودقة في عرض النصوص.

تحسين أدوات التصميم الذاتي: بما يتيح للمستخدمين إنشاء تصاميم جذابة دون الحاجة إلى خبرة متعمقة في التصميم.

تطوير واجهات المستخدم التفاعلية: من خلال دمج النصوص داخل الصور بشكل يتماشى مع العناصر البصرية، مما يحسن تجربة المستخدم بشكل عام.

5. خاتمة
يمثل LeX-Art خطوة متقدمة في إعادة التفكير في كيفية توليد النصوص داخل الصور باستخدام نهج يعتمد بشكل أساسي على جودة البيانات. من خلال إنشاء مجموعة بيانات LeX-10K وتحسينها عبر نماذج مثل LeX-Enhancer، بالإضافة إلى تعديل النماذج القائمة لتحقيق توازن مثالي بين دقة النص والجماليات البصرية، يفتح هذا النظام آفاقًا واسعة لتحسين أداء نماذج تحويل النص إلى صورة. ومع تطوير معايير تقييم جديدة مثل LeX-Bench ومقياس PNED، يتمكن الباحثون والمطورون من قياس وتحليل أداء النماذج بشكل أكثر دقة، مما

يسهم في تعزيز الابتكار في هذا المجال الحيوي.

تم نسخ الرابط