كشفت شركة «Kuaishou Technology»، وهي شركة صينية معروفة كمنصة للفيديوهات القصيرة، عن تطبيق ذكاء اصطناعي جديد لتحويل النص إلى فيديو يسمى «Kling».
ويبدو هذا التطبيق على عكس «Sora»، حيث أصبح «Kling» متاحاً بالفعل للمستخدمين من خلال قائمة الانتظار.
ويستخدم «Kling» تقنية مشابهة لـ«Sora»، ويمكنه إنتاج مقاطع فيديو عالية الوضوح بدقة 1080 بكسل يمكن أن تستمر مدة تصل إلى دقيقتين.
ويمكن للنموذج إنشاء حركات واقعية واسعة النطاق تحاكي بشكل أساسي خصائص العالم المادي، ويقال: إن «Kling» يعتمد على بنية «Diffusion Transformer»، ويستطيع ترجمة المطالبات النصية إلى صور وفيديوهات حية.
كما يستخدم نموذج «Kling» عملية إعادة بناء الوجه والجسم الثلاثية الأبعاد المتقدمة المدعومة بتقنية «3D VAE» الخاصة بالشركة، ما يتيح للمستخدمين إنشاء مقاطع فيديو بنسب عرض إلى ارتفاع مختلفة.
وكانت الشركة قد أصدرت مقطع فيديو تجريبياً يعرض قدرة «Kling» على إنشاء مقطع فيديو تصل مدته إلى دقيقتين بجودة 30 إطاراً في الثانية.
من ناحية أخرى، يتمكن «Sora» فقط من إنشاء مقاطع فيديو مدتها دقيقة واحدة، واستناداً إلى العينات المنشورة على منصة «إكس»، يبدو أن مقاطع الفيديو التي أنشأها «Kling» تحاكي بدقة الخصائص الفيزيائية في العالم الحقيقي.
تجدر الإشارة إلى أن «Kling» ليس النموذج الوحيد لتحويل النص إلى فيديو من الصين، ففي نيسان تم إصدار«Vidu AI»، وهو نموذج تحويل النص إلى فيديو قادر على إنتاج مقاطع فيديو مدتها 16 ثانية بدقة 1080 بكسل.
سيرياهوم نيوز 2_تشرين