مؤخراً، كان أحد أبرز التقدمات في مجال الذكاء الاصطناعي هو الاختراق في تقنية توليد الفيديو متعدد الوسائط. لقد تطورت هذه التقنية من توليد الفيديو من نص واحد فقط إلى القدرة على دمج النصوص والصور والصوت في قدرة توليد شاملة.
إليك بعض الأمثلة على الاختراقات التقنية التي تستحق الانتباه:
شركة تكنولوجيا مفتوحة المصدر إطارًا يمكنه تحويل الفيديو العادي إلى محتوى 4D بزاوية حرة، حيث بلغت نسبة قبول المستخدمين 70.7%. وهذا يعني أن الذكاء الاصطناعي يمكنه الآن إنشاء تأثيرات مشاهدة من أي زاوية تلقائيًا، وهو ما كان يتطلب في الماضي فريق نمذجة ثلاثية الأبعاد محترف.
تدعي منصة توليد الصور التي أطلقتها شركة ما أنها تستطيع تحويل صورة واحدة إلى فيديو "بجودة سينمائية" مدته 10 ثوانٍ. ومع ذلك، لا يزال يتعين التحقق من صحة هذا الادعاء.
تقنية طورتها مؤسسة بحثية معروفة في الذكاء الاصطناعي يمكنها إنشاء فيديوهات بدقة 4K وصوت بيئي في نفس الوقت. كانت النقطة الرئيسية في هذه التقنية هي تحقيق مطابقة حقيقية على المستوى الدلالي، مثل تحقيق التوافق الدقيق بين حركة المشي في المشهد وأصوات الخطوات في المشاهد المعقدة.
أطلق أحد منصات الفيديو القصير نموذج توليد الفيديو الذي يحتوي على 80 مليار معلمة، ويمكنه إنتاج فيديو بدقة 1080 بكسل في غضون 2.3 ثانية، بتكلفة 3.67 يوان/5 ثوان. على الرغم من السيطرة الجيدة على التكاليف، لا يزال هناك مجال للتحسين عند معالجة المشاهد المعقدة.
تعتبر هذه الإنجازات التقنية ذات أهمية كبيرة من حيث جودة الفيديو وتكاليف الإنتاج وسيناريوهات التطبيق.
من الناحية التقنية، فإن تعقيد توليد الفيديو متعدد الوسائط هو تعقيد أسي. فهو لا يتطلب فقط معالجة نقاط البكسل للصورة الواحدة، بل يجب أيضًا ضمان تماسك توقيت الفيديو، وتحقيق تزامن الصوت، وأخذ الاتساق الثلاثي الأبعاد في الاعتبار. الآن، يمكن تحقيق هذه المهمة المعقدة من خلال تفكيكها بشكل نمطي والتعاون بين النماذج الكبيرة، مما يزيد من الكفاءة بشكل كبير.
فيما يتعلق بالتكلفة، تم تقليل تكلفة الإنتاج بشكل كبير من خلال تحسين بنية الاستدلال، بما في ذلك اعتماد استراتيجيات التوليد الهرمي، وآليات إعادة استخدام الذاكرة المؤقتة، وتخصيص الموارد الديناميكي.
فيما يتعلق بالتطبيقات، فإن تقنية الذكاء الاصطناعي تغير عمليات إنتاج الفيديو التقليدية. في الماضي، كان إنتاج إعلان مدته 30 ثانية قد يتطلب مئات الآلاف من تكاليف الإنتاج. أما الآن، فيكفي وجود كلمة مفتاحية و بضع دقائق من الانتظار لإنشاء محتوى فيديو عالي الجودة، بل ويمكن تحقيق زوايا وتأثيرات خاصة يصعب الوصول إليها من خلال التصوير التقليدي. قد تدفع هذه الثورة النظام الاقتصادي للمنشئين بأكمله إلى إعادة هيكلة.
ما تأثير تقدم هذه التقنيات الذكية على مجال Web3؟
أولاً، تغير هيكل طلب قوة الحوسبة. في الماضي، اعتمد الذكاء الاصطناعي بشكل رئيسي على تجمعات GPU الكبيرة والمتماثلة، بينما تتطلب توليد الفيديو متعدد الوسائط مجموعة متنوعة من تركيبات قوة الحوسبة. وهذا خلق طلبًا جديدًا على قوة الحوسبة غير المستخدمة الموزعة، ونماذج الضبط الموزعة المتنوعة، والخوارزميات ومنصات الاستدلال.
ثانياً، ستزداد الحاجة إلى وسم البيانات. يتطلب إنشاء مقاطع فيديو بمستوى احترافي وصفاً دقيقاً للمشاهد، وصور مرجعية، وأنماط صوتية، ومسارات حركة الكاميرا، وظروف الإضاءة، وغيرها من البيانات المتخصصة. يمكن أن تشجع آلية الحوافز في Web3 المصورين، ومصممي الصوت، والفنانين ثلاثيي الأبعاد على تقديم بيانات عالية الجودة، مما يعزز قدرة الذكاء الاصطناعي على إنشاء مقاطع الفيديو.
أخيرًا، يمثل تحول تقنية الذكاء الاصطناعي من تخصيص الموارد الضخمة المركزية إلى التعاون المعياري في حد ذاته طلبًا جديدًا على المنصات اللامركزية. في المستقبل، قد تشكل قوة الحوسبة والبيانات والنماذج وآليات التحفيز حلقة تعزز ذاتها، مما يدفع إلى الاندماج العميق بين الذكاء الاصطناعي في ويب 3 والسيناريوهات التقليدية للذكاء الاصطناعي.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 6
أعجبني
6
5
مشاركة
تعليق
0/400
WalletDetective
· 07-20 11:37
الحقيقة لا يمكن أن تكون مزيفة والشيء المزيف لا يمكن أن يكون حقيقة
شاهد النسخة الأصليةرد0
DaoResearcher
· 07-20 02:53
الاختراق ليس بارزًا بما فيه الكفاية، ويمكن إثبات ذلك من خلال مقارنة البيانات على السلسلة.
شاهد النسخة الأصليةرد0
StableGenius
· 07-20 02:52
مه، خطوة أخرى متوقعة. أي شخص يفهم رياضيات التنسور قد رأى هذا قادماً منذ زمن بعيد.
شاهد النسخة الأصليةرد0
GasGuru
· 07-20 02:42
挺猛啊 قوة الحوسبة要 للقمر了
شاهد النسخة الأصليةرد0
PumpAnalyst
· 07-20 02:26
مرة أخرى، تأتي آلة خداع الحمقى. الجانب الفني جميل حقًا، لكن لا تدع رأس المال يلعب بك.
اختراق جديد في توليد الفيديو بالذكاء الاصطناعي: تقنية متعددة الوسائط تغير مشهد قوة الحوسبة في Web3
مؤخراً، كان أحد أبرز التقدمات في مجال الذكاء الاصطناعي هو الاختراق في تقنية توليد الفيديو متعدد الوسائط. لقد تطورت هذه التقنية من توليد الفيديو من نص واحد فقط إلى القدرة على دمج النصوص والصور والصوت في قدرة توليد شاملة.
إليك بعض الأمثلة على الاختراقات التقنية التي تستحق الانتباه:
شركة تكنولوجيا مفتوحة المصدر إطارًا يمكنه تحويل الفيديو العادي إلى محتوى 4D بزاوية حرة، حيث بلغت نسبة قبول المستخدمين 70.7%. وهذا يعني أن الذكاء الاصطناعي يمكنه الآن إنشاء تأثيرات مشاهدة من أي زاوية تلقائيًا، وهو ما كان يتطلب في الماضي فريق نمذجة ثلاثية الأبعاد محترف.
تدعي منصة توليد الصور التي أطلقتها شركة ما أنها تستطيع تحويل صورة واحدة إلى فيديو "بجودة سينمائية" مدته 10 ثوانٍ. ومع ذلك، لا يزال يتعين التحقق من صحة هذا الادعاء.
تقنية طورتها مؤسسة بحثية معروفة في الذكاء الاصطناعي يمكنها إنشاء فيديوهات بدقة 4K وصوت بيئي في نفس الوقت. كانت النقطة الرئيسية في هذه التقنية هي تحقيق مطابقة حقيقية على المستوى الدلالي، مثل تحقيق التوافق الدقيق بين حركة المشي في المشهد وأصوات الخطوات في المشاهد المعقدة.
أطلق أحد منصات الفيديو القصير نموذج توليد الفيديو الذي يحتوي على 80 مليار معلمة، ويمكنه إنتاج فيديو بدقة 1080 بكسل في غضون 2.3 ثانية، بتكلفة 3.67 يوان/5 ثوان. على الرغم من السيطرة الجيدة على التكاليف، لا يزال هناك مجال للتحسين عند معالجة المشاهد المعقدة.
تعتبر هذه الإنجازات التقنية ذات أهمية كبيرة من حيث جودة الفيديو وتكاليف الإنتاج وسيناريوهات التطبيق.
من الناحية التقنية، فإن تعقيد توليد الفيديو متعدد الوسائط هو تعقيد أسي. فهو لا يتطلب فقط معالجة نقاط البكسل للصورة الواحدة، بل يجب أيضًا ضمان تماسك توقيت الفيديو، وتحقيق تزامن الصوت، وأخذ الاتساق الثلاثي الأبعاد في الاعتبار. الآن، يمكن تحقيق هذه المهمة المعقدة من خلال تفكيكها بشكل نمطي والتعاون بين النماذج الكبيرة، مما يزيد من الكفاءة بشكل كبير.
فيما يتعلق بالتكلفة، تم تقليل تكلفة الإنتاج بشكل كبير من خلال تحسين بنية الاستدلال، بما في ذلك اعتماد استراتيجيات التوليد الهرمي، وآليات إعادة استخدام الذاكرة المؤقتة، وتخصيص الموارد الديناميكي.
فيما يتعلق بالتطبيقات، فإن تقنية الذكاء الاصطناعي تغير عمليات إنتاج الفيديو التقليدية. في الماضي، كان إنتاج إعلان مدته 30 ثانية قد يتطلب مئات الآلاف من تكاليف الإنتاج. أما الآن، فيكفي وجود كلمة مفتاحية و بضع دقائق من الانتظار لإنشاء محتوى فيديو عالي الجودة، بل ويمكن تحقيق زوايا وتأثيرات خاصة يصعب الوصول إليها من خلال التصوير التقليدي. قد تدفع هذه الثورة النظام الاقتصادي للمنشئين بأكمله إلى إعادة هيكلة.
ما تأثير تقدم هذه التقنيات الذكية على مجال Web3؟
أولاً، تغير هيكل طلب قوة الحوسبة. في الماضي، اعتمد الذكاء الاصطناعي بشكل رئيسي على تجمعات GPU الكبيرة والمتماثلة، بينما تتطلب توليد الفيديو متعدد الوسائط مجموعة متنوعة من تركيبات قوة الحوسبة. وهذا خلق طلبًا جديدًا على قوة الحوسبة غير المستخدمة الموزعة، ونماذج الضبط الموزعة المتنوعة، والخوارزميات ومنصات الاستدلال.
ثانياً، ستزداد الحاجة إلى وسم البيانات. يتطلب إنشاء مقاطع فيديو بمستوى احترافي وصفاً دقيقاً للمشاهد، وصور مرجعية، وأنماط صوتية، ومسارات حركة الكاميرا، وظروف الإضاءة، وغيرها من البيانات المتخصصة. يمكن أن تشجع آلية الحوافز في Web3 المصورين، ومصممي الصوت، والفنانين ثلاثيي الأبعاد على تقديم بيانات عالية الجودة، مما يعزز قدرة الذكاء الاصطناعي على إنشاء مقاطع الفيديو.
أخيرًا، يمثل تحول تقنية الذكاء الاصطناعي من تخصيص الموارد الضخمة المركزية إلى التعاون المعياري في حد ذاته طلبًا جديدًا على المنصات اللامركزية. في المستقبل، قد تشكل قوة الحوسبة والبيانات والنماذج وآليات التحفيز حلقة تعزز ذاتها، مما يدفع إلى الاندماج العميق بين الذكاء الاصطناعي في ويب 3 والسيناريوهات التقليدية للذكاء الاصطناعي.