Baru-baru ini, salah satu kemajuan paling signifikan di bidang AI adalah terobosan dalam teknologi pembuatan video multimodal. Teknologi ini telah berkembang dari pembuatan video berbasis teks tunggal menjadi kemampuan pembuatan yang mengintegrasikan teks, gambar, dan audio secara menyeluruh.
Berikut adalah beberapa contoh terobosan teknologi yang patut diperhatikan:
Sebuah perusahaan teknologi telah membuka sumber sebuah kerangka kerja yang dapat mengubah video biasa menjadi konten 4D dengan sudut pandang bebas, dengan tingkat penerimaan pengguna mencapai 70,7%. Ini berarti, AI sekarang dapat secara otomatis menghasilkan efek tampilan dari sudut mana pun, yang sebelumnya memerlukan tim pemodelan 3D profesional untuk menyelesaikannya.
Platform pembuatan gambar yang diluncurkan oleh suatu perusahaan mengklaim dapat mengubah satu gambar menjadi video berkualitas "film" berdurasi 10 detik. Namun, keakuratan klaim ini masih perlu diverifikasi.
Teknologi yang dikembangkan oleh lembaga penelitian AI terkemuka dapat secara bersamaan menghasilkan video 4K dan suara lingkungan. Terobosan kunci dari teknologi ini adalah pencapaian pencocokan pada tingkat semantik yang sebenarnya, seperti mencocokkan dengan tepat tindakan berjalan di dalam gambar dengan suara langkah kaki dalam adegan yang kompleks.
Sebuah platform video pendek meluncurkan model generasi video dengan 80 miliar parameter, mampu menghasilkan video 1080p dalam 2,3 detik, dengan biaya 3,67 yuan/5 detik. Meskipun pengendalian biaya dilakukan dengan baik, masih ada ruang untuk perbaikan dalam menangani skenario yang kompleks.
Terobosan teknologi ini memiliki makna penting dalam aspek kualitas video, biaya produksi, dan skenario aplikasi:
Dari segi teknis, kompleksitas pembuatan video multimodal adalah eksponensial. Ini tidak hanya memerlukan pemrosesan titik piksel dari gambar tunggal, tetapi juga harus memastikan koherensi temporal video, mewujudkan sinkronisasi audio, dan mempertimbangkan konsistensi ruang 3D. Saat ini, tugas kompleks ini dapat dicapai melalui pemecahan modular dan kolaborasi model besar, yang secara signifikan meningkatkan efisiensi.
Dalam hal biaya, melalui pengoptimalan arsitektur inferensi, termasuk penerapan strategi generatif bertingkat, mekanisme penggunaan kembali cache, dan alokasi sumber daya dinamis, biaya produksi dapat dikurangi secara signifikan.
Dalam hal aplikasi, teknologi AI sedang mengubah proses produksi video tradisional. Dulu, membuat iklan berdurasi 30 detik bisa memerlukan biaya produksi ratusan ribu. Namun sekarang, hanya dengan satu kata kunci dan beberapa menit waktu tunggu, konten video berkualitas tinggi dapat dihasilkan, bahkan dapat mencapai sudut pandang dan efek khusus yang sulit dicapai dengan pengambilan gambar tradisional. Perubahan ini dapat mendorong perombakan keseluruhan sistem ekonomi kreator.
Lalu, apa dampak kemajuan teknologi AI ini terhadap bidang Web3?
Pertama, struktur permintaan daya komputasi telah berubah. Dulu AI terutama bergantung pada kumpulan GPU homogen yang besar, sedangkan pembuatan video multimodal memerlukan kombinasi daya komputasi yang beragam. Ini menciptakan permintaan baru untuk daya komputasi yang tidak terpakai secara terdistribusi, berbagai model penyesuaian halus terdistribusi, algoritma, dan platform inferensi.
Kedua, permintaan untuk penandaan data akan meningkat. Menghasilkan video tingkat profesional memerlukan deskripsi adegan yang tepat, gambar referensi, gaya audio, jalur gerakan kamera, dan kondisi pencahayaan serta data profesional lainnya. Mekanisme insentif Web3 dapat mendorong fotografer, insinyur suara, dan seniman 3D untuk menyediakan materi data berkualitas tinggi, sehingga meningkatkan kemampuan generasi video AI.
Akhirnya, pergeseran teknologi AI dari pengelolaan sumber daya besar secara terpusat ke kolaborasi modular, itu sendiri mewakili permintaan baru untuk platform terdesentralisasi. Di masa depan, daya komputasi, data, model, dan mekanisme insentif mungkin akan membentuk siklus positif yang memperkuat diri sendiri, mendorong integrasi mendalam antara Web3 AI dan skenario AI tradisional.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
5 Suka
Hadiah
5
5
Bagikan
Komentar
0/400
WalletDetective
· 9jam yang lalu
Yang benar tidak bisa dipalsukan, yang palsu tidak bisa menjadi benar.
Lihat AsliBalas0
DaoResearcher
· 18jam yang lalu
Pecahan tidak cukup signifikan, perbandingan data di blockchain dapat membuktikannya
Lihat AsliBalas0
StableGenius
· 18jam yang lalu
meh, langkah yang dapat diprediksi lagi. siapa pun yang memahami matematika tensor sudah melihat ini datang sejak lama
Lihat AsliBalas0
GasGuru
· 18jam yang lalu
Tinggi sekali, Daya Komputasi akan To da moon.
Lihat AsliBalas0
PumpAnalyst
· 19jam yang lalu
Sekali lagi mesin pemanen suckers datang lagi. Aspek teknis memang bagus, tetapi jangan sampai dimainkan oleh kapital.
Terobosan baru dalam generasi video AI: Teknologi multimodal mengubah pola daya komputasi Web3
Baru-baru ini, salah satu kemajuan paling signifikan di bidang AI adalah terobosan dalam teknologi pembuatan video multimodal. Teknologi ini telah berkembang dari pembuatan video berbasis teks tunggal menjadi kemampuan pembuatan yang mengintegrasikan teks, gambar, dan audio secara menyeluruh.
Berikut adalah beberapa contoh terobosan teknologi yang patut diperhatikan:
Sebuah perusahaan teknologi telah membuka sumber sebuah kerangka kerja yang dapat mengubah video biasa menjadi konten 4D dengan sudut pandang bebas, dengan tingkat penerimaan pengguna mencapai 70,7%. Ini berarti, AI sekarang dapat secara otomatis menghasilkan efek tampilan dari sudut mana pun, yang sebelumnya memerlukan tim pemodelan 3D profesional untuk menyelesaikannya.
Platform pembuatan gambar yang diluncurkan oleh suatu perusahaan mengklaim dapat mengubah satu gambar menjadi video berkualitas "film" berdurasi 10 detik. Namun, keakuratan klaim ini masih perlu diverifikasi.
Teknologi yang dikembangkan oleh lembaga penelitian AI terkemuka dapat secara bersamaan menghasilkan video 4K dan suara lingkungan. Terobosan kunci dari teknologi ini adalah pencapaian pencocokan pada tingkat semantik yang sebenarnya, seperti mencocokkan dengan tepat tindakan berjalan di dalam gambar dengan suara langkah kaki dalam adegan yang kompleks.
Sebuah platform video pendek meluncurkan model generasi video dengan 80 miliar parameter, mampu menghasilkan video 1080p dalam 2,3 detik, dengan biaya 3,67 yuan/5 detik. Meskipun pengendalian biaya dilakukan dengan baik, masih ada ruang untuk perbaikan dalam menangani skenario yang kompleks.
Terobosan teknologi ini memiliki makna penting dalam aspek kualitas video, biaya produksi, dan skenario aplikasi:
Dari segi teknis, kompleksitas pembuatan video multimodal adalah eksponensial. Ini tidak hanya memerlukan pemrosesan titik piksel dari gambar tunggal, tetapi juga harus memastikan koherensi temporal video, mewujudkan sinkronisasi audio, dan mempertimbangkan konsistensi ruang 3D. Saat ini, tugas kompleks ini dapat dicapai melalui pemecahan modular dan kolaborasi model besar, yang secara signifikan meningkatkan efisiensi.
Dalam hal biaya, melalui pengoptimalan arsitektur inferensi, termasuk penerapan strategi generatif bertingkat, mekanisme penggunaan kembali cache, dan alokasi sumber daya dinamis, biaya produksi dapat dikurangi secara signifikan.
Dalam hal aplikasi, teknologi AI sedang mengubah proses produksi video tradisional. Dulu, membuat iklan berdurasi 30 detik bisa memerlukan biaya produksi ratusan ribu. Namun sekarang, hanya dengan satu kata kunci dan beberapa menit waktu tunggu, konten video berkualitas tinggi dapat dihasilkan, bahkan dapat mencapai sudut pandang dan efek khusus yang sulit dicapai dengan pengambilan gambar tradisional. Perubahan ini dapat mendorong perombakan keseluruhan sistem ekonomi kreator.
Lalu, apa dampak kemajuan teknologi AI ini terhadap bidang Web3?
Pertama, struktur permintaan daya komputasi telah berubah. Dulu AI terutama bergantung pada kumpulan GPU homogen yang besar, sedangkan pembuatan video multimodal memerlukan kombinasi daya komputasi yang beragam. Ini menciptakan permintaan baru untuk daya komputasi yang tidak terpakai secara terdistribusi, berbagai model penyesuaian halus terdistribusi, algoritma, dan platform inferensi.
Kedua, permintaan untuk penandaan data akan meningkat. Menghasilkan video tingkat profesional memerlukan deskripsi adegan yang tepat, gambar referensi, gaya audio, jalur gerakan kamera, dan kondisi pencahayaan serta data profesional lainnya. Mekanisme insentif Web3 dapat mendorong fotografer, insinyur suara, dan seniman 3D untuk menyediakan materi data berkualitas tinggi, sehingga meningkatkan kemampuan generasi video AI.
Akhirnya, pergeseran teknologi AI dari pengelolaan sumber daya besar secara terpusat ke kolaborasi modular, itu sendiri mewakili permintaan baru untuk platform terdesentralisasi. Di masa depan, daya komputasi, data, model, dan mekanisme insentif mungkin akan membentuk siklus positif yang memperkuat diri sendiri, mendorong integrasi mendalam antara Web3 AI dan skenario AI tradisional.