🎤 爲偶像應援 · Gate送你直達 Token of Love! 🎶
家人們,現在在Gate廣場爲 打 Token of Love CALL,20 張音樂節門票等你來瓜分!🔥
泫雅 / SUECO / DJ KAKA / CLICK#15 —— 你最期待誰?快來一起應援吧!
📌 參與方式(任選,參與越多中獎幾率越高!)
1️⃣ 本帖互動
點讚 & 轉發本帖 + 投票你最愛的藝人
評論區打出 “我在 Gate 廣場爲 Token of Love 打 Call !”
2️⃣ 廣場發帖爲 TA 打 Call
帶上 #歌手名字# + #TokenOfLove#
發帖內容任選:
🎵 最想現場聽到的歌 + 心情宣言
📣 應援口號(例:泫雅女王衝鴨!Gate廣場全員打 Call!)
😎 自制表情包/海報/短視頻(加分項,更容易中獎!)
3️⃣ 推特 / 小紅書發帖打 Call
同樣帶上 #歌手名字# + #TokenOfLove#
內容同上,記得回鏈到表單 👉️ https://www.gate.com/questionnaire/7008
🎟️ 獎勵安排
廣場優質發帖用戶:8張門票
廣場幸運互動用戶:2張門票
Twitter 優質發帖用戶:5張門票
小紅書優質發帖用戶:5張門票
📌 優質帖文將根據文章豐富度、熱度、創意度綜合評分,禁止小號水貼,原創發帖更易獲獎!
🕒 8
劍橋華人團隊開源PandaGPT:首個橫掃「六模態」的大型基礎模型
來源:新智元
當下的大型語言模型,如ChatGPT只能接收文本作為輸入,即便升級版的GPT-4也只是增加了圖像輸入的功能,無法處理其他模態的數據,如視頻、音頻等。
最近,來自劍橋大學、奈良先端科學技術大學院大學和騰訊的研究人員共同提出並開源了通用指令遵循模型PandaGPT模型,也是首個實現了跨六種模態(圖像/視頻、文本、音頻、深度、thermal和IMU)執行指令遵循數據的基礎模型。
代碼鏈接:
在沒有明確多模態監督的情況下,PandaGPT就展現出了強大的多模態能力,可以執行複雜的理解/推理任務,如詳細的圖像描述生成、編寫視頻啟發的故事、回答有關音頻的問題,或是多輪對話等。
示例
基於圖片的問答:
多模態PandaGPT
和困在計算機內的AI模型相比,人類具有多種感官來了解世界,可以看一幅畫,可以聽到自然界的各種聲音;機器如果也能輸入多模態的信息,就可以更全面地解決各種問題。
目前多模態的研究大多數局限於單模態,或是文本與其他模態的組合,缺乏感知和理解多模態輸入的整體性和互補性。
為了讓PandaGPT具有多模態輸入能力,研究人員結合了ImageBind的多模態編碼器和大型語言模型Vicuna,二者在視覺和音頻基礎的指令遵循任務中都取得了非常強大的性能。
同時,為了使二個模型的特徵空間一致,研究人員使用開源的16萬個圖像-語言指令遵循數據來訓練PandaGPT,其中每個訓練實例包括一個圖像和一組多輪對話數據,對話中包含每輪人類的指令和系統的回复。
為了減少可訓練參數的數量,研究人員只訓練用來連接Vicuna的ImageBind表徵,以及Vicuna的注意力模塊上的額外LoRA權重。
值得注意的是,當前版本的PandaGPT只用對齊的圖像-文本數據進行訓練,但通過利用凍結的ImageBind編碼器中繼承的六種模態(圖像/視頻、文本、音頻、深度、thermal和IMU)的綁定屬性,PandaGPT展示出了湧現,即零樣本跨模態的能力。
限制
儘管PandaGPT在處理多模態及模態組合方面有驚人的能力,但還有幾種方法可以用來進一步改進PandaGPT:
PandaGPT的訓練過程可以通過引入更多對齊數據來豐富,比如其他與文本匹配的模態(音頻-文本)
研究人員對文本以外的模態內容只使用一個嵌入向量來表徵,還需要對細粒度的特徵提取畸形更多研究,如跨模態的注意力機制可能會對性能提升有好處
PandaGPT目前只是將多模態信息作為輸入,未來可能會在生成端引入更豐富的多媒體內容,比如在音頻中生成圖像和文字回复。
還需要有新的基準來評估多模態輸入的組合能力
PandaGPT也可以表現出現有語言模型的幾個常見缺陷,包括幻覺、毒性和刻板印象。
研究人員也指出,PandaGPT目前還只是一個研究原型,不能直接用於現實世界的應用。
參考資料: