🔥 距離 Gate.io WCTC S7 正式開賽僅剩 7 天
世界加密貨幣交易大賽即將開啓,總獎池高達 $5,000,000
👉🏻 立即報名:https://gate.io/competition/wctc/s7?pid=APP&c=moments_gatePost&ch=druYjDaF
報名參賽,不僅有機會贏取高達百萬美元的個人獎勵,更有 Gate.io 專屬週邊大禮等你來拿
全球頂尖交易員正在集結,一場交易盛宴即將開啓
🔗 活動詳情: https://www.gate.io/announcements/article/44440
開源競速:AI 大模型的「Linux 時刻」降臨
撰文:宋嘉吉、孫爽
ChatGPT 發布後不久,Meta 就開源了類GPT 大語言模型LLaMA,此後,Alpaca、Vicuna、Koala 等多個大模型誕生,它們以遠低於ChatGPT 的模型規模和成本,實現了令人矚目的性能,引發業內人士擔憂「谷歌和OpenAI 都沒有護城河,大模型門檻正被開源踏破,不合作就會被取代」。資本市場也在關注大模型未來競爭格局如何,模型小了是否不再需要大量算力,數據在其中又扮演了什麼角色? ……本報告試圖分析這波開源大語言模型風潮的共同點,回顧開源標杆Linux 的發展史,回答這些問題。
**共同點一:始於開源。 **開源≠免費,開源的商業模式至少包括:1、靠服務變現。曾上市、後被IBM 收購的Linux 企業服務公司紅帽即是一例。企業為了更穩定和及時的技術支持,願意付費。 2、靠授權費變現。安卓開源,但谷歌向歐盟使用安卓谷歌套件的廠商收取許可費即是一例。 3、許可證、標準和能力評價體系的發展,是開源大模型商用程度深化的催化劑。這波開源大模型採用的許可證協議主要是Apache 2.0 和MIT,它們不禁止商用,並且不禁止用戶修改模型後閉源,這有助於公司應用此類大模型。
**共同點二:參數少、小型化。 **相較於GPT3+ 千億參數超大模型,這波開源大模型的參數量普遍在十億至百億級別。目前尚沒有一套系統的大模型性能評價體系,其中僅部分任務有公信力較強的評分標準。開源大模型中,Vicuna 的能力也較強,在部分任務能達到92% GPT4 的效果。總體來說,OpenAI GPT 系仍一騎絕塵,但訓練成本高,難復現。而開源大模型借助更大標識符訓練數據集、DeepSpeed、RLHF 等方式,實現低訓練成本和高性能,超大模型以下大模型的壁壘正在消失。
**共同點三:數據集重視人類指令,並走向商用。 **ChatGPT 相較於GPT3 效果大幅提升的重要因素是使用了RLHF(基於人類反饋的強化學習),即在訓練中,使用人類生成的答案和對AI 生成內容的排序,來讓AI 「對齊」人類偏好。 LLaMA 沒有使用指令微調,但LLaMA 之後的大量大模型使用並開源了指令數據集,並且逐步探索自建指令數據集,而非使用有商用限制的OpenAI 的,進一步降低了復現GPT 的門檻,擴展了商用可用性。
**接下來怎麼看開源大模型? **站在開源大模型浪潮中,我們注意到兩個趨勢:1)與多模態融合,清華大學的VisualGLM-6B 即是著名開源語言模型ChatGLM 的多模態升級版,我們認為,其可基於消費級顯卡在本地部署的特性是大勢所趨。 2)開源模型+ 邊緣計算推動AI 商用落地,哈爾濱大學的中文醫療問診模型「華駝」以及在跨境電商的使用就是案例。
**投資建議:**我們認為,對大模型的看法應該分時、分層看待。 1、短期內,OpenAI 的GPT 系超大模型仍然超越眾開源大模型,因此,應當重點關注與其在股權和產品上深度合作的微軟、能獲得ChatGPTiosApp 收益分成的蘋果,以及超大模型的算力服務商英偉達等;2、中長期來看,如果部分開源大模型能力被進一步驗證,則應用將快速鋪開,大模型對算力將形成正循環;3、其他:邊緣算力、大數據公司和開源大模型服務商業態也值得關注。建議關注:1)光模塊服務商:中際旭創、新易盛、天孚通信、源傑科技;2)智能模組服務商:美格智能、廣和通;3)邊緣IDC 服務商:龍宇股份、網宿科技;4)AIoT 通信芯片及設備廠商:中興通訊、紫光股份、銳捷網絡、菲菱科思、工業富聯、翱捷科技、初靈信息;5)應用端標的:愷英網絡、神州泰岳、佳訊飛鴻、中科金財等。
**風險提示:倫理風險、市場競爭風險、政策法律監管風險。 **
一、引言
一篇報導引發了公眾對開源大語言模型的強烈關注。
1.1「谷歌和OpenAI 都沒有護城河,大模型門檻正被開源踏破」
**「除非谷歌和OpenAI 改變態度,選擇和開源社區合作,否則將被後者替代」,**據彭博和SemiAnalysis 報導,4 月初,谷歌工程師Luke Sernau 發文稱,在人工智能大語言模型(Large Language Models,LLM,以下簡稱「大模型」)賽道,谷歌和ChatGPT 的推出方OpenAI 都沒有護城河,開源社區正在贏得競賽。
這一論調讓公眾對「年初Meta 開源大模型LLaMA 後,大模型大量出現」現象的關注推向了高潮,資本市場也在關注大公司閉源超大模型和開源大模型誰能贏得競爭,在「模型」「算力」「數據」三大關鍵要素中,大模型未來競爭格局如何,模型小了是否就不再需要大量算力,數據在其中又扮演了什麼角色? ……本報告試圖剖析這波開源大模型風潮的共同點,回顧開源標杆Linux 的發展史,回答以上問題,展望大模型的未來。
1.2 開源大模型集中出現,堪稱風潮
2 月24 日,Meta 發布LLaMA 開源大模型,此後,市場集中湧現出一批大模型,大致可以分為三類。
1.2.1 「LLaMA 系」:表現好,但商用化程度低
LLaMA 包括四個不同的參數版本(70 億/130 億/330 億/650 億),不支持商用,指令數據集基於OpenAI,模型表現可與GPT-3 持平或優於GPT-3**。 **其中,70 億和130 億參數版擁有包含1 萬億個標識符(Token)的預訓練數據集;330 億和650 億參數版擁有包含1.4 萬億個標識符的預訓練數據集。在與GPT-3 的對比中,LLaMA-70 億參數版在常識推理任務、零樣本任務、自然問題和閱讀理解中的表現與GPT-3 水平相當,而130 億參數及更高參數的版本模型在以上領域的表現均優於GPT-3。
LLaMA 模型本身沒有使用指令數據集,但考慮到效果優於GPT-3 的ChatGPT 使用了人類指令數據集,一批開源大模型在LLaMA 模型基礎上,使用了OpenAI 指令數據集來優化模型的表現,包括Alpaca、GPT4All、Vicuna、Koala、Open Assistant 和Hugging Chat。由於OpenAI 指令數據集不可商用,因此這批基於LLaMA 的開源大模型也都不可商用。
1.2.2 Dolly2.0、RedPajama、StableLM 等:商用化程度高
這些大模型沒有使用OpenAI 指令數據集,因此可以商用,但大多數還在持續開發中。
1.2.3 中文雙子星:ChatGLM-6B 和MOSS
ChatGLM-6B 和MOSS 分別由清華大學和復旦大學相關研究團體推出,在中文社區知名度較高。
這批模型還具有一些共同點,報告將在下文詳述。
二、共同點一:始於開源
**這波風潮中,不管是模型本身,還是模型所使用的數據集,它們首要的共同點是「開源」。 **
**2.1 為什麼要開源? **
市場對開源大模型的重要問題是,為什麼要開源,這是否會損傷大模型行業的商業模式。我們梳理了部分大模型對開源原因的自述,總結如下。
2.1.1 模型視角:防止大公司壟斷,破除商業禁用限制
為了使人工智能研究民主化,彌合開放模型和封閉模型之間的質量差距,破除商業化禁用限制,開源大模型的蓬勃發展有望促進以上目標。
2.1.2 數據視角:保護企業機密,使定制化數據訓練成為可能
**保障數據隱私,允許企業定制化開發。 **對於許多行業而言,數據是企業的命脈,大模型的開源使得企業可以將自己的數據集在大模型上進行訓練,同時做到對數據的控制,保護企業數據隱私。同時,開源大模型允許企業的開發人員在模型的基礎上進行定制化開發,定向訓練數據,也可以針對某些主題進行過濾,減少模型體量和數據的訓練成本。
2.1.3 算力視角:降低算力成本,使大模型的使用「普惠化」
**開源大模型節省了訓練階段的算力消耗,為企業降低算力成本,推動大模型使用「普惠化」。 **算力總需求=場景數* 單場景算力需求。在大模型的訓練和使用中,算力消耗分為兩部分場景,即訓練成本消耗及推理成本消耗。
**2.2 開源,需要什麼土壤? **
**開源大模型的蓬勃發展並非沒有先例,全球規模最大的開源軟件項目——Linux 有類似的故事。 **研究Linux 的發展史,對展望開源大模型的未來,有借鑒意義。
2.2.1 從開源標杆Linux 說開去
**Linux 是一款基於GNU 通用公共許可證(GPL)發布的免費開源操作系統。 **所有人都能運行、研究、分享和修改這個軟件。經過修改後的代碼還能重新分發,甚至出售,但必須基於同一個許可證。而諸如Unix 和Windows 等傳統操作系統是鎖定供應商、以原樣交付且無法修改的專有系統。
許多全球規模最大的行業和企業都仰賴於Linux。時至今日,從維基百科等知識共享網站,到紐約證券交易所,再到運行安卓(一個包含免費軟件的Linux 內核專用發行版)的移動設備,Linux 無處不在。當前,Linux 不僅是公共互聯網服務器上最常用的操作系統,還是速度排名前500 的超級電腦上使用的唯一一款操作系統。
**服務器市場,Linux 市佔率已經遠超操作系統「鼻祖」Unix,「Linux 時刻」發生。 **以中國市場為例,根據賽迪顧問數據,按照裝機量統計,在服務器架構上,Linux 是市場主流,佔據絕對領先地位,市場佔有率達到79.1%。 Windows 市場佔有率降至20.1%,Unix 市場佔有率僅剩0.8%。
2.2.2 Linux 並非一己之作,借力於社區身後的開源歷史
Unix 開源過,為Linux 提供了火種
**Unix,現代操作系統的鼻祖。 **操作系統是指直接管理系統硬件和資源(如CPU、內存和存儲空間)的軟件,它位於應用與硬件之間,負責在所有軟件與相關的物理資源之間建立連接。而Unix 被許多觀點認為是現代操作系統的鼻祖。
**Unix 曾開源。 **世界上第一台通用型計算機誕生於1946 年,而Unix 開發於1969 年。在長達十年的時間中,UNIX 擁有者AT&T 公司以低廉甚至免費的許可將Unix 源碼授權給學術機構做研究或教學之用,許多機構在此源碼基礎上加以擴展和改進,形成了所謂的「Unix 變種」。後來AT&T 意識到了Unix 的商業價值,不再將Unix 源碼授權給學術機構,並對之前的Unix 及其變種聲明了著作權權利
Unix 回歸閉源之後太貴,促成了Linux 的開發
Linux 由Linux Torvalds 於1991 年設計推出,當時他還在讀大學,認為當時流行的商業操作系統Unix 太貴了,於是基於類Unix 操作系統Minix 開發出了Linux,並將其開放給像自己這樣負擔不起的團隊。
僅用於教學的Minix,啟發了Linux 的開發
在AT&T 將源碼私有化後,荷蘭阿姆斯特丹自由大學教授塔能鮑姆為了能在課堂上教授學生操作系統運作的實務細節,決定在不使用任何AT&T 的源碼前提下,自行開發與UNIX 相容的作業系統,以避免版權上的爭議。他以小型UNIX(mini-UNIX)之意,將它稱為MINIX。第一版MINIX 於1987 年釋出,只需要購買它的磁片,就能使用。在Linux 系統還沒有自己的原生檔案系統之前,曾採用Minix 的檔案系統。
開源社區、許可證與標準助力
**從開始就開源。 **1991 年8 月,Linux 創始人Linus Torvalds 將Linux 發到Minix Usenet 新聞組。隨後他將Linux 發佈到FTP 網站上,因為他想讓更多人一起來開發這個內核。
**許可證助力生態開枝散葉、生生不息。 **Linux 基於GNU GPL 許可證(GNU's Not Unix General Public License,革奴計劃通用公共許可證)模式。 GPL 許可證賦予「自由軟件」賦予用戶的四種自由,或稱「Copyleft(公共版權)」:
GPL 許可證要求GPL 程序的派生作品也要在遵循GPL 許可證模式。相反,BSD 式等許可證並不禁止派生作品變成專有軟件。 GPL 是自由軟件和開源軟件的最流行許可證。遵循GPL 許可證使得Linux 生態能生生不息,不至於走進無法繼續發展的「死胡同」。
**標準對內使生態「形散而神不散」,對內擁抱「巨鯨」。 **
**2.3 開源了,還怎麼賺錢? **
市場對「開源」的核心疑問是商業模式。 「開源」本身免費,但「開源」作為土壤,「開源社區」孕育出了各種商業模式,從Linux 的生態中可以學習到這一點。
2.3.1 紅帽公司(Red Hat):服務至上
紅帽公司(Red Hat)是Linux 生態的領軍企業,超過90% 的《財富》500 強公司信賴紅帽公司,紅帽作為公司的商業價值巨大。 1993 年,紅帽成立,1999 年,紅帽即在納斯達克上市,紅帽招股書援引IDC 的數據稱,截止到1998 年所有經授權的新安裝Linux 操作系統中,有56% 來自紅帽;2012 年,紅帽成為第一家收入超過10 億美元的開源技術公司;2019 年,IBM 以約340 億美元的價格收購了紅帽。
關於Linux 和紅帽的商業模式,就像好奇心日報打的比方,某種意義上,開源的Linux 內核像免費、公開的菜譜,紅帽們像餐廳,人們仍然願意去餐廳品嚐加工好的菜餚和享受貼心的服務。紅帽面向企業提供Linux 操作系統及訂閱式服務,主要服務內容包括:1、24*7 技術支持;2、與上游社區和硬件廠商合作,支持廣泛的硬件架構,如x86、ARM、IBM Power 等;3、持續的漏洞警報、定向指導和自動修復服務;4、跨多個雲的部署;5、實時內核修補、安全標準認證等安全防護功能;6、檢測性能異常、構建系統性能綜合視圖,並通過預設調優配置文件應用等。
2.3.2 安卓系統(Android):背靠谷歌,靠廣告變現
根據Statcounter 數據,截至2023 年4 月,安卓系統(Android)是全球第一手機操作系統,市佔率高達69%,遠超第二名(iOS,31%)。安卓基於Linux 內核開發,2005 年被谷歌收購。隨後,谷歌以Apache 免費開放源代碼許可證的授權方式,發布了安卓的源代碼,使生產商可以快速推出搭載安卓的智能手機,這加速了安卓的普及。
而關於商業模式,安卓手機預裝的諸多服務由谷歌私有產品提供,例如地圖、Google Play 應用商店、搜索、谷歌郵箱(Gmail)……因此,儘管安卓免費、開源,但谷歌仍能通過其在移動市場「攻城略地」,將用戶流量變現。
谷歌還直接向安卓手機廠商收取授權費,從2018 年10 月29 日開始,使用安卓系統的手機、平板電腦的歐盟廠商使用谷歌應用程序套件,必須向谷歌支付許可費,每台設備費用最高達40 美元(約277 元)。
2.4 開源大模型主流許可證支持商用
開源社區已經有GPL、BSD、Apache 等知名許可證。大模型方面,我們注意到,2023 年2 月發布的、引領了大模型開源浪潮的LLaMA 禁止商用,僅可用於研究,MetaAI 將根據具體情況,授予公務員、社會團體成員、學術人員和行業研究實驗室,訪問該模型的權限。其中,LLaMA 的推理代碼基於GPL3.0 許可證,這意味著:1)他人修改LLaMA 的推理代碼後,不能閉源;2)新增代碼也必須採用GPL 許可證。不過,我們注意到,部分開發人員在LLaMA 基礎之上開發的變體模型,有不同類型的許可證。例如,基於nanoGPT 的LLaMA 實現Lit-LLaMA 新增了部分模型權重,這部分模型採用的許可證是Apache2.0。
**開源大模型採用的協議主要是Apache 2.0 和MIT 許可證。 **Alpaca、Vicuna、Dolly、OpenAssistant 和MOSS 均採用Apache 2.0 許可證,Koala 和GPT4all 採用MIT 許可證。這兩個許可證均允許商用。但令人惋惜的是,Alpaca、Vicuna、Koala 和GPT4all 因OpenAI 或LLaMA 限制無法商用。同時,值得注意的是,Apache2.0 和MIT 許可證均允許再修改源碼後閉源,公司可以在開源大模型基礎上開發自己的模型,或對公司更有吸引力。
三、共同點二:開源大模型參數少、小型化
「模型參數的大小」與「模型對算力的需求」正相關。
**3.1 超大模型和大模型分別多大? **
**預訓練賦予模型基本能力。 **在自然語言處理(NLP)中,預訓練是指在特定任務微調之前,將語言模型在大量文本語料庫上訓練,為模型賦予基本的語言理解能力。在預訓練過程中,模型被訓練以根據前面的上下文預測句子中的下一個單詞。這可以通過掩蓋一些輸入中的單詞並要求模型預測它們的方式進行,也可以採用自回歸的方法(例如GPT),即根據句子中的前面單詞預測下一個單詞。
預訓練模型通常包括大量的參數和對應的預訓練數據(通常用標識符即Token 的數量衡量)。 2017 年谷歌大腦團隊Transformer(變換器)模型的出現,徹底改變了NLP 的面貌,使得模型可以更好地理解和處理語言,提高NLP 任務的效果和準確性。
**超大模型和大模型分別多大? **語言模型的大小是根據其參數量來衡量的,參數量主要描述了神經元之間連接強度的可調值。目前一般大語言模型參數量在幾十到幾百億之間,超過千億參數的我們稱為「超大模型」,例如GPT-3(1750 億參數)。
3.2 GPT 系超大模型能力最強,但難復現
**大模型的性能評價標準並沒有統一。 **一個重要原因是大模型生成內容的任務種類多,不同的應用場景和任務可能需要不同的指標和方法去評估模型的表現。其中部分任務可能有公信力較強的評分標準,如機器翻譯中的BLEU,但大部分任務缺乏類似標準。
**模糊共識是超大模型性能好。 **大語言模型目前的發展趨勢是越來越大(詳見下圖),原因是大模型在預訓練後就具有較好通用性和穩定性。例如,谷歌團隊的超大模型PaLM(5400 億參數),在零樣本和少量樣本測試中均有良好的成績(詳見下圖),並且隨著其訓練標識符數量的上升,性能仍能提升。這也不難理解,簡單來說,模型見得多了,自然會的也多了。
**「同行評議」,GPT 系大模型「風華絕代」。 **當前,OpenAI GPT 系的超大模型擁有著強大的能力和廣泛的應用,在處理自然語言任務時具有高準確性和強大的表達能力,其在文本生成、問答系統、機器翻譯等多個領域都取得了出色效果,成為了當前自然語言處理領域的標杆之一,被各類大模型當作比較基準。復現ChatGPT 的門檻並沒有降低,開源大模型大部分僅在某些方面有較好的表現,整體質量與ChatGPT 仍不可比,尚需觀望。
近段時間以來,我們還注意到如下評價體系,評價方法主要包括機器自動評測(如使用GPT4)、人類盲評等,我們重點介紹其中部分及其測評結果,但不論哪種評價體系,GPT 系大模型都一騎絕塵。
3.2.1 Vicuna:利用GPT-4 評估
**目前大部分開源大模型性能未進行系統評價,更多處在起步試驗階段。 **在對性能進行評價的開源大模型中,Vicuna 的報告中利用GPT-4 進行的評估相對較為系統,結果也最令人矚目。
3.2.2 Zeno Build 測評:較新,較全面
Zeno Build 對GPT-2、LLaMA、Alpaca、Vicuna、MPT-Chat、Cohere Command、ChatGPT(gpt-3.5-turbo)七個模型測評,結果與GPT-4 評價結果相近。 ChatGPT 有明顯優勢,Vicuna 在開源模型中表現最佳。
3.2.3 C-:全面的中文基礎模型評估套件
C- 評估結果顯示,即便是在中文能力上,GPT-4 也是一騎絕塵,但GPT-4 也僅能達到67% 的正確率,目前大模型的中文處理能力尚有很大提升空間。
3.2.4 GPT 系超大模型訓練成本高,短期內難復現
**ChatGPT 所需算力和訓練成本可觀。 **不考慮與日活高度相關的推理過程所需的算力,僅考慮訓練過程,根據論文《Language Models are Few-Shot Learners》的測算,ChatGPT 的上一代GPT-3 (1750 億參數版)所需的算力高達3640PF-days(即假如每秒做一千萬億次浮點運算,需要計算3640 天),已知單張英偉達A100 顯卡的算力約為0.6PFLOPS,則訓練一次GPT-3(1750 億參數版),大約需要6000 張英偉達A100 顯卡,如果考慮互聯損失,大約需要上萬張A100,按單張A100 芯片價格約為10 萬元,則大規模訓練就需要投入約10 億元。 OpenAI 在GPT-3(1750 億參數)的訓練上花費了超過400 萬美元,而為了維持ChatGPT 和GPT4(參數量未公佈,預計更高)的運轉,每個月理論上更高。
3.3 開源大模型性價比高,超大模型以下大模型的壁壘正在消失
**開源大模型小型化趨勢明顯,參數約為百億級別,成本降低乃題中之義。 **開源大模型通常具有較少的參數,在設計、訓練和部署上,需要的資源和成本都相對較低。這波開源大模型的參數普遍較小,均在十億~百億級別左右。
「船小好調頭」,基於已有的開源預訓練模型進行微調也是開源大模型的優勢之一。在預訓練模型基礎上進行微調和優化,以適應不同的任務和應用場景,這種方法不僅可以大大縮短模型的訓練時間和成本,而且還可以提高模型的性能和效率。
**更多標識符訓練數據和新技術,讓超大模型以下的大模型壁壘趨於消失。 **LLaMA 被「開源」,讓大家都有了一個可上手的大模型,並且隨著DeepSpeed、RLHF 等技術的發展,幾百億的模型可以部署在消費級GPU 上。
四、共同點三:開源大模型數據集重視人類指令,並自立門戶
「數據集的大小」也與「模型所需的算力」正相關。
4.1 學習ChatGPT 方法論,引入人類指令數據集
**微調是提升特定性能的捷徑。 **微調是指在已經預訓練的模型上,使用具有標註數據的特定任務數據集,進一步小規模訓練。微調可以以較小的算力代價,使模型更加適應特定任務的數據和場景,從而提高模型的性能和準確性。目前微調多為指令微調,指令數據集逐漸成為開源大模型的標配。
RLHF(Reinforcement Learning from Human Feedback,基於人類反饋的強化學習),是一種新興的微調方法,它使用強化學習技術來訓練語言模型,並依據人類反饋來調整模型的輸出結果。 RLHF(基於人類反饋的強化學習)是ChatGPT 早期版本GPT3 所不具備的功能,它使得只有13 億參數的InstructGPT 表現出了比1750 億參數GPT-3 更好的真實性、無害性和人類指令遵循度,更被標註員認可,同時不會折損GPT-3 在學術評估維度上的效果。
RLHF(基於人類反饋的強化學習)分為三個步驟:1)監督微調(SFT):讓標註員回答人類提問,用這一標註數據訓練GPT;2)獎勵模型(RM)訓練:讓標註員對機器的回答排序,相較於第一步由標註員直接撰寫回答的生成式標註,排序作為判別式標註的成本更低,用這一標註訓練模型,讓它模擬人類排序;3)無人類標註,用近端策略優化算法(PPO)微調模型。
這三個步驟對應的數據集的大小分別為1.3 萬個、3.3 萬個、3.1 萬個。
對於具有大量數據和一定算力的公司來說,使用自己的數據進行微調可以展現出模型的特化能力,並且用較小的算力達成接近大模型的效果。如多校聯合開發的Vicuna 語言模型,基於Meta 的LLaMA-130 億參數版模型,對7 萬條用戶分享的ChatGPT 對話指令微調,部分任務上,達到了92% 的GPT4 的效果。在通用性和穩定性上無法超過超大模型,但可以通過微調強化其某些方面的能力,性價比要更高,更適合中小公司應用。
4.2 數據集走向商用
數據集是語言模型發展的重要基礎和支撐,通常是由公司或組織自主收集、整理或直接購買獲得。相比之下,開源數據集大多由社區或學術界共同維護的,其數據量和種類更加豐富,但可能存在一定的數據質量問題和適用性差異。
4.2.1 預訓練數據集少量可商用
**預訓練數據集開源對模型商用至關重要。 **在後LLaMA 時代,開源大模型猶如雨後春筍般湧現,但很快大家便發現由於LLaMA 和OpenAI 的限制,基於其開發的模型無法商用(Alpaca、Koala、GPT4All、Vicuna),為了打破這一局面,Dolly2.0 率先出手,「為了解決這個難題,我們開始尋找方法來創建一個新的,未被「污染」的數據集以用於商業用途。 」隨後Red Pajama 和MOSS 接踵而至。
4.2.2 指令數據集部分可商用
**打造開源生態,各取所需。 **在早期開源項目中,因其指令數據及多來自ChatGPT 生成或對話內容,受OpenAI 限制無法商用。除去研究用途微調外,目前越來越多模型選擇自己構建指令數據集來繞開這一限制。
**指令數據集多樣化,部分模型的指令數據集可商用化。 **按照上文對此批集中出現的大模型的分類,除去LLaMA、基於LLaMA 開發出的模型以及StableLM 使用OpenAI 的指令數據集外,其餘大模型的指令數據集均不基於OpenAI,也因此這些大模型的指令數據集可商用化,這會加快推動使用且重視RLHF(基於人類反饋的強化學習)訓練範式的此類大模型的更迭與發展。
五、展望
我們注意到開源大模型走向相似的路口。
5.1 多模態化:助力通用人工智能(AGI)發展
**多模態開源大模型開始出現,將大模型推向新高潮,助力人類走向通用人工智能。多模態即圖像、聲音、文字等多種模態的融合。多模態模型基於機器學習技術,能夠處理和分析多種輸入類型,可以讓大模型更具有通用性。基於多領域知識,構建統一、跨場景、多任務的模型,推動人類走向通用人工智能(Artificial General Intelligence,AGI)時代。 **
5.1.1 ImageBind 閃亮登場,用圖像打通6 種模態
**ImageBind 開源大模型可超越單一感官體驗,讓機器擁有「聯想」能力。 **5 月9 日,Meta 公司宣布開源多模態大模型ImageBind。該模型以圖像為核心,可打通6 種模態,包括圖像(圖片/ 視頻)、溫度(紅外圖像)、文本、音頻、深度信息(3D)、動作捕捉傳感(IMU)。相關源代碼已託管至GitHub。該團隊表示未來還將加入觸覺、嗅覺、大腦磁共振信號等模態。
從技術上講,ImageBind 利用網絡數據(如圖像、文本),並將其與自然存在的配對數據(如音頻、深度信息等)相結合,以學習單個聯合嵌入空間,使得ImageBind 隱式地將文本嵌入與其他模態對齊,從而在沒有顯式語義或文本配對的情況下,能在這些模態上實現零樣本識別功能。
目前ImageBind 的典型用例包括:向模型輸入狗叫聲,模型輸出狗的圖片,反之亦可;向模型輸入鳥的圖片和海浪聲,模型輸出鳥在海邊的圖片,反之亦可。
5.1.2 開源大模型的多模態探索集中於圖片,但進展飛快
當前開源大模型在多模態的探索仍處於初級階段,除ImageBind 打通了六種模態外,多數仍在探索文本與圖像的融合,但速度相當快,我們梳理了其中部分。
VisualGLM-6B:可在消費級顯卡上本地部署
UniDiffuser:為多模態設計的概率建模框架UniDiffuser
LLaVA:部分指令表現可比肩GPT-4
MiniGPT-4:脫胎於LLaMA 的多模態開源大模型,個人用戶的GPT-4「平替」
mPLUG-Owl:模塊化多模態大模型
5.2 專業化:下游生態發力,針對特定任務微調模型
大模型開源化為下游生態的蓬勃生長提供了絕佳機會,在細分產業的開發下,大模型開始在特定任務上深化開發,改變人類生活。自開源大模型LLaMA 推出後,基於LLaMA 預訓練模型微調的下游專業化模型開始浮現,例如醫療問診領域中的華駝。
華駝或將是未來開源大模型下游的特定任務模型發展的範式,即採用低參數體量的小型開源大模型作為基礎模型,加之以特定專業領域的數據進行訓練,得到表現更好的細分領域模型。
六、投資建議
開源大模型的發展影響深遠,本報告選取其中部分可能受益的方向,提請市場關注。
6.1 微軟:與OpenAI 深度合作
我們認為,短期內,ChatGPT 系仍是能力最強的大模型,與其深度合作的微軟將受益。
6.2 英偉達:開源大模型帶動應用風起,算力需求狂飆
算力服務是開源大模型浪潮中受益確定性較強的方向,在軟硬件一體化方面具有明顯的領先優勢,是當前AI 算力的領頭羊。
6.2.1 超大模型對算力的需求將保持高增長
超大模型質量優勢突出,市場將持續追捧,其對算力的需求會一直增長。超大型模型具有強大的表達能力和高準確性,在質量上具有優勢,市場將持續追捧這種模型。超大模型規模、數據集和日活持續擴大,所需算力將持續增多。
6.2.2 開源大模型的快速追趕也將利好算力
短期內,市場對開源大模型持觀望態度。開源大模型在通用性上表現較差,短時間內無法與大型模型抗衡,加之目前難以系統評價模型的具體性能,市場對開源大模型持觀望態度,等待它們證明自己的性能和優勢。
**中長期看,開源大模型有望進一步提高性能,從而在市場上佔據更大的份額。 **相較於超大模型,開源大模型具有更低的算力需求和更易於部署的特點,還可以通過快速微調等方式,針對某些專業領域優化,具備一定吸引力和實用性。在中長期內,如果有開源大模型能夠接近或超越ChatGPT 在質量上的表現,那麼市場對這類模型的需求可能會迅速上升。相應地,這類算力需求會很快起量。
6.2.3 催化劑:開源大模型許可證、標準和能力評價體系的發展
6.3 Meta:開源「急先鋒」,受益於開源生態
回顧安卓的發展史,我們看好「谷歌- 安卓」體系中的類谷歌角色,在該體系中,谷歌作為開源操作系統安卓的開發商,將開源作為激勵生態上下游發展的工具,增強自身專有服務在終端客戶的曝光度。
映射到大模型,我們認為,開源了LLaMA 的Meta,可能通過LLaMA,加深與下游大模型開發廠商的合作,將自身體系中的專有產品,綁定銷售給客戶。
6.4 其他
6.4.1 邊緣算力+ 開源模型:AI 應用的落地加速器
邊緣算力可以將推理計算放置用戶的設備上,不僅能夠提高數據處理的速度和效率,從而降低推理的成本,還能夠保護用戶的隱私和安全。
6.4.2 大數據公司:看好「開源大模型+ 自有海量數據」組合
對「擁有大量數據但算力不足」的企業而言,利用自己的數據,充分預訓練和微調開源可商用模型,性價比較高。這可以提高模型的準確性和適用性,也能夠大大縮短模型訓練時間和成本。此外,微調後的模型還能夠更好地滿足企業的特定需求和業務場景,從而提升企業的競爭力和創新能力。隨著技術的不斷發展和普及,自主微調模型成為企業利用自有數據,快速實現智能化應用的重要手段。
6.4.3 開源大模型服務商:服務至上
回顧紅帽的發展史,我們認為,即使大模型進入開源時代,面向客戶的24*7 的服務仍然必不可少,尤其是面向企業的。我們看好開源大模型服務商。
6.4.4 蘋果:獲得ChatGPT App 收入分成
ChatGPT 在App Store 上架,按照App Store 的慣例,蘋果將獲得收入分成。