開源競速:AI 大模型的「Linux 時刻」降臨

從開源標杆Linux 發展史看AI 大模型的未來。

撰文:宋嘉吉、孫爽

ChatGPT 發布後不久,Meta 就開源了類GPT 大語言模型LLaMA,此後,Alpaca、Vicuna、Koala 等多個大模型誕生,它們以遠低於ChatGPT 的模型規模和成本,實現了令人矚目的性能,引發業內人士擔憂「谷歌和OpenAI 都沒有護城河,大模型門檻正被開源踏破,不合作就會被取代」。資本市場也在關注大模型未來競爭格局如何,模型小了是否不再需要大量算力,數據在其中又扮演了什麼角色? ……本報告試圖分析這波開源大語言模型風潮的共同點,回顧開源標杆Linux 的發展史,回答這些問題。

**共同點一:始於開源。 **開源≠免費,開源的商業模式至少包括:1、靠服務變現。曾上市、後被IBM 收購的Linux 企業服務公司紅帽即是一例。企業為了更穩定和及時的技術支持,願意付費。 2、靠授權費變現。安卓開源,但谷歌向歐盟使用安卓谷歌套件的廠商收取許可費即是一例。 3、許可證、標準和能力評價體系的發展,是開源大模型商用程度深化的催化劑。這波開源大模型採用的許可證協議主要是Apache 2.0 和MIT,它們不禁止商用,並且不禁止用戶修改模型後閉源,這有助於公司應用此類大模型。

**共同點二:參數少、小型化。 **相較於GPT3+ 千億參數超大模型,這波開源大模型的參數量普遍在十億至百億級別。目前尚沒有一套系統的大模型性能評價體系,其中僅部分任務有公信力較強的評分標準。開源大模型中,Vicuna 的能力也較強,在部分任務能達到92% GPT4 的效果。總體來說,OpenAI GPT 系仍一騎絕塵,但訓練成本高,難復現。而開源大模型借助更大標識符訓練數據集、DeepSpeed、RLHF 等方式,實現低訓練成本和高性能,超大模型以下大模型的壁壘正在消失。

**共同點三:數據集重視人類指令,並走向商用。 **ChatGPT 相較於GPT3 效果大幅提升的重要因素是使用了RLHF(基於人類反饋的強化學習),即在訓練中,使用人類生成的答案和對AI 生成內容的排序,來讓AI 「對齊」人類偏好。 LLaMA 沒有使用指令微調,但LLaMA 之後的大量大模型使用並開源了指令數據集,並且逐步探索自建指令數據集,而非使用有商用限制的OpenAI 的,進一步降低了復現GPT 的門檻,擴展了商用可用性。

**接下來怎麼看開源大模型? **站在開源大模型浪潮中,我們注意到兩個趨勢:1)與多模態融合,清華大學的VisualGLM-6B 即是著名開源語言模型ChatGLM 的多模態升級版,我們認為,其可基於消費級顯卡在本地部署的特性是大勢所趨。 2)開源模型+ 邊緣計算推動AI 商用落地,哈爾濱大學的中文醫療問診模型「華駝」以及在跨境電商的使用就是案例。

**投資建議:**我們認為,對大模型的看法應該分時、分層看待。 1、短期內,OpenAI 的GPT 系超大模型仍然超越眾開源大模型,因此,應當重點關注與其在股權和產品上深度合作的微軟、能獲得ChatGPTiosApp 收益分成的蘋果,以及超大模型的算力服務商英偉達等;2、中長期來看,如果部分開源大模型能力被進一步驗證,則應用將快速鋪開,大模型對算力將形成正循環;3、其他:邊緣算力、大數據公司和開源大模型服務商業態也值得關注。建議關注:1)光模塊服務商:中際旭創、新易盛、天孚通信、源傑科技;2)智能模組服務商:美格智能、廣和通;3)邊緣IDC 服務商:龍宇股份、網宿科技;4)AIoT 通信芯片及設備廠商:中興通訊、紫光股份、銳捷網絡、菲菱科思、工業富聯、翱捷科技、初靈信息;5)應用端標的:愷英網絡、神州泰岳、佳訊飛鴻、中科金財等。

**風險提示:倫理風險、市場競爭風險、政策法律監管風險。 **

一、引言

一篇報導引發了公眾對開源大語言模型的強烈關注。

1.1「谷歌和OpenAI 都沒有護城河,大模型門檻正被開源踏破」

**「除非谷歌和OpenAI 改變態度,選擇和開源社區合作,否則將被後者替代」,**據彭博和SemiAnalysis 報導,4 月初,谷歌工程師Luke Sernau 發文稱,在人工智能大語言模型(Large Language Models,LLM,以下簡稱「大模型」)賽道,谷歌和ChatGPT 的推出方OpenAI 都沒有護城河,開源社區正在贏得競賽。

這一論調讓公眾對「年初Meta 開源大模型LLaMA 後,大模型大量出現」現象的關注推向了高潮,資本市場也在關注大公司閉源超大模型和開源大模型誰能贏得競爭,在「模型」「算力」「數據」三大關鍵要素中,大模型未來競爭格局如何,模型小了是否就不再需要大量算力,數據在其中又扮演了什麼角色? ……本報告試圖剖析這波開源大模型風潮的共同點,回顧開源標杆Linux 的發展史,回答以上問題,展望大模型的未來。

1.2 開源大模型集中出現,堪稱風潮

2 月24 日,Meta 發布LLaMA 開源大模型,此後,市場集中湧現出一批大模型,大致可以分為三類。

1.2.1 「LLaMA 系」:表現好,但商用化程度低

LLaMA 包括四個不同的參數版本(70 億/130 億/330 億/650 億),不支持商用,指令數據集基於OpenAI,模型表現可與GPT-3 持平或優於GPT-3**。 **其中,70 億和130 億參數版擁有包含1 萬億個標識符(Token)的預訓練數據集;330 億和650 億參數版擁有包含1.4 萬億個標識符的預訓練數據集。在與GPT-3 的對比中,LLaMA-70 億參數版在常識推理任務、零樣本任務、自然問題和閱讀理解中的表現與GPT-3 水平相當,而130 億參數及更高參數的版本模型在以上領域的表現均優於GPT-3。

LLaMA 模型本身沒有使用指令數據集,但考慮到效果優於GPT-3 的ChatGPT 使用了人類指令數據集,一批開源大模型在LLaMA 模型基礎上,使用了OpenAI 指令數據集來優化模型的表現,包括Alpaca、GPT4All、Vicuna、Koala、Open Assistant 和Hugging Chat。由於OpenAI 指令數據集不可商用,因此這批基於LLaMA 的開源大模型也都不可商用。

1.2.2 Dolly2.0、RedPajama、StableLM 等:商用化程度高

這些大模型沒有使用OpenAI 指令數據集,因此可以商用,但大多數還在持續開發中。

1.2.3 中文雙子星:ChatGLM-6B 和MOSS

ChatGLM-6B 和MOSS 分別由清華大學和復旦大學相關研究團體推出,在中文社區知名度較高。

這批模型還具有一些共同點,報告將在下文詳述。

二、共同點一:始於開源

**這波風潮中,不管是模型本身,還是模型所使用的數據集,它們首要的共同點是「開源」。 **

**2.1 為什麼要開源? **

市場對開源大模型的重要問題是,為什麼要開源,這是否會損傷大模型行業的商業模式。我們梳理了部分大模型對開源原因的自述,總結如下。

2.1.1 模型視角:防止大公司壟斷,破除商業禁用限制

為了使人工智能研究民主化,彌合開放模型和封閉模型之間的質量差距,破除商業化禁用限制,開源大模型的蓬勃發展有望促進以上目標。

2.1.2 數據視角:保護企業機密,使定制化數據訓練成為可能

**保障數據隱私,允許企業定制化開發。 **對於許多行業而言,數據是企業的命脈,大模型的開源使得企業可以將自己的數據集在大模型上進行訓練,同時做到對數據的控制,保護企業數據隱私。同時,開源大模型允許企業的開發人員在模型的基礎上進行定制化開發,定向訓練數據,也可以針對某些主題進行過濾,減少模型體量和數據的訓練成本。

2.1.3 算力視角:降低算力成本,使大模型的使用「普惠化」

**開源大模型節省了訓練階段的算力消耗,為企業降低算力成本,推動大模型使用「普惠化」。 **算力總需求=場景數* 單場景算力需求。在大模型的訓練和使用中,算力消耗分為兩部分場景,即訓練成本消耗及推理成本消耗。

  • 就訓練成本而言,大模型的訓練成本高,普通企業的算力資源難以承受,而開源大模型主要節省了企業預訓練階段的算力。但由於不同垂類的訓練場景更加豐富,所以整體訓練需求是增長的。
  • 就推理成本而言,大模型在參數體量龐大的情況下,其推理成本也很高,普通公司難以維持其日常開銷,因此,降低模型參數體量可進而降低企業在使用模型時的推理成本。

**2.2 開源,需要什麼土壤? **

**開源大模型的蓬勃發展並非沒有先例,全球規模最大的開源軟件項目——Linux 有類似的故事。 **研究Linux 的發展史,對展望開源大模型的未來,有借鑒意義。

2.2.1 從開源標杆Linux 說開去

**Linux 是一款基於GNU 通用公共許可證(GPL)發布的免費開源操作系統。 **所有人都能運行、研究、分享和修改這個軟件。經過修改後的代碼還能重新分發,甚至出售,但必須基於同一個許可證。而諸如Unix 和Windows 等傳統操作系統是鎖定供應商、以原樣交付且無法修改的專有系統。

許多全球規模最大的行業和企業都仰賴於Linux。時至今日,從維基百科等知識共享網站,到紐約證券交易所,再到運行安卓(一個包含免費軟件的Linux 內核專用發行版)的移動設備,Linux 無處不在。當前,Linux 不僅是公共互聯網服務器上最常用的操作系統,還是速度排名前500 的超級電腦上使用的唯一一款操作系統。

**服務器市場,Linux 市佔率已經遠超操作系統「鼻祖」Unix,「Linux 時刻」發生。 **以中國市場為例,根據賽迪顧問數據,按照裝機量統計,在服務器架構上,Linux 是市場主流,佔據絕對領先地位,市場佔有率達到79.1%。 Windows 市場佔有率降至20.1%,Unix 市場佔有率僅剩0.8%。

2.2.2 Linux 並非一己之作,借力於社區身後的開源歷史

Unix 開源過,為Linux 提供了火種

**Unix,現代操作系統的鼻祖。 **操作系統是指直接管理系統硬件和資源(如CPU、內存和存儲空間)的軟件,它位於應用與硬件之間,負責在所有軟件與相關的物理資源之間建立連接。而Unix 被許多觀點認為是現代操作系統的鼻祖。

**Unix 曾開源。 **世界上第一台通用型計算機誕生於1946 年,而Unix 開發於1969 年。在長達十年的時間中,UNIX 擁有者AT&T 公司以低廉甚至免費的許可將Unix 源碼授權給學術機構做研究或教學之用,許多機構在此源碼基礎上加以擴展和改進,形成了所謂的「Unix 變種」。後來AT&T 意識到了Unix 的商業價值,不再將Unix 源碼授權給學術機構,並對之前的Unix 及其變種聲明了著作權權利

Unix 回歸閉源之後太貴,促成了Linux 的開發

Linux 由Linux Torvalds 於1991 年設計推出,當時他還在讀大學,認為當時流行的商業操作系統Unix 太貴了,於是基於類Unix 操作系統Minix 開發出了Linux,並將其開放給像自己這樣負擔不起的團隊。

僅用於教學的Minix,啟發了Linux 的開發

在AT&T 將源碼私有化後,荷蘭阿姆斯特丹自由大學教授塔能鮑姆為了能在課堂上教授學生操作系統運作的實務細節,決定在不使用任何AT&T 的源碼前提下,自行開發與UNIX 相容的作業系統,以避免版權上的爭議。他以小型UNIX(mini-UNIX)之意,將它稱為MINIX。第一版MINIX 於1987 年釋出,只需要購買它的磁片,就能使用。在Linux 系統還沒有自己的原生檔案系統之前,曾採用Minix 的檔案系統。

開源社區、許可證與標準助力

**從開始就開源。 **1991 年8 月,Linux 創始人Linus Torvalds 將Linux 發到Minix Usenet 新聞組。隨後他將Linux 發佈到FTP 網站上,因為他想讓更多人一起來開發這個內核。

**許可證助力生態開枝散葉、生生不息。 **Linux 基於GNU GPL 許可證(GNU's Not Unix General Public License,革奴計劃通用公共許可證)模式。 GPL 許可證賦予「自由軟件」賦予用戶的四種自由,或稱「Copyleft(公共版權)」:

  • 自由之零:不論目的為何,有「使用」該軟件的自由。
  • 自由之一:有「研究該軟件如何運作」的自由,並且得以「修改」該軟件來符合用戶自身的需求。可訪問源代碼是此項自由的前提。
  • 自由之二:有「分發軟件副本」的自由,所以每個人都可以藉由散佈自由軟件來敦親睦鄰。
  • 自由之三:有將「公佈修訂後的版本」的自由,如此一來,整個社群都可以受惠。可訪問源代碼是此項自由的前提。

GPL 許可證要求GPL 程序的派生作品也要在遵循GPL 許可證模式。相反,BSD 式等許可證並不禁止派生作品變成專有軟件。 GPL 是自由軟件和開源軟件的最流行許可證。遵循GPL 許可證使得Linux 生態能生生不息,不至於走進無法繼續發展的「死胡同」。

**標準對內使生態「形散而神不散」,對內擁抱「巨鯨」。 **

  • **對內統一標準。 **Linux 制定了標準LSB(Linux Standard Base,Linux 標準基礎)來規範開發,以免各團隊的開發結果差異太大。因此,各Linux 衍生開發工具只在套件管理工具和模式等方面有所不同。我們認為,這使得Linux 開源社區的發展「形散而神不散」,使Linux 生態的發展不至於分崩離析。
  • **對外兼容Unix。 **為了讓Linux 能兼容Unix 軟件,Linus Torvalds 參考POSIX(Portable Operating Interface,可攜帶式操作系統接口)標準修改了Linux,這使得Linux 使用率大增。該標準由IEEE(Institue of Electrical and Electronics Engineers,電氣和電子工程師協會)於20 世紀90 年代開發,正是Linux 的起步階段,它致力於提高Unix 操作系統環境與類Unix 操作系統環境下應用程序的可移植性,為Linux 的推廣提供了有利環境。

**2.3 開源了,還怎麼賺錢? **

市場對「開源」的核心疑問是商業模式。 「開源」本身免費,但「開源」作為土壤,「開源社區」孕育出了各種商業模式,從Linux 的生態中可以學習到這一點。

2.3.1 紅帽公司(Red Hat):服務至上

紅帽公司(Red Hat)是Linux 生態的領軍企業,超過90% 的《財富》500 強公司信賴紅帽公司,紅帽作為公司的商業價值巨大。 1993 年,紅帽成立,1999 年,紅帽即在納斯達克上市,紅帽招股書援引IDC 的數據稱,截止到1998 年所有經授權的新安裝Linux 操作系統中,有56% 來自紅帽;2012 年,紅帽成為第一家收入超過10 億美元的開源技術公司;2019 年,IBM 以約340 億美元的價格收購了紅帽。

關於Linux 和紅帽的商業模式,就像好奇心日報打的比方,某種意義上,開源的Linux 內核像免費、公開的菜譜,紅帽們像餐廳,人們仍然願意去餐廳品嚐加工好的菜餚和享受貼心的服務。紅帽面向企業提供Linux 操作系統及訂閱式服務,主要服務內容包括:1、24*7 技術支持;2、與上游社區和硬件廠商合作,支持廣泛的硬件架構,如x86、ARM、IBM Power 等;3、持續的漏洞警報、定向指導和自動修復服務;4、跨多個雲的部署;5、實時內核修補、安全標準認證等安全防護功能;6、檢測性能異常、構建系統性能綜合視圖,並通過預設調優配置文件應用等。

2.3.2 安卓系統(Android):背靠谷歌,靠廣告變現

根據Statcounter 數據,截至2023 年4 月,安卓系統(Android)是全球第一手機操作系統,市佔率高達69%,遠超第二名(iOS,31%)。安卓基於Linux 內核開發,2005 年被谷歌收購。隨後,谷歌以Apache 免費開放源代碼許可證的授權方式,發布了安卓的源代碼,使生產商可以快速推出搭載安卓的智能手機,這加速了安卓的普及。

而關於商業模式,安卓手機預裝的諸多服務由谷歌私有產品提供,例如地圖、Google Play 應用商店、搜索、谷歌郵箱(Gmail)……因此,儘管安卓免費、開源,但谷歌仍能通過其在移動市場「攻城略地」,將用戶流量變現。

谷歌還直接向安卓手機廠商收取授權費,從2018 年10 月29 日開始,使用安卓系統的手機、平板電腦的歐盟廠商使用谷歌應用程序套件,必須向谷歌支付許可費,每台設備費用最高達40 美元(約277 元)。

2.4 開源大模型主流許可證支持商用

開源社區已經有GPL、BSD、Apache 等知名許可證。大模型方面,我們注意到,2023 年2 月發布的、引領了大模型開源浪潮的LLaMA 禁止商用,僅可用於研究,MetaAI 將根據具體情況,授予公務員、社會團體成員、學術人員和行業研究實驗室,訪問該模型的權限。其中,LLaMA 的推理代碼基於GPL3.0 許可證,這意味著:1)他人修改LLaMA 的推理代碼後,不能閉源;2)新增代碼也必須採用GPL 許可證。不過,我們注意到,部分開發人員在LLaMA 基礎之上開發的變體模型,有不同類型的許可證。例如,基於nanoGPT 的LLaMA 實現Lit-LLaMA 新增了部分模型權重,這部分模型採用的許可證是Apache2.0。

**開源大模型採用的協議主要是Apache 2.0 和MIT 許可證。 **Alpaca、Vicuna、Dolly、OpenAssistant 和MOSS 均採用Apache 2.0 許可證,Koala 和GPT4all 採用MIT 許可證。這兩個許可證均允許商用。但令人惋惜的是,Alpaca、Vicuna、Koala 和GPT4all 因OpenAI 或LLaMA 限制無法商用。同時,值得注意的是,Apache2.0 和MIT 許可證均允許再修改源碼後閉源,公司可以在開源大模型基礎上開發自己的模型,或對公司更有吸引力。

三、共同點二:開源大模型參數少、小型化

「模型參數的大小」與「模型對算力的需求」正相關。

**3.1 超大模型和大模型分別多大? **

**預訓練賦予模型基本能力。 **在自然語言處理(NLP)中,預訓練是指在特定任務微調之前,將語言模型在大量文本語料庫上訓練,為模型賦予基本的語言理解能力。在預訓練過程中,模型被訓練以根據前面的上下文預測句子中的下一個單詞。這可以通過掩蓋一些輸入中的單詞並要求模型預測它們的方式進行,也可以採用自回歸的方法(例如GPT),即根據句子中的前面單詞預測下一個單詞。

預訓練模型通常包括大量的參數和對應的預訓練數據(通常用標識符即Token 的數量衡量)。 2017 年谷歌大腦團隊Transformer(變換器)模型的出現,徹底改變了NLP 的面貌,使得模型可以更好地理解和處理語言,提高NLP 任務的效果和準確性。

**超大模型和大模型分別多大? **語言模型的大小是根據其參數量來衡量的,參數量主要描述了神經元之間連接強度的可調值。目前一般大語言模型參數量在幾十到幾百億之間,超過千億參數的我們稱為「超大模型」,例如GPT-3(1750 億參數)。

3.2 GPT 系超大模型能力最強,但難復現

**大模型的性能評價標準並沒有統一。 **一個重要原因是大模型生成內容的任務種類多,不同的應用場景和任務可能需要不同的指標和方法去評估模型的表現。其中部分任務可能有公信力較強的評分標準,如機器翻譯中的BLEU,但大部分任務缺乏類似標準。

**模糊共識是超大模型性能好。 **大語言模型目前的發展趨勢是越來越大(詳見下圖),原因是大模型在預訓練後就具有較好通用性和穩定性。例如,谷歌團隊的超大模型PaLM(5400 億參數),在零樣本和少量樣本測試中均有良好的成績(詳見下圖),並且隨著其訓練標識符數量的上升,性能仍能提升。這也不難理解,簡單來說,模型見得多了,自然會的也多了。

**「同行評議」,GPT 系大模型「風華絕代」。 **當前,OpenAI GPT 系的超大模型擁有著強大的能力和廣泛的應用,在處理自然語言任務時具有高準確性和強大的表達能力,其在文本生成、問答系統、機器翻譯等多個領域都取得了出色效果,成為了當前自然語言處理領域的標杆之一,被各類大模型當作比較基準。復現ChatGPT 的門檻並沒有降低,開源大模型大部分僅在某些方面有較好的表現,整體質量與ChatGPT 仍不可比,尚需觀望。

近段時間以來,我們還注意到如下評價體系,評價方法主要包括機器自動評測(如使用GPT4)、人類盲評等,我們重點介紹其中部分及其測評結果,但不論哪種評價體系,GPT 系大模型都一騎絕塵。

  • 國外
  • 伯克利大學Chatbot Arena 借鑒遊戲排位賽機制,讓人類對模型兩兩盲評;
  • 開源工具包Zeno Build,通過Hugging Face 或在線API ,使用Critique 評估多個大模型。
  • 海內
  • SuperCLUE 中文通用大模型綜合性評測基準,嘗試全自動測評大模型;
  • C- 採用1.4 萬道涵蓋52 個學科的選擇題,評估模型中文能力,類似標準尚需時間和市場的檢驗。

3.2.1 Vicuna:利用GPT-4 評估

**目前大部分開源大模型性能未進行系統評價,更多處在起步試驗階段。 **在對性能進行評價的開源大模型中,Vicuna 的報告中利用GPT-4 進行的評估相對較為系統,結果也最令人矚目。

3.2.2 Zeno Build 測評:較新,較全面

Zeno Build 對GPT-2、LLaMA、Alpaca、Vicuna、MPT-Chat、Cohere Command、ChatGPT(gpt-3.5-turbo)七個模型測評,結果與GPT-4 評價結果相近。 ChatGPT 有明顯優勢,Vicuna 在開源模型中表現最佳。

3.2.3 C-:全面的中文基礎模型評估套件

C- 評估結果顯示,即便是在中文能力上,GPT-4 也是一騎絕塵,但GPT-4 也僅能達到67% 的正確率,目前大模型的中文處理能力尚有很大提升空間。

3.2.4 GPT 系超大模型訓練成本高,短期內難復現

**ChatGPT 所需算力和訓練成本可觀。 **不考慮與日活高度相關的推理過程所需的算力,僅考慮訓練過程,根據論文《Language Models are Few-Shot Learners》的測算,ChatGPT 的上一代GPT-3 (1750 億參數版)所需的算力高達3640PF-days(即假如每秒做一千萬億次浮點運算,需要計算3640 天),已知單張英偉達A100 顯卡的算力約為0.6PFLOPS,則訓練一次GPT-3(1750 億參數版),大約需要6000 張英偉達A100 顯卡,如果考慮互聯損失,大約需要上萬張A100,按單張A100 芯片價格約為10 萬元,則大規模訓練就需要投入約10 億元。 OpenAI 在GPT-3(1750 億參數)的訓練上花費了超過400 萬美元,而為了維持ChatGPT 和GPT4(參數量未公佈,預計更高)的運轉,每個月理論上更高。

3.3 開源大模型性價比高,超大模型以下大模型的壁壘正在消失

**開源大模型小型化趨勢明顯,參數約為百億級別,成本降低乃題中之義。 **開源大模型通常具有較少的參數,在設計、訓練和部署上,需要的資源和成本都相對較低。這波開源大模型的參數普遍較小,均在十億~百億級別左右。

「船小好調頭」,基於已有的開源預訓練模型進行微調也是開源大模型的優勢之一。在預訓練模型基礎上進行微調和優化,以適應不同的任務和應用場景,這種方法不僅可以大大縮短模型的訓練時間和成本,而且還可以提高模型的性能和效率。

**更多標識符訓練數據和新技術,讓超大模型以下的大模型壁壘趨於消失。 **LLaMA 被「開源」,讓大家都有了一個可上手的大模型,並且隨著DeepSpeed、RLHF 等技術的發展,幾百億的模型可以部署在消費級GPU 上。

  • 更多標識符訓練數據可能比更多參數重要:DeepMind 發表於2022 年3 月29 日的研究《Training Compute-Optimal Large Language Models(在計算上優化計算大語言模型)》向我們揭示了模型大小和訓練數據規模之間的關係:
  • 大模型往往訓練不足,導致大量算力的浪費。
  • 用更小的模型更充分地訓練,能達到比大模型更好的性能。例如DeepMind 的Chinchilla,模型僅有700 億參數,經過1.4 萬億標識符訓練數據集的訓練,在測試中效果優於DeepMind 的Gopher (2800 億參數,3000 億標識符訓練數據集)和OpenAI 的GPT-3(1750 億參數,3000 億標識符訓練數據集)。
  • 為了更好地實現模型性能,模型參數量每翻一倍,標識符訓練數據集的規模也應該隨之翻一倍。
  • 更小的模型,也意味著更小的下游微調和推理成本。
  • DeepSpeed 技术:可以显著减少训练大模型的时间和成本;
  • RLHF(基於人類反饋的強化學習):可以以較小的標識符訓練量提高模型的性能和準確性。

四、共同點三:開源大模型數據集重視人類指令,並自立門戶

「數據集的大小」也與「模型所需的算力」正相關。

4.1 學習ChatGPT 方法論,引入人類指令數據集

**微調是提升特定性能的捷徑。 **微調是指在已經預訓練的模型上,使用具有標註數據的特定任務數據集,進一步小規模訓練。微調可以以較小的算力代價,使模型更加適應特定任務的數據和場景,從而提高模型的性能和準確性。目前微調多為指令微調,指令數據集逐漸成為開源大模型的標配。

RLHF(Reinforcement Learning from Human Feedback,基於人類反饋的強化學習),是一種新興的微調方法,它使用強化學習技術來訓練語言模型,並依據人類反饋來調整模型的輸出結果。 RLHF(基於人類反饋的強化學習)是ChatGPT 早期版本GPT3 所不具備的功能,它使得只有13 億參數的InstructGPT 表現出了比1750 億參數GPT-3 更好的真實性、無害性和人類指令遵循度,更被標註員認可,同時不會折損GPT-3 在學術評估維度上的效果。

RLHF(基於人類反饋的強化學習)分為三個步驟:1)監督微調(SFT):讓標註員回答人類提問,用這一標註數據訓練GPT;2)獎勵模型(RM)訓練:讓標註員對機器的回答排序,相較於第一步由標註員直接撰寫回答的生成式標註,排序作為判別式標註的成本更低,用這一標註訓練模型,讓它模擬人類排序;3)無人類標註,用近端策略優化算法(PPO)微調模型。

這三個步驟對應的數據集的大小分別為1.3 萬個、3.3 萬個、3.1 萬個。

對於具有大量數據和一定算力的公司來說,使用自己的數據進行微調可以展現出模型的特化能力,並且用較小的算力達成接近大模型的效果。如多校聯合開發的Vicuna 語言模型,基於Meta 的LLaMA-130 億參數版模型,對7 萬條用戶分享的ChatGPT 對話指令微調,部分任務上,達到了92% 的GPT4 的效果。在通用性和穩定性上無法超過超大模型,但可以通過微調強化其某些方面的能力,性價比要更高,更適合中小公司應用。

4.2 數據集走向商用

數據集是語言模型發展的重要基礎和支撐,通常是由公司或組織自主收集、整理或直接購買獲得。相比之下,開源數據集大多由社區或學術界共同維護的,其數據量和種類更加豐富,但可能存在一定的數據質量問題和適用性差異。

4.2.1 預訓練數據集少量可商用

**預訓練數據集開源對模型商用至關重要。 **在後LLaMA 時代,開源大模型猶如雨後春筍般湧現,但很快大家便發現由於LLaMA 和OpenAI 的限制,基於其開發的模型無法商用(Alpaca、Koala、GPT4All、Vicuna),為了打破這一局面,Dolly2.0 率先出手,「為了解決這個難題,我們開始尋找方法來創建一個新的,未被「污染」的數據集以用於商業用途。 」隨後Red Pajama 和MOSS 接踵而至。

4.2.2 指令數據集部分可商用

**打造開源生態,各取所需。 **在早期開源項目中,因其指令數據及多來自ChatGPT 生成或對話內容,受OpenAI 限制無法商用。除去研究用途微調外,目前越來越多模型選擇自己構建指令數據集來繞開這一限制。

**指令數據集多樣化,部分模型的指令數據集可商用化。 **按照上文對此批集中出現的大模型的分類,除去LLaMA、基於LLaMA 開發出的模型以及StableLM 使用OpenAI 的指令數據集外,其餘大模型的指令數據集均不基於OpenAI,也因此這些大模型的指令數據集可商用化,這會加快推動使用且重視RLHF(基於人類反饋的強化學習)訓練範式的此類大模型的更迭與發展。

五、展望

我們注意到開源大模型走向相似的路口。

5.1 多模態化:助力通用人工智能(AGI)發展

**多模態開源大模型開始出現,將大模型推向新高潮,助力人類走向通用人工智能。多模態即圖像、聲音、文字等多種模態的融合。多模態模型基於機器學習技術,能夠處理和分析多種輸入類型,可以讓大模型更具有通用性。基於多領域知識,構建統一、跨場景、多任務的模型,推動人類走向通用人工智能(Artificial General Intelligence,AGI)時代。 **

5.1.1 ImageBind 閃亮登場,用圖像打通6 種模態

**ImageBind 開源大模型可超越單一感官體驗,讓機器擁有「聯想」能力。 **5 月9 日,Meta 公司宣布開源多模態大模型ImageBind。該模型以圖像為核心,可打通6 種模態,包括圖像(圖片/ 視頻)、溫度(紅外圖像)、文本、音頻、深度信息(3D)、動作捕捉傳感(IMU)。相關源代碼已託管至GitHub。該團隊表示未來還將加入觸覺、嗅覺、大腦磁共振信號等模態。

從技術上講,ImageBind 利用網絡數據(如圖像、文本),並將其與自然存在的配對數據(如音頻、深度信息等)相結合,以學習單個聯合嵌入空間,使得ImageBind 隱式地將文本嵌入與其他模態對齊,從而在沒有顯式語義或文本配對的情況下,能在這些模態上實現零樣本識別功能。

目前ImageBind 的典型用例包括:向模型輸入狗叫聲,模型輸出狗的圖片,反之亦可;向模型輸入鳥的圖片和海浪聲,模型輸出鳥在海邊的圖片,反之亦可。

5.1.2 開源大模型的多模態探索集中於圖片,但進展飛快

當前開源大模型在多模態的探索仍處於初級階段,除ImageBind 打通了六種模態外,多數仍在探索文本與圖像的融合,但速度相當快,我們梳理了其中部分。

VisualGLM-6B:可在消費級顯卡上本地部署

  • 團隊:VisualGLM-6B 是開源大語言模型ChatGLM-6B 的多模態升級版模型,支持圖像、中文和英文,由清華大學知識工程和數據挖掘小組發布。
  • 技術:VisualGLM-6B 是由語言模型ChatGLM-6B 與圖像模型BLP2-Qformer 結合,二者結合後的參數為78 億(62 億+16 億)。該模型使用的預訓練數據集是CogView 數據集中3000 萬個高質量的「中文圖像- 文本」和3 億個「英文圖像- 文本」對。在微調階段,該模型在長視覺問答數據集上進行訓練,以生成符合人類偏好的答案。
  • 性能:根據DataLearner,VisualGLM-6B 集成了模型量化技術,用戶可以在消費級顯卡上本地部署模型,INT4 量化級別只需要8.7G 的顯存。這意味著即使是擁有遊戲筆記本的用戶也可以快速且私密地部署這個模型,這在此類大小的ChatGPT 類模型中尚屬首次。

UniDiffuser:為多模態設計的概率建模框架UniDiffuser

  • 團隊:清華大學計算機系朱軍教授帶領的TSAIL 團隊於3 月12 日公開的一篇論文《One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale》,進行了一些多模態的探索。
  • 技術:UniDiffuser 採用該團隊提出的基於Transformer 的網絡架構U-ViT,在開源的大規模圖文數據集LAION 的50 億參數版上,訓練了一個十億參數量的模型,使得其能夠高質量地完成多種生成任務。
  • 功能:簡單來講,該模型除了單向文生圖,還能實現圖生文、圖文聯合生成、無條件圖文生成、圖文改寫等多種功能,實現了任意模態之間的相互轉化。

LLaVA:部分指令表現可比肩GPT-4

  • 團隊:由威斯康星大學麥迪遜分校,微軟研究院和哥倫比亞大學共同出品的LLaVA,在GitHub 上開源了代碼、模型和數據集。
  • 技術:LLaVA 是一個端到端的多模態大模型,它連接了一個視覺編碼器和大語言模型,用於通用的視覺和語言理解。
  • 功能:
  • 以文本為基礎的任務:LLaVA 可以處理並分析文本,允許用戶問問題,可以和用戶交談,或者完成用戶輸入的任務,比如提煉文件概要、情感分析、實體識別等。
  • 以圖像為基礎的任務:LLaVA 可以分析圖像,描述圖像,進行物體識別,分析理解場景。
  • 性能:早期實驗表明,LLaVA 的多模態聊天能力有時在未見過的圖像/ 指令上都能輸出比肩GPT-4 的表現,在合成的多模態指令跟隨數據集上與GPT-4 相比,獲得了85.1% 的相對分數。

MiniGPT-4:脫胎於LLaMA 的多模態開源大模型,個人用戶的GPT-4「平替」

  • 團隊:多模態GPT-4 大模型的發布,將大眾對於大模型的熱情推到了一個新的高潮。但是GPT-4 並沒有完全免費開放給個人,要想使用GPT-4,要么需要通過官方的邀請,要么需要升級到付費賬號。但即使付費,一些地區也無法進行相關服務的購買。在這種環境下,阿布杜拉國王科技大學的Deyao Zhu、Jun Chen 等人於4 月23 日發布了MiniGPT-4,旨在將來自預訓練視覺編碼器的視覺信息與先進的大語言模型結合。
  • 技術:具體來說,MiniGPT-4 採用了與BLIP-2 相同的預訓練視覺組件,其中該組件由EVA-CLIP 的ViT-G/14 和Q-Former 組成,同時使用大語言模型Vicuna 調優,可以執行各種複雜的語言任務。
  • 功能:MiniGPT-4 可實現許多玩法,如上傳一張海鮮大餐照片,即可得到菜譜;上傳一張商品效果圖,即可獲得一篇帶貨文案;手繪一個網頁,即可得到對應的HTML 代碼。據使用過的人士反饋,MiniGPT-4 整體效果不錯,但目前對中文支持還有待提高。

mPLUG-Owl:模塊化多模態大模型

  • 團隊:mPLUG-Owl 是阿里巴巴達摩院mPLUG 系列的最新工作,延續mPLUG 系列的模塊化訓練思想,將語言大模型遷移為多模態大模型。
  • 技術:mPLUG-Owl 採用CLIP ViT-L/14 作為視覺基礎模塊,採用LLaMA 初始化的結構作為文本解碼器,採用類似Flamingo 的Perceiver Resampler 結構對視覺特徵進行重組。此外,mPLUG-Owl 第一次針對視覺相關的指令評測提出了全面的測試集Owl。
  • 功能:mPLUG-Owl 具有很強的多輪對話能力、推理能力及笑話解釋能力。此外,研究團隊還觀察到mPLUG-Owl 初顯一些意想不到的能力,比如多圖關聯、多語言、文字識別和文檔理解等能力。
  • 性能:實驗證明mPLUG-Owl 在視覺相關的指令回復任務上優於BLIP2、LLaVA、MiniGPT4。

5.2 專業化:下游生態發力,針對特定任務微調模型

大模型開源化為下游生態的蓬勃生長提供了絕佳機會,在細分產業的開發下,大模型開始在特定任務上深化開發,改變人類生活。自開源大模型LLaMA 推出後,基於LLaMA 預訓練模型微調的下游專業化模型開始浮現,例如醫療問診領域中的華駝。

  • 團隊:華駝(Hua Tuo)是基於中文醫學知識的LLaMa 指令微調模型,在智能問診層面表現出色,可生成一些更為可靠的醫學知識回答。在生物醫學領域,已發布的大語言模型模型因為缺乏一定的醫學專業知識語料而表現不佳。 4 月14 日,哈爾濱工業大學一團隊發布了其對LLaMa 模型進行指令微調後得到的、針對醫學領域的、開源智能問診模型Hua Tuo。
  • 技術:LLaMA 擁有70 億~650 億參數等多個版本,為了更快速、高效地訓練,節約訓練成本,華駝採用了LLaMA70 億參數版本作為基礎模型。為了保證模型在醫學領域回答問題的準確性,研究人員通過從中文醫學知識圖譜CMeKG 中提取相關的醫學知識,生成多樣的指令數據,並收集了超過8000 條指令數據進行監督微調,以確保模型回答問題的事實正確性。

  • 性能:在模型效果上,HuaTuo 与其他三个基准模型进行了比较。为了评估模型性能,研究人员招募了五名具有医学背景的专业医师,在安全性、可用性、平稳性(SUS)三个维度上进行评估。SUS 刻度从 1(不可接受)到 3(好),其中 2 表示可接受的响应。平均 SUS 得分如下图所示。结果表明,HuaTuo 模型显著提高了知识可用性,同时没有太多地牺牲安全性。

華駝或將是未來開源大模型下游的特定任務模型發展的範式,即採用低參數體量的小型開源大模型作為基礎模型,加之以特定專業領域的數據進行訓練,得到表現更好的細分領域模型。

六、投資建議

開源大模型的發展影響深遠,本報告選取其中部分可能受益的方向,提請市場關注。

6.1 微軟:與OpenAI 深度合作

我們認為,短期內,ChatGPT 系仍是能力最強的大模型,與其深度合作的微軟將受益。

  • 股權上,根據《財富》雜誌報導,在OpenAI 的第一批投資者收回初始資本後,微軟將有權獲得OpenAI 75% 利潤,直到微軟收回投資成本(130 億美元);當OpenAI 實現920 億美元的利潤後,微軟的份額將降至49%。與此同時,其他風險投資者和OpenAI 的員工,也將有權獲得OpenAI 49% 的利潤,直到他們賺取約1500 億美元。如果達到這些上限,微軟和投資者的股份將歸還給OpenAI 非營利基金會。
  • 產品上,除了讓搜索引擎必應(Bing)整合ChatGPT,2023 年1 月,微軟宣布推出Azure OpenAI 服務,Azure 全球版企業客戶可以在雲平台上直接調用OpenAI 模型,包括GPT3.5、Codex 和DALL.E 模型,其後不久,微軟宣布將GPT4 整合到了新必應和Office 升級版Copilot 上。

6.2 英偉達:開源大模型帶動應用風起,算力需求狂飆

算力服務是開源大模型浪潮中受益確定性較強的方向,在軟硬件一體化方面具有明顯的領先優勢,是當前AI 算力的領頭羊。

6.2.1 超大模型對算力的需求將保持高增長

超大模型質量優勢突出,市場將持續追捧,其對算力的需求會一直增長。超大型模型具有強大的表達能力和高準確性,在質量上具有優勢,市場將持續追捧這種模型。超大模型規模、數據集和日活持續擴大,所需算力將持續增多。

6.2.2 開源大模型的快速追趕也將利好算力

短期內,市場對開源大模型持觀望態度。開源大模型在通用性上表現較差,短時間內無法與大型模型抗衡,加之目前難以系統評價模型的具體性能,市場對開源大模型持觀望態度,等待它們證明自己的性能和優勢。

**中長期看,開源大模型有望進一步提高性能,從而在市場上佔據更大的份額。 **相較於超大模型,開源大模型具有更低的算力需求和更易於部署的特點,還可以通過快速微調等方式,針對某些專業領域優化,具備一定吸引力和實用性。在中長期內,如果有開源大模型能夠接近或超越ChatGPT 在質量上的表現,那麼市場對這類模型的需求可能會迅速上升。相應地,這類算力需求會很快起量。

6.2.3 催化劑:開源大模型許可證、標準和能力評價體系的發展

  • 許可證:我們認為,開源社區發展已久的許可證體系,豐富了開發者的選擇,有助於大模型選擇適合自己的許可證,從而推動商業應用。大模型的繁榮發展,顯然將帶動市場對算力的需求。
  • 標準:我們預計,大模型社區或許還將產生類似於Linux 開發標準LSB 的標準,適當的標準化將使得大模型的生態不至於過於分散。我們看好開源社區源源不斷的生命力對英偉達等算力服務商業績的推動。
  • 大模型能力評價體系:有公信力的大模型能力評價體係將有助於市場快速分辨大模型的能力,有助於大模型賽道的發展。

6.3 Meta:開源「急先鋒」,受益於開源生態

回顧安卓的發展史,我們看好「谷歌- 安卓」體系中的類谷歌角色,在該體系中,谷歌作為開源操作系統安卓的開發商,將開源作為激勵生態上下游發展的工具,增強自身專有服務在終端客戶的曝光度。

映射到大模型,我們認為,開源了LLaMA 的Meta,可能通過LLaMA,加深與下游大模型開發廠商的合作,將自身體系中的專有產品,綁定銷售給客戶。

6.4 其他

6.4.1 邊緣算力+ 開源模型:AI 應用的落地加速器

邊緣算力可以將推理計算放置用戶的設備上,不僅能夠提高數據處理的速度和效率,從而降低推理的成本,還能夠保護用戶的隱私和安全。

  • 智能模組:作為承載邊緣算力的最佳模式,是未來具身智能產品放量下最具有確定性和彈性的品種。建議關注美格智能、廣和通。
  • 邊緣IDC:憑藉時延和成本優勢,是滿足「階梯形」算力分佈的一種有效補充。建議關注龍宇股份、網宿科技。
  • 光模塊:中際旭創、新易盛、天孚通信、源傑科技。
  • 傳統的IoT 通信芯片廠商:有望受益行業上行過程。建議關注:中興通訊、工業富聯、紫光股份、銳捷網絡、菲菱科思、翱捷科技、初靈信息。

6.4.2 大數據公司:看好「開源大模型+ 自有海量數據」組合

對「擁有大量數據但算力不足」的企業而言,利用自己的數據,充分預訓練和微調開源可商用模型,性價比較高。這可以提高模型的準確性和適用性,也能夠大大縮短模型訓練時間和成本。此外,微調後的模型還能夠更好地滿足企業的特定需求和業務場景,從而提升企業的競爭力和創新能力。隨著技術的不斷發展和普及,自主微調模型成為企業利用自有數據,快速實現智能化應用的重要手段。

6.4.3 開源大模型服務商:服務至上

回顧紅帽的發展史,我們認為,即使大模型進入開源時代,面向客戶的24*7 的服務仍然必不可少,尤其是面向企業的。我們看好開源大模型服務商。

6.4.4 蘋果:獲得ChatGPT App 收入分成

ChatGPT 在App Store 上架,按照App Store 的慣例,蘋果將獲得收入分成。

查看原文
本頁面內容僅供參考,非招攬或要約,也不提供投資、稅務或法律諮詢。詳見聲明了解更多風險披露。
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate.io APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)