# AI x Crypto:從零到巔峯## 引言人工智能行業的近期發展被一些人視爲第四次工業革命。大型語言模型的出現顯著提升了各行各業的效率,據估計爲美國提升了約20%的工作效率。同時,大模型的泛化能力被認爲是新的軟件設計範式,相比過去精確的代碼設計,現在的軟件更多是將泛化的大模型框架嵌入,從而支持更廣泛的模態輸入與輸出。深度學習技術確實爲AI行業帶來了新一輪繁榮,這股浪潮也影響到了加密貨幣行業。在本報告中,我們將詳細探討AI行業的發展歷程、技術分類,以及深度學習技術對行業的影響。然後深入分析深度學習中GPU、雲計算、數據源、邊緣設備等產業鏈上下遊的發展現狀與趨勢。最後我們將從本質上探討Crypto與AI行業的關係,梳理Crypto相關AI產業鏈的格局。## AI行業的發展歷史AI行業從20世紀50年代起步,爲實現人工智能的願景,學術界和工業界在不同時代不同學科背景下,發展出了多種實現人工智能的流派。現代人工智能技術主要使用"機器學習"這一術語,其理念是讓機器依靠數據在任務中反復迭代以改善系統性能。主要步驟是將數據送入算法,用此數據訓練模型,測試部署模型,使用模型完成自動化預測任務。目前機器學習有三大主要流派,分別是聯結主義、符號主義和行爲主義,分別模仿人類的神經系統、思維、行爲。目前以神經網路爲代表的聯結主義佔據上風(也被稱爲深度學習),主要原因是這種架構有一個輸入層一個輸出層,但有多個隱藏層,一旦層數以及神經元(參數)的數量足夠多,就有足夠機會擬合復雜的通用型任務。通過數據輸入,可以不斷調整神經元的參數,經歷多次數據後該神經元就會達到最佳狀態(參數),這也是"深度"兩字的由來——足夠多的層數和神經元。舉個例子,可以簡單理解爲構造了一個函數,該函數我們輸入X=2時,Y=3;X=3時,Y=5,如果想要這個函數應對所有的X,那麼就需要一直添加這個函數的度及其參數,比如可以構造滿足這個條件的函數爲Y = 2X -1,但如果有一個數據爲X=2,Y=11時,就需要重構一個適合這三個數據點的函數,使用GPU進行暴力破解發現Y = X2 -3X +5比較合適,但不需要完全和數據重合,只需要遵守平衡,大致相似的輸出即可。這裏面X2以及X、X0都代表不同的神經元,而1、-3、5就是其參數。此時如果我們輸入大量數據到神經網路中,我們可以增加神經元、迭代參數來擬合新的數據。這樣就能擬合所有的數據。而基於神經網路的深度學習技術,也有多個技術迭代與演進,分別如最早期的神經網路,前饋神經網路、RNN、CNN、GAN最後演進到現代大模型如GPT等使用的Transformer技術,Transformer技術只是神經網路的一個演進方向,多加了一個轉換器(Transformer),用於把所有模態(如音頻,視頻,圖片等)的數據編碼成對應的數值來表示。然後再輸入到神經網路中,這樣神經網路就能擬合任何類型的數據,也就是實現多模態。AI發展經歷了三次技術浪潮,第一次浪潮是20世紀60年代,是AI技術提出的十年後,這次浪潮是符號主義技術發展引起的,該技術解決了通用的自然語言處理以及人機對話的問題。同時期,專家系統誕生,這個是美國一所大學在美國國家航天局的督促下完成的DENRAL專家系統,該系統具備非常強的化學知識,通過問題進行推斷以生成和化學專家一樣的答案,這個化學專家系統可以被視爲化學知識庫以及推斷系統的結合。在專家系統之後,20世紀90年代以色列裔的美國科學家和哲學家朱迪亞·珀爾提出了貝葉斯網路,該網路也被稱爲信念網路。同時期,Brooks提出了基於行爲的機器人學,標志着行爲主義的誕生。1997年,一家科技公司的國際象棋程序以3.5:2.5戰勝了國際象棋冠軍卡斯帕羅夫,這場勝利被視爲人工智能的一個裏程碑,AI技術迎來了第二次發展的高潮。第三次AI技術浪潮發生在2006年。深度學習三巨頭Yann LeCun 、Geoffrey Hinton 以及Yoshua Bengio提出了深度學習的概念,一種以人工神經網路爲架構,對資料進行表徵學習的算法。之後深度學習的算法逐漸演進,從RNN、GAN到Transformer以及Stable Diffusion,這兩個算法共同塑造了這第三次技術浪潮,而這也是聯結主義的鼎盛時期。許多標志性的事件也伴隨着深度學習技術的探索與演進逐漸湧現,包括:* 2011年,一個人工智能系統在《危險邊緣》回答測驗節目中戰勝人類、獲得冠軍。* 2014年,Goodfellow提出GAN(生成式對抗網路),通過讓兩個神經網路相互博弈的方式進行學習,能夠生成以假亂真的照片。同時Goodfellow還寫了一本《深度學習》,成爲深度學習領域重要入門書籍之一。* 2015年,Hinton等人提出深度學習算法,立即在學術圈以及工業界引起巨大反響。* 2015年,OpenAI創建,獲得多位知名投資人共同注資10億美元。* 2016年,基於深度學習技術的AlphaGo與圍棋世界冠軍、職業九段棋手李世石進行圍棋人機大戰,以4比1的總比分獲勝。* 2017年,一家科技公司開發的類人機器人索菲亞獲得公民身分,具備豐富的面部表情以及人類語言理解能力。* 2017年,Google發布論文《Attention is all you need》提出Transformer算法,大規模語言模型開始出現。* 2018年,OpenAI發布基於Transformer算法構建的GPT,這是當時最大的語言模型之一。* 2018年,DeepMind發布基於深度學習的AlphaFold,能夠進行蛋白質的結構預測,被視爲人工智能領域的巨大進步。* 2019年,OpenAI發布GPT-2,該模型具備15億個參數。* 2020年,OpenAI開發的GPT-3,具有1,750億個參數,比以前的版本GPT-2高100倍,該模型使用了570GB的文本來訓練,可以在多個NLP任務上達到最先進的性能。* 2021年,OpenAI發布GPT-4,該模型具備1.76萬億個參數,是GPT-3的10倍。* 2023年1月基於GPT-4模型的ChatGPT應用推出,3月達到一億用戶,成爲歷史最快達到一億用戶的應用。* 2024年,OpenAI推出GPT-4 omni。## 深度學習產業鏈當前大模型語言使用的都是基於神經網路的深度學習方法。以GPT爲首的大模型造就了一波人工智能熱潮,大量玩家湧入這個賽道,我們也發現市場對於數據、算力的需求大量迸發,因此在報告的這一部分,我們主要探索深度學習算法的產業鏈,在深度學習算法主導的AI行業,其上下遊是如何組成的,而上下遊的現狀與供需關係、未來發展又是如何。首先我們需要明晰的是,在進行基於Transformer技術的GPT爲首的LLMs(大模型)訓練時,一共分爲三個步驟。在訓練之前,因爲是基於Transformer,因此轉換器需要將文本輸入轉化爲數值,這個過程被稱爲"Tokenization",之後這些數值被稱爲Token。在一般的經驗法則下,一個英文單詞或者字符可以粗略視作一個Token,而每個漢字可以被粗略視爲兩個Token。這個也是GPT計價使用的基本單位。第一步,預訓練。通過給輸入層足夠多的數據對,類似於報告第一部分所舉例的(X,Y),來尋找該模型下各個神經元最佳的參數,這個時侯需要大量的數據,而這個過程也是最耗費算力的過程,因爲要反復迭代神經元嘗試各種參數。一批數據對訓練完成之後,一般會使用同一批數據進行二次訓練以迭代參數。第二步,微調。微調是給予一批量較少,但是質量非常高的數據,來訓練,這樣的改變就會讓模型的輸出有更高的質量,因爲預訓練需要大量數據,但是很多數據可能存在錯誤或者低質量。微調步驟能夠通過優質數據提升模型的品質。第三步,強化學習。首先會建立一個全新的模型,我們稱其爲"獎勵模型",這個模型目的非常簡單,就是對輸出的結果進行排序,因此實現這個模型會比較簡單,因爲業務場景比較垂直。之後用這個模型來判定我們大模型的輸出是否是高質量的,這樣就可以用一個獎勵模型來自動迭代大模型的參數。(但是有時候也需要人爲參與來評判模型的輸出質量)簡而言之,在大模型的訓練過程中,預訓練對數據的量有非常高的要求,所需要耗費的GPU算力也是最多的,而微調需要更加高質量的數據來改進參數,強化學習可以通過一個獎勵模型來反復迭代參數以輸出更高質量的結果。在訓練的過程中,參數越多那麼其泛化能力的天花板就越高,比如我們以函數舉例的例子裏,Y = aX + b,那麼實際上有兩個神經元 X以及X0,因此參數如何變化,其能夠擬合的數據都極其有限,因爲其本質仍然是一條直線。如果神經元越多,那麼就能迭代更多的參數,那麼就能擬合更多的數據,這就是爲什麼大模型大力出奇跡的原因,並且這也是爲什麼通俗取名大模型的原因,本質就是巨量的神經元以及參數、巨量的數據,同時需要巨量的算力。因此,影響大模型表現主要由三個方面決定,參數數量、數據量與質量、算力,這三個共同影響了大模型的結果質量和泛化能力。我們假設參數數量爲p,數據量爲n(以Token數量進行計算),那麼我們能夠通過一般的經驗法則計算所需的計算量,這樣就可以預估我們需要大致購買的算力情況以及訓練時間。算力一般以Flops爲基本單位,代表了一次浮點運算,浮點運算是非整數的數值加減乘除的統稱,如2.5+3.557,浮點代表着能夠帶小數點,而FP16代表了支持小數的精度,FP32是一般更爲常見的精度。根據實踐下的經驗法則,預訓練(Pre-traning)一次(一般會訓練多次)大模型,大概需要 6np Flops,6被稱爲行業常數。而推理(Inference,就是我們輸入一個數據,等待大模型的輸出的過程),分成兩部分,輸入n個token,輸出n個token,那麼大約一共需要2np Flops。在早期,使用的是CPU芯片進行訓練提供算力支持,但是之後開始逐漸使用GPU替代,如Nvidia的A100、H100芯片等。因爲CPU是作爲通用計算存在的,但是GPU可以作爲專用
AI與加密貨幣:技術革新下的新興產業鏈格局
AI x Crypto:從零到巔峯
引言
人工智能行業的近期發展被一些人視爲第四次工業革命。大型語言模型的出現顯著提升了各行各業的效率,據估計爲美國提升了約20%的工作效率。同時,大模型的泛化能力被認爲是新的軟件設計範式,相比過去精確的代碼設計,現在的軟件更多是將泛化的大模型框架嵌入,從而支持更廣泛的模態輸入與輸出。深度學習技術確實爲AI行業帶來了新一輪繁榮,這股浪潮也影響到了加密貨幣行業。
在本報告中,我們將詳細探討AI行業的發展歷程、技術分類,以及深度學習技術對行業的影響。然後深入分析深度學習中GPU、雲計算、數據源、邊緣設備等產業鏈上下遊的發展現狀與趨勢。最後我們將從本質上探討Crypto與AI行業的關係,梳理Crypto相關AI產業鏈的格局。
AI行業的發展歷史
AI行業從20世紀50年代起步,爲實現人工智能的願景,學術界和工業界在不同時代不同學科背景下,發展出了多種實現人工智能的流派。
現代人工智能技術主要使用"機器學習"這一術語,其理念是讓機器依靠數據在任務中反復迭代以改善系統性能。主要步驟是將數據送入算法,用此數據訓練模型,測試部署模型,使用模型完成自動化預測任務。
目前機器學習有三大主要流派,分別是聯結主義、符號主義和行爲主義,分別模仿人類的神經系統、思維、行爲。
目前以神經網路爲代表的聯結主義佔據上風(也被稱爲深度學習),主要原因是這種架構有一個輸入層一個輸出層,但有多個隱藏層,一旦層數以及神經元(參數)的數量足夠多,就有足夠機會擬合復雜的通用型任務。通過數據輸入,可以不斷調整神經元的參數,經歷多次數據後該神經元就會達到最佳狀態(參數),這也是"深度"兩字的由來——足夠多的層數和神經元。
舉個例子,可以簡單理解爲構造了一個函數,該函數我們輸入X=2時,Y=3;X=3時,Y=5,如果想要這個函數應對所有的X,那麼就需要一直添加這個函數的度及其參數,比如可以構造滿足這個條件的函數爲Y = 2X -1,但如果有一個數據爲X=2,Y=11時,就需要重構一個適合這三個數據點的函數,使用GPU進行暴力破解發現Y = X2 -3X +5比較合適,但不需要完全和數據重合,只需要遵守平衡,大致相似的輸出即可。這裏面X2以及X、X0都代表不同的神經元,而1、-3、5就是其參數。
此時如果我們輸入大量數據到神經網路中,我們可以增加神經元、迭代參數來擬合新的數據。這樣就能擬合所有的數據。
而基於神經網路的深度學習技術,也有多個技術迭代與演進,分別如最早期的神經網路,前饋神經網路、RNN、CNN、GAN最後演進到現代大模型如GPT等使用的Transformer技術,Transformer技術只是神經網路的一個演進方向,多加了一個轉換器(Transformer),用於把所有模態(如音頻,視頻,圖片等)的數據編碼成對應的數值來表示。然後再輸入到神經網路中,這樣神經網路就能擬合任何類型的數據,也就是實現多模態。
AI發展經歷了三次技術浪潮,第一次浪潮是20世紀60年代,是AI技術提出的十年後,這次浪潮是符號主義技術發展引起的,該技術解決了通用的自然語言處理以及人機對話的問題。同時期,專家系統誕生,這個是美國一所大學在美國國家航天局的督促下完成的DENRAL專家系統,該系統具備非常強的化學知識,通過問題進行推斷以生成和化學專家一樣的答案,這個化學專家系統可以被視爲化學知識庫以及推斷系統的結合。
在專家系統之後,20世紀90年代以色列裔的美國科學家和哲學家朱迪亞·珀爾提出了貝葉斯網路,該網路也被稱爲信念網路。同時期,Brooks提出了基於行爲的機器人學,標志着行爲主義的誕生。
1997年,一家科技公司的國際象棋程序以3.5:2.5戰勝了國際象棋冠軍卡斯帕羅夫,這場勝利被視爲人工智能的一個裏程碑,AI技術迎來了第二次發展的高潮。
第三次AI技術浪潮發生在2006年。深度學習三巨頭Yann LeCun 、Geoffrey Hinton 以及Yoshua Bengio提出了深度學習的概念,一種以人工神經網路爲架構,對資料進行表徵學習的算法。之後深度學習的算法逐漸演進,從RNN、GAN到Transformer以及Stable Diffusion,這兩個算法共同塑造了這第三次技術浪潮,而這也是聯結主義的鼎盛時期。
許多標志性的事件也伴隨着深度學習技術的探索與演進逐漸湧現,包括:
2011年,一個人工智能系統在《危險邊緣》回答測驗節目中戰勝人類、獲得冠軍。
2014年,Goodfellow提出GAN(生成式對抗網路),通過讓兩個神經網路相互博弈的方式進行學習,能夠生成以假亂真的照片。同時Goodfellow還寫了一本《深度學習》,成爲深度學習領域重要入門書籍之一。
2015年,Hinton等人提出深度學習算法,立即在學術圈以及工業界引起巨大反響。
2015年,OpenAI創建,獲得多位知名投資人共同注資10億美元。
2016年,基於深度學習技術的AlphaGo與圍棋世界冠軍、職業九段棋手李世石進行圍棋人機大戰,以4比1的總比分獲勝。
2017年,一家科技公司開發的類人機器人索菲亞獲得公民身分,具備豐富的面部表情以及人類語言理解能力。
2017年,Google發布論文《Attention is all you need》提出Transformer算法,大規模語言模型開始出現。
2018年,OpenAI發布基於Transformer算法構建的GPT,這是當時最大的語言模型之一。
2018年,DeepMind發布基於深度學習的AlphaFold,能夠進行蛋白質的結構預測,被視爲人工智能領域的巨大進步。
2019年,OpenAI發布GPT-2,該模型具備15億個參數。
2020年,OpenAI開發的GPT-3,具有1,750億個參數,比以前的版本GPT-2高100倍,該模型使用了570GB的文本來訓練,可以在多個NLP任務上達到最先進的性能。
2021年,OpenAI發布GPT-4,該模型具備1.76萬億個參數,是GPT-3的10倍。
2023年1月基於GPT-4模型的ChatGPT應用推出,3月達到一億用戶,成爲歷史最快達到一億用戶的應用。
2024年,OpenAI推出GPT-4 omni。
深度學習產業鏈
當前大模型語言使用的都是基於神經網路的深度學習方法。以GPT爲首的大模型造就了一波人工智能熱潮,大量玩家湧入這個賽道,我們也發現市場對於數據、算力的需求大量迸發,因此在報告的這一部分,我們主要探索深度學習算法的產業鏈,在深度學習算法主導的AI行業,其上下遊是如何組成的,而上下遊的現狀與供需關係、未來發展又是如何。
首先我們需要明晰的是,在進行基於Transformer技術的GPT爲首的LLMs(大模型)訓練時,一共分爲三個步驟。
在訓練之前,因爲是基於Transformer,因此轉換器需要將文本輸入轉化爲數值,這個過程被稱爲"Tokenization",之後這些數值被稱爲Token。在一般的經驗法則下,一個英文單詞或者字符可以粗略視作一個Token,而每個漢字可以被粗略視爲兩個Token。這個也是GPT計價使用的基本單位。
第一步,預訓練。通過給輸入層足夠多的數據對,類似於報告第一部分所舉例的(X,Y),來尋找該模型下各個神經元最佳的參數,這個時侯需要大量的數據,而這個過程也是最耗費算力的過程,因爲要反復迭代神經元嘗試各種參數。一批數據對訓練完成之後,一般會使用同一批數據進行二次訓練以迭代參數。
第二步,微調。微調是給予一批量較少,但是質量非常高的數據,來訓練,這樣的改變就會讓模型的輸出有更高的質量,因爲預訓練需要大量數據,但是很多數據可能存在錯誤或者低質量。微調步驟能夠通過優質數據提升模型的品質。
第三步,強化學習。首先會建立一個全新的模型,我們稱其爲"獎勵模型",這個模型目的非常簡單,就是對輸出的結果進行排序,因此實現這個模型會比較簡單,因爲業務場景比較垂直。之後用這個模型來判定我們大模型的輸出是否是高質量的,這樣就可以用一個獎勵模型來自動迭代大模型的參數。(但是有時候也需要人爲參與來評判模型的輸出質量)
簡而言之,在大模型的訓練過程中,預訓練對數據的量有非常高的要求,所需要耗費的GPU算力也是最多的,而微調需要更加高質量的數據來改進參數,強化學習可以通過一個獎勵模型來反復迭代參數以輸出更高質量的結果。
在訓練的過程中,參數越多那麼其泛化能力的天花板就越高,比如我們以函數舉例的例子裏,Y = aX + b,那麼實際上有兩個神經元 X以及X0,因此參數如何變化,其能夠擬合的數據都極其有限,因爲其本質仍然是一條直線。如果神經元越多,那麼就能迭代更多的參數,那麼就能擬合更多的數據,這就是爲什麼大模型大力出奇跡的原因,並且這也是爲什麼通俗取名大模型的原因,本質就是巨量的神經元以及參數、巨量的數據,同時需要巨量的算力。
因此,影響大模型表現主要由三個方面決定,參數數量、數據量與質量、算力,這三個共同影響了大模型的結果質量和泛化能力。我們假設參數數量爲p,數據量爲n(以Token數量進行計算),那麼我們能夠通過一般的經驗法則計算所需的計算量,這樣就可以預估我們需要大致購買的算力情況以及訓練時間。
算力一般以Flops爲基本單位,代表了一次浮點運算,浮點運算是非整數的數值加減乘除的統稱,如2.5+3.557,浮點代表着能夠帶小數點,而FP16代表了支持小數的精度,FP32是一般更爲常見的精度。根據實踐下的經驗法則,預訓練(Pre-traning)一次(一般會訓練多次)大模型,大概需要 6np Flops,6被稱爲行業常數。而推理(Inference,就是我們輸入一個數據,等待大模型的輸出的過程),分成兩部分,輸入n個token,輸出n個token,那麼大約一共需要2np Flops。
在早期,使用的是CPU芯片進行訓練提供算力支持,但是之後開始逐漸使用GPU替代,如Nvidia的A100、H100芯片等。因爲CPU是作爲通用計算存在的,但是GPU可以作爲專用