Yapay zeka sektöründeki son gelişmeler bazıları tarafından dördüncü sanayi devrimi olarak görülmektedir. Büyük dil modellerinin ortaya çıkışı, her sektörde verimliliği önemli ölçüde artırdı; ABD'de iş verimliliğini yaklaşık %20 oranında artırdığı tahmin edilmektedir. Aynı zamanda, büyük modellerin genelleme yeteneği, yeni bir yazılım tasarım paradigması olarak kabul edilmektedir; geçmişteki kesin kod tasarımının aksine, günümüzde yazılımlar daha çok genelleştirilmiş büyük model çerçevelerinin entegre edilmesiyle, daha geniş modalite girdi ve çıktısını desteklemektedir. Derin öğrenme teknolojisi gerçekten de AI sektörüne yeni bir refah dönemi getirmiştir ve bu dalga kripto para sektörünü de etkilemiştir.
Bu raporda, AI endüstrisinin gelişim sürecini, teknoloji sınıflandırmalarını ve derin öğrenme teknolojisinin sektördeki etkisini ayrıntılı olarak inceleyeceğiz. Ardından, derin öğrenme alanında GPU, bulut bilişim, veri kaynakları, kenar cihazları gibi endüstri zincirinin yukarı ve aşağı akışındaki gelişim durumu ve trendlerini derinlemesine analiz edeceğiz. Son olarak, Crypto ile AI endüstrisi arasındaki ilişkiyi özünde tartışacak ve Crypto ile ilgili AI endüstrisi zincirinin yapısını gözden geçireceğiz.
AI sektörünün gelişim tarihi
Yapay zeka endüstrisi 1950'li yıllarda başlamıştır; yapay zekanın vizyonunu gerçekleştirmek için akademik ve endüstriyel alanlar, farklı dönemlerde ve farklı disiplin arka planlarında, yapay zekayı gerçekleştirmenin çeşitli yollarını geliştirmiştir.
Modern yapay zeka teknolojisi, "makine öğrenimi" terimini kullanmaktadır; bu, makinelerin veriler aracılığıyla görevlerde tekrar tekrar iterasyon yaparak sistem performansını geliştirmesi fikridir. Temel adımlar, verilerin algoritmaya gönderilmesi, bu verilerle modelin eğitilmesi, modelin test edilip dağıtılması ve modelin otomatik tahmin görevlerini yerine getirmek için kullanılmasıdır.
Şu anda makine öğreniminin üç ana akımı vardır: bağlantıcılık, sembolistlik ve davranışçılık; bunlar sırasıyla insanın sinir sistemi, düşünce ve davranışını taklit etmektedir.
Şu anda sinir ağlarının temsil ettiği bağlantıcılık, derin öğrenme olarak da bilinir, (, bu mimarinin bir giriş katmanı, bir çıkış katmanı ve birden fazla gizli katmanı olduğu için üstünlük sağlamaktadır. Katman sayısı ve yeterince fazla nöron ) parametre ( sayısı yeterince büyük olduğunda, karmaşık genel görevleri uyarlamak için yeterli fırsat vardır. Veri girişi ile nöronların parametreleri sürekli olarak ayarlanabilir ve birçok veri deneyimledikten sonra bu nöron en iyi duruma ulaşır ) parametre (, bu da "derinlik" kelimesinin kökenidir - yeterince fazla katman ve nöron.
Bir örnek vermek gerekirse, bu basitçe bir fonksiyon oluşturmak olarak anlaşılabilir. Bu fonksiyona X=2 girdiğimizde Y=3; X=3 girdiğimizde Y=5 oluyor. Eğer bu fonksiyonun tüm X değerleriyle başa çıkmasını istiyorsak, fonksiyonun derecesini ve parametrelerini sürekli eklememiz gerekir. Örneğin, bu koşulu sağlayan bir fonksiyon Y = 2X - 1 olabilir, ama eğer bir veri X=2, Y=11 ise, bu üç veri noktasına uygun yeni bir fonksiyon oluşturmak gerekir. GPU kullanarak sert bir şekilde denediğimizde Y = X² - 3X + 5'in daha uygun olduğunu buluyoruz. Ancak verilerle tamamen örtüşmesi gerekmiyor; sadece dengeyi koruması ve kabaca benzer bir çıktı vermesi yeterlidir. Burada X², X ve X₀ farklı nöronları temsil ederken, 1, -3 ve 5 onun parametreleridir.
Bu durumda, sinir ağına büyük miktarda veri girdiğimizde, yeni verilere uyum sağlamak için nöronları artırabilir ve parametreleri yineleyebiliriz. Böylece tüm verileri uyumlu hale getirebiliriz.
Sinir ağına dayalı derin öğrenme teknolojisi de birçok teknik iterasyon ve evrim geçirdi. İlk sinir ağları, ileri beslemeli sinir ağları, RNN, CNN, GAN gibi farklı aşamalardan geçerek, modern büyük modellerin kullandığı Transformer teknolojisine kadar evrildi. Transformer teknolojisi, sinir ağlarının bir evrim yönüdür ve tüm modları ) gibi ses, video, resim vb. verileri karşılık gelen sayılar ile temsil edecek şekilde kodlamak için bir dönüştürücü ekler. Ardından, bu veriler sinir ağına girilir, böylece sinir ağı her türlü veriyi modelleyebilir ve çok modlu hale getirilebilir.
Yapay zeka gelişimi üç teknik dalga geçirdi, birinci dalga 20. yüzyılın 60'lı yıllarıdır, bu dalga yapay zeka teknolojisinin ortaya çıkmasından on yıl sonradır, bu dalga sembolist teknolojinin gelişiminden kaynaklanmıştır, bu teknoloji genel doğal dil işleme ve insan-makine diyalog sorununu çözmüştür. Aynı dönemde, uzman sistemler doğmuştur, bu, Amerika Birleşik Devletleri'ndeki bir üniversitenin NASA'nın teşvikiyle tamamladığı DENRAL uzman sistemidir, bu sistem oldukça güçlü bir kimya bilgisine sahiptir, sorular aracılığıyla çıkarım yaparak kimya uzmanıyla aynı cevapları üretir, bu kimya uzman sistemi, kimya bilgi tabanı ve çıkarım sisteminin birleşimi olarak görülebilir.
Uzman sistemlerin ardından, 1990'larda İsrailli Amerikalı bilim insanı ve filozof Judea Pearl, Bayes ağlarını önerdi; bu ağlar inanç ağları olarak da bilinir. Aynı dönemde, Brooks, davranış temelli robotik geliştirdi ve bu davranışçılığın doğuşunu simgeliyor.
1997 yılında, bir teknoloji şirketinin satranç programı, satranç şampiyonu Kasparov'u 3.5:2.5 yenerek, bu zafer yapay zekanın bir dönüm noktası olarak kabul edildi ve AI teknolojisi ikinci gelişim zirvesine ulaştı.
Üçüncü AI teknolojisi dalgası 2006 yılında gerçekleşti. Derin öğrenmenin üç büyük ismi Yann LeCun, Geoffrey Hinton ve Yoshua Bengio, yapay sinir ağlarını mimari olarak kullanan ve verileri temsil öğrenimi yapan bir algoritma olan derin öğrenme kavramını ortaya koydular. Daha sonra derin öğrenme algoritmaları RNN, GAN'dan Transformer ve Stable Diffusion'a doğru evrim geçirdi; bu iki algoritma bu üçüncü teknolojik dalgayı şekillendirdi ve bu, bağlantıcılığın altın çağıydı.
Derin öğrenme teknolojisinin keşfi ve evrimi ile birlikte birçok ikonik olay da ortaya çıkmaya başladı, bunlar arasında:
2011 yılında, bir yapay zeka sistemi "Tehlikeli Sınır" adlı bilgi yarışmasında insanları yenerek şampiyon oldu.
2014 yılında, Goodfellow GAN( üreten karşıt ağları) önerdi. İki sinir ağının birbirleriyle rekabet ederek öğrenmesini sağlayarak, gerçek gibi görünen fotoğraflar üretebilmektedir. Aynı zamanda Goodfellow, derin öğrenme alanında önemli bir başlangıç kitabı olan "Derin Öğrenme" adlı bir kitap yazdı.
2015 yılında, Hinton ve diğerleri derin öğrenme algoritmalarını önerdi ve bu, akademik dünyada ve sanayide büyük bir yankı uyandırdı.
2015 yılında OpenAI kuruldu ve birçok tanınmış yatırımcıdan toplamda 1 milyar dolar yatırım aldı.
2016 yılında, derin öğrenme teknolojisi tabanlı AlphaGo, Go dünya şampiyonu ve profesyonel dokuzuncu dan oyuncusu Lee Sedol ile Go insan-makine savaşına girdi ve toplamda 4-1'lik bir skorla galip geldi.
2017 yılında, bir teknoloji şirketi tarafından geliştirilen insansı robot Sophia vatandaşlık kazandı, zengin yüz ifadelerine ve insan dilini anlama yeteneğine sahip.
2017 yılında, Google "Attention is all you need" başlıklı bir makale yayınladı ve Transformer algoritması ile büyük ölçekli dil modelleri ortaya çıkmaya başladı.
2018 yılında, OpenAI, Transformer algoritmasına dayanan GPT'yi piyasaya sürdü; bu, o dönemdeki en büyük dil modellerinden biriydi.
2018 yılında, DeepMind, derin öğrenmeye dayalı AlphaFold'u yayımladı; bu, protein yapısı tahminleri yapabilen bir sistemdir ve yapay zeka alanında büyük bir ilerleme olarak kabul edilmektedir.
2019'da OpenAI, 1.5 milyar parametreye sahip GPT-2 modelini yayınladı.
2020 yılında, OpenAI tarafından geliştirilen GPT-3, 175 milyar parametreye sahip olup, önceki versiyon GPT-2'den 100 kat daha fazladır. Bu model, 570 GB metin kullanarak eğitilmiş olup, birçok NLP görevinde en ileri düzeyde performans sergileyebilir.
2021 yılında, OpenAI GPT-4'ü yayınladı, bu model 1.76 trilyon parametreye sahip olup, GPT-3'ün 10 katıdır.
2023 Ocak ayında GPT-4 modeline dayalı ChatGPT uygulaması piyasaya sürüldü, Mart ayında bir milyar kullanıcıya ulaştı ve tarih boyunca bir milyar kullanıcıya en hızlı ulaşan uygulama oldu.
2024'te OpenAI, GPT-4 omni'yi piyasaya sürecek.
Derin Öğrenme Endüstri Zinciri
Günümüzde büyük model dilleri, sinir ağlarına dayalı derin öğrenme yöntemlerini kullanmaktadır. Başını GPT'nin çektiği büyük modeller, yapay zeka alanında bir dalga yarattı ve çok sayıda oyuncu bu alana akın etti. Pazarın veri ve hesaplama gücüne olan talebinin büyük ölçüde patladığını da görüyoruz. Bu nedenle, raporun bu bölümünde, derin öğrenme algoritmalarının endüstri zincirini ana hatlarıyla inceleyeceğiz. Derin öğrenme algoritmalarının hakim olduğu yapay zeka sektöründe, hammadde ve nihai ürünlerin nasıl oluştuğunu ve bu akışın mevcut durumu, arz-talep ilişkisi ve gelecekteki gelişmelerinin nasıl olacağını araştıracağız.
Öncelikle netleştirmemiz gereken, Transformer teknolojisine dayalı GPT öncülüğündeki LLM'lerin ( büyük modelinin ) eğitimi sırasında toplam üç adımın olduğu.
Eğitimden önce, Transformer tabanlı olduğu için, dönüştürücünün metin girişi sayılara dönüştürmesi gerekir; bu işleme "Tokenizasyon" denir. Daha sonra bu sayılara Token denir. Genel bir kural olarak, bir İngilizce kelime veya karakter kabaca bir Token olarak kabul edilebilirken, her bir Çince karakter kabaca iki Token olarak değerlendirilebilir. Bu, GPT fiyatlandırmasında kullanılan temel birimdir.
İlk adım, ön eğitim. Giriş katmanına yeterince veri çifti vererek, raporun ilk bölümünde örneği verilen (X,Y) gibi, bu model altındaki her bir nöronun en iyi parametrelerini aramak için, bu aşamada büyük miktarda veriye ihtiyaç vardır ve bu süreç aynı zamanda hesaplama gücünü en çok tüketen süreçtir, çünkü nöronları çeşitli parametreleri denemek için tekrar tekrar yinelemek gerekmektedir. Bir veri çifti grubu ile eğitim tamamlandıktan sonra, genellikle aynı veri grubunu parametreleri yinelemek için ikinci kez eğitimde kullanılır.
İkinci adım, ince ayar. İnce ayar, daha az ama çok kaliteli bir veri kümesi ile eğitim sağlamaktır; bu tür bir değişiklik, modelin çıktısının daha yüksek kalitede olmasını sağlayacaktır çünkü ön eğitim büyük miktarda veriye ihtiyaç duyar, ancak birçok veri hatalı veya düşük kaliteli olabilir. İnce ayar adımı, kaliteli verilerle modelin kalitesini artırabilir.
Üçüncü adım, pekiştirmeli öğrenme. Öncelikle tamamen yeni bir model oluşturulacak, buna "ödül modeli" diyoruz. Bu modelin amacı oldukça basit; çıktıları sıralamak. Bu nedenle bu modeli gerçekleştirmek oldukça kolaydır, çünkü iş senaryosu oldukça dikeydir. Daha sonra bu modeli, büyük modelimizin çıktısının yüksek kaliteli olup olmadığını belirlemek için kullanacağız. Böylece, büyük modelin parametrelerini otomatik olarak yinelemek için bir ödül modeli kullanabiliriz. ( Ancak bazen modelin çıktı kalitesini değerlendirmek için insan müdahalesi de gerekebilir )
Kısacası, büyük modelin eğitim sürecinde, ön eğitim verinin miktarı için çok yüksek taleplerde bulunur, gereken GPU hesaplama gücü de en fazladır, oysa ince ayar daha yüksek kaliteli verilere ihtiyaç duyarak parametreleri iyileştirir, pekiştirme öğrenimi bir ödül modeli aracılığıyla parametreleri tekrar tekrar döngüsel olarak güncelleyerek daha yüksek kaliteli sonuçlar üretir.
Eğitim sürecinde, parametre sayısı arttıkça genelleme yeteneğinin üst sınırı da artar. Örneğin, bir fonksiyon örneği olarak Y = aX + b alırsak, aslında iki nöron vardır: X ve X0. Bu nedenle, parametrelerin nasıl değiştiğine bağlı olarak, uyum sağlayabileceği veriler son derece sınırlıdır, çünkü özünde hala bir doğrudur. Eğer nöron sayısı artarsa, daha fazla parametre üzerinde yineleme yapılabilir ve daha fazla veriyi uyumlayabiliriz. Bu da büyük modellerin mucizeler yaratmasının nedenidir ve aynı zamanda halk arasında büyük model olarak adlandırılmasının da sebebidir. Özünde, büyük miktarda nöron ve parametre ile büyük miktarda veri gerektirir ve aynı zamanda büyük miktarda hesaplama gücü gerektirir.
Bu nedenle, büyük modelin performansını etkileyen temel üç unsur vardır: parametre sayısı, veri miktarı ve kalitesi, hesaplama gücü; bu üçü, büyük modelin sonuç kalitesini ve genelleme yeteneğini birlikte etkiler. Parametre sayısını p, veri miktarını n( ise Token sayısı ile hesaplayarak kabul edersek, gerekli hesaplama miktarını genel bir deneysel kural ile hesaplayabiliriz, böylece ne kadar hesaplama gücü satın almamız gerektiğini ve eğitim süresini tahmin edebiliriz.
Hesaplama gücü genellikle Flops cinsinden temel birim olarak ifade edilir ve bir floating-point işlemi temsil eder. Floating-point işlemleri, tam sayı olmayan sayısal toplama, çıkarma, çarpma ve bölme işlemlerinin genel adıdır, örneğin 2.5 + 3.557. Floating-point, ondalık nokta içerebilen sayıları temsil ederken, FP16 ondalık hassasiyetini desteklediğini gösterir; FP32 ise genellikle daha yaygın bir hassasiyettir. Pratikteki deneyim kurallarına göre, önceden eğitim ) Pre-traning ( bir kez ) genellikle büyük modelleri birden fazla kez eğitmek için yaklaşık 6np Flops gerektirir; 6, endüstri sabiti olarak adlandırılır. Çıkarım ( Inference, bir veri girişi yapmamız ve büyük modelin çıktısını beklememiz sürecidir ); iki parçaya ayrılır: n token girişi ve n token çıkışı. Bu durumda toplamda yaklaşık 2np Flops gereklidir.
Başlangıçta, eğitim için işlem gücü desteği sağlamak amacıyla CPU yongaları kullanılıyordu, ancak daha sonra yavaş yavaş GPU'lar, örneğin Nvidia'nın A100, H100 yongaları gibi, ile değiştirilmiştir. Çünkü CPU genel hesaplama için varken, GPU özel amaçlı olarak kullanılabilir.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
8 Likes
Reward
8
4
Repost
Share
Comment
0/400
TokenDustCollector
· 08-13 22:14
Bir başka enayilerin insanları enayi yerine koymak dalgası geldi sanırım.
View OriginalReply0
ThesisInvestor
· 08-13 22:09
AI'yi abartmayı bırak, düşüşten sonra herkes anlayacak.
View OriginalReply0
GasFeeBarbecue
· 08-13 22:08
Fiyatların yükselmesi, IQ'nun yükselmesinden daha iyi değil.
Yapay Zeka ve Kripto Varlıklar: Teknolojik İnovasyon Altında Yeni Gelişen Endüstri Zinciri Yapısı
AI x Kripto: Sıfırdan Zirveye
Giriş
Yapay zeka sektöründeki son gelişmeler bazıları tarafından dördüncü sanayi devrimi olarak görülmektedir. Büyük dil modellerinin ortaya çıkışı, her sektörde verimliliği önemli ölçüde artırdı; ABD'de iş verimliliğini yaklaşık %20 oranında artırdığı tahmin edilmektedir. Aynı zamanda, büyük modellerin genelleme yeteneği, yeni bir yazılım tasarım paradigması olarak kabul edilmektedir; geçmişteki kesin kod tasarımının aksine, günümüzde yazılımlar daha çok genelleştirilmiş büyük model çerçevelerinin entegre edilmesiyle, daha geniş modalite girdi ve çıktısını desteklemektedir. Derin öğrenme teknolojisi gerçekten de AI sektörüne yeni bir refah dönemi getirmiştir ve bu dalga kripto para sektörünü de etkilemiştir.
Bu raporda, AI endüstrisinin gelişim sürecini, teknoloji sınıflandırmalarını ve derin öğrenme teknolojisinin sektördeki etkisini ayrıntılı olarak inceleyeceğiz. Ardından, derin öğrenme alanında GPU, bulut bilişim, veri kaynakları, kenar cihazları gibi endüstri zincirinin yukarı ve aşağı akışındaki gelişim durumu ve trendlerini derinlemesine analiz edeceğiz. Son olarak, Crypto ile AI endüstrisi arasındaki ilişkiyi özünde tartışacak ve Crypto ile ilgili AI endüstrisi zincirinin yapısını gözden geçireceğiz.
AI sektörünün gelişim tarihi
Yapay zeka endüstrisi 1950'li yıllarda başlamıştır; yapay zekanın vizyonunu gerçekleştirmek için akademik ve endüstriyel alanlar, farklı dönemlerde ve farklı disiplin arka planlarında, yapay zekayı gerçekleştirmenin çeşitli yollarını geliştirmiştir.
Modern yapay zeka teknolojisi, "makine öğrenimi" terimini kullanmaktadır; bu, makinelerin veriler aracılığıyla görevlerde tekrar tekrar iterasyon yaparak sistem performansını geliştirmesi fikridir. Temel adımlar, verilerin algoritmaya gönderilmesi, bu verilerle modelin eğitilmesi, modelin test edilip dağıtılması ve modelin otomatik tahmin görevlerini yerine getirmek için kullanılmasıdır.
Şu anda makine öğreniminin üç ana akımı vardır: bağlantıcılık, sembolistlik ve davranışçılık; bunlar sırasıyla insanın sinir sistemi, düşünce ve davranışını taklit etmektedir.
Şu anda sinir ağlarının temsil ettiği bağlantıcılık, derin öğrenme olarak da bilinir, (, bu mimarinin bir giriş katmanı, bir çıkış katmanı ve birden fazla gizli katmanı olduğu için üstünlük sağlamaktadır. Katman sayısı ve yeterince fazla nöron ) parametre ( sayısı yeterince büyük olduğunda, karmaşık genel görevleri uyarlamak için yeterli fırsat vardır. Veri girişi ile nöronların parametreleri sürekli olarak ayarlanabilir ve birçok veri deneyimledikten sonra bu nöron en iyi duruma ulaşır ) parametre (, bu da "derinlik" kelimesinin kökenidir - yeterince fazla katman ve nöron.
Bir örnek vermek gerekirse, bu basitçe bir fonksiyon oluşturmak olarak anlaşılabilir. Bu fonksiyona X=2 girdiğimizde Y=3; X=3 girdiğimizde Y=5 oluyor. Eğer bu fonksiyonun tüm X değerleriyle başa çıkmasını istiyorsak, fonksiyonun derecesini ve parametrelerini sürekli eklememiz gerekir. Örneğin, bu koşulu sağlayan bir fonksiyon Y = 2X - 1 olabilir, ama eğer bir veri X=2, Y=11 ise, bu üç veri noktasına uygun yeni bir fonksiyon oluşturmak gerekir. GPU kullanarak sert bir şekilde denediğimizde Y = X² - 3X + 5'in daha uygun olduğunu buluyoruz. Ancak verilerle tamamen örtüşmesi gerekmiyor; sadece dengeyi koruması ve kabaca benzer bir çıktı vermesi yeterlidir. Burada X², X ve X₀ farklı nöronları temsil ederken, 1, -3 ve 5 onun parametreleridir.
Bu durumda, sinir ağına büyük miktarda veri girdiğimizde, yeni verilere uyum sağlamak için nöronları artırabilir ve parametreleri yineleyebiliriz. Böylece tüm verileri uyumlu hale getirebiliriz.
Sinir ağına dayalı derin öğrenme teknolojisi de birçok teknik iterasyon ve evrim geçirdi. İlk sinir ağları, ileri beslemeli sinir ağları, RNN, CNN, GAN gibi farklı aşamalardan geçerek, modern büyük modellerin kullandığı Transformer teknolojisine kadar evrildi. Transformer teknolojisi, sinir ağlarının bir evrim yönüdür ve tüm modları ) gibi ses, video, resim vb. verileri karşılık gelen sayılar ile temsil edecek şekilde kodlamak için bir dönüştürücü ekler. Ardından, bu veriler sinir ağına girilir, böylece sinir ağı her türlü veriyi modelleyebilir ve çok modlu hale getirilebilir.
Yapay zeka gelişimi üç teknik dalga geçirdi, birinci dalga 20. yüzyılın 60'lı yıllarıdır, bu dalga yapay zeka teknolojisinin ortaya çıkmasından on yıl sonradır, bu dalga sembolist teknolojinin gelişiminden kaynaklanmıştır, bu teknoloji genel doğal dil işleme ve insan-makine diyalog sorununu çözmüştür. Aynı dönemde, uzman sistemler doğmuştur, bu, Amerika Birleşik Devletleri'ndeki bir üniversitenin NASA'nın teşvikiyle tamamladığı DENRAL uzman sistemidir, bu sistem oldukça güçlü bir kimya bilgisine sahiptir, sorular aracılığıyla çıkarım yaparak kimya uzmanıyla aynı cevapları üretir, bu kimya uzman sistemi, kimya bilgi tabanı ve çıkarım sisteminin birleşimi olarak görülebilir.
Uzman sistemlerin ardından, 1990'larda İsrailli Amerikalı bilim insanı ve filozof Judea Pearl, Bayes ağlarını önerdi; bu ağlar inanç ağları olarak da bilinir. Aynı dönemde, Brooks, davranış temelli robotik geliştirdi ve bu davranışçılığın doğuşunu simgeliyor.
1997 yılında, bir teknoloji şirketinin satranç programı, satranç şampiyonu Kasparov'u 3.5:2.5 yenerek, bu zafer yapay zekanın bir dönüm noktası olarak kabul edildi ve AI teknolojisi ikinci gelişim zirvesine ulaştı.
Üçüncü AI teknolojisi dalgası 2006 yılında gerçekleşti. Derin öğrenmenin üç büyük ismi Yann LeCun, Geoffrey Hinton ve Yoshua Bengio, yapay sinir ağlarını mimari olarak kullanan ve verileri temsil öğrenimi yapan bir algoritma olan derin öğrenme kavramını ortaya koydular. Daha sonra derin öğrenme algoritmaları RNN, GAN'dan Transformer ve Stable Diffusion'a doğru evrim geçirdi; bu iki algoritma bu üçüncü teknolojik dalgayı şekillendirdi ve bu, bağlantıcılığın altın çağıydı.
Derin öğrenme teknolojisinin keşfi ve evrimi ile birlikte birçok ikonik olay da ortaya çıkmaya başladı, bunlar arasında:
2011 yılında, bir yapay zeka sistemi "Tehlikeli Sınır" adlı bilgi yarışmasında insanları yenerek şampiyon oldu.
2014 yılında, Goodfellow GAN( üreten karşıt ağları) önerdi. İki sinir ağının birbirleriyle rekabet ederek öğrenmesini sağlayarak, gerçek gibi görünen fotoğraflar üretebilmektedir. Aynı zamanda Goodfellow, derin öğrenme alanında önemli bir başlangıç kitabı olan "Derin Öğrenme" adlı bir kitap yazdı.
2015 yılında, Hinton ve diğerleri derin öğrenme algoritmalarını önerdi ve bu, akademik dünyada ve sanayide büyük bir yankı uyandırdı.
2015 yılında OpenAI kuruldu ve birçok tanınmış yatırımcıdan toplamda 1 milyar dolar yatırım aldı.
2016 yılında, derin öğrenme teknolojisi tabanlı AlphaGo, Go dünya şampiyonu ve profesyonel dokuzuncu dan oyuncusu Lee Sedol ile Go insan-makine savaşına girdi ve toplamda 4-1'lik bir skorla galip geldi.
2017 yılında, bir teknoloji şirketi tarafından geliştirilen insansı robot Sophia vatandaşlık kazandı, zengin yüz ifadelerine ve insan dilini anlama yeteneğine sahip.
2017 yılında, Google "Attention is all you need" başlıklı bir makale yayınladı ve Transformer algoritması ile büyük ölçekli dil modelleri ortaya çıkmaya başladı.
2018 yılında, OpenAI, Transformer algoritmasına dayanan GPT'yi piyasaya sürdü; bu, o dönemdeki en büyük dil modellerinden biriydi.
2018 yılında, DeepMind, derin öğrenmeye dayalı AlphaFold'u yayımladı; bu, protein yapısı tahminleri yapabilen bir sistemdir ve yapay zeka alanında büyük bir ilerleme olarak kabul edilmektedir.
2019'da OpenAI, 1.5 milyar parametreye sahip GPT-2 modelini yayınladı.
2020 yılında, OpenAI tarafından geliştirilen GPT-3, 175 milyar parametreye sahip olup, önceki versiyon GPT-2'den 100 kat daha fazladır. Bu model, 570 GB metin kullanarak eğitilmiş olup, birçok NLP görevinde en ileri düzeyde performans sergileyebilir.
2021 yılında, OpenAI GPT-4'ü yayınladı, bu model 1.76 trilyon parametreye sahip olup, GPT-3'ün 10 katıdır.
2023 Ocak ayında GPT-4 modeline dayalı ChatGPT uygulaması piyasaya sürüldü, Mart ayında bir milyar kullanıcıya ulaştı ve tarih boyunca bir milyar kullanıcıya en hızlı ulaşan uygulama oldu.
2024'te OpenAI, GPT-4 omni'yi piyasaya sürecek.
Derin Öğrenme Endüstri Zinciri
Günümüzde büyük model dilleri, sinir ağlarına dayalı derin öğrenme yöntemlerini kullanmaktadır. Başını GPT'nin çektiği büyük modeller, yapay zeka alanında bir dalga yarattı ve çok sayıda oyuncu bu alana akın etti. Pazarın veri ve hesaplama gücüne olan talebinin büyük ölçüde patladığını da görüyoruz. Bu nedenle, raporun bu bölümünde, derin öğrenme algoritmalarının endüstri zincirini ana hatlarıyla inceleyeceğiz. Derin öğrenme algoritmalarının hakim olduğu yapay zeka sektöründe, hammadde ve nihai ürünlerin nasıl oluştuğunu ve bu akışın mevcut durumu, arz-talep ilişkisi ve gelecekteki gelişmelerinin nasıl olacağını araştıracağız.
Öncelikle netleştirmemiz gereken, Transformer teknolojisine dayalı GPT öncülüğündeki LLM'lerin ( büyük modelinin ) eğitimi sırasında toplam üç adımın olduğu.
Eğitimden önce, Transformer tabanlı olduğu için, dönüştürücünün metin girişi sayılara dönüştürmesi gerekir; bu işleme "Tokenizasyon" denir. Daha sonra bu sayılara Token denir. Genel bir kural olarak, bir İngilizce kelime veya karakter kabaca bir Token olarak kabul edilebilirken, her bir Çince karakter kabaca iki Token olarak değerlendirilebilir. Bu, GPT fiyatlandırmasında kullanılan temel birimdir.
İlk adım, ön eğitim. Giriş katmanına yeterince veri çifti vererek, raporun ilk bölümünde örneği verilen (X,Y) gibi, bu model altındaki her bir nöronun en iyi parametrelerini aramak için, bu aşamada büyük miktarda veriye ihtiyaç vardır ve bu süreç aynı zamanda hesaplama gücünü en çok tüketen süreçtir, çünkü nöronları çeşitli parametreleri denemek için tekrar tekrar yinelemek gerekmektedir. Bir veri çifti grubu ile eğitim tamamlandıktan sonra, genellikle aynı veri grubunu parametreleri yinelemek için ikinci kez eğitimde kullanılır.
İkinci adım, ince ayar. İnce ayar, daha az ama çok kaliteli bir veri kümesi ile eğitim sağlamaktır; bu tür bir değişiklik, modelin çıktısının daha yüksek kalitede olmasını sağlayacaktır çünkü ön eğitim büyük miktarda veriye ihtiyaç duyar, ancak birçok veri hatalı veya düşük kaliteli olabilir. İnce ayar adımı, kaliteli verilerle modelin kalitesini artırabilir.
Üçüncü adım, pekiştirmeli öğrenme. Öncelikle tamamen yeni bir model oluşturulacak, buna "ödül modeli" diyoruz. Bu modelin amacı oldukça basit; çıktıları sıralamak. Bu nedenle bu modeli gerçekleştirmek oldukça kolaydır, çünkü iş senaryosu oldukça dikeydir. Daha sonra bu modeli, büyük modelimizin çıktısının yüksek kaliteli olup olmadığını belirlemek için kullanacağız. Böylece, büyük modelin parametrelerini otomatik olarak yinelemek için bir ödül modeli kullanabiliriz. ( Ancak bazen modelin çıktı kalitesini değerlendirmek için insan müdahalesi de gerekebilir )
Kısacası, büyük modelin eğitim sürecinde, ön eğitim verinin miktarı için çok yüksek taleplerde bulunur, gereken GPU hesaplama gücü de en fazladır, oysa ince ayar daha yüksek kaliteli verilere ihtiyaç duyarak parametreleri iyileştirir, pekiştirme öğrenimi bir ödül modeli aracılığıyla parametreleri tekrar tekrar döngüsel olarak güncelleyerek daha yüksek kaliteli sonuçlar üretir.
Eğitim sürecinde, parametre sayısı arttıkça genelleme yeteneğinin üst sınırı da artar. Örneğin, bir fonksiyon örneği olarak Y = aX + b alırsak, aslında iki nöron vardır: X ve X0. Bu nedenle, parametrelerin nasıl değiştiğine bağlı olarak, uyum sağlayabileceği veriler son derece sınırlıdır, çünkü özünde hala bir doğrudur. Eğer nöron sayısı artarsa, daha fazla parametre üzerinde yineleme yapılabilir ve daha fazla veriyi uyumlayabiliriz. Bu da büyük modellerin mucizeler yaratmasının nedenidir ve aynı zamanda halk arasında büyük model olarak adlandırılmasının da sebebidir. Özünde, büyük miktarda nöron ve parametre ile büyük miktarda veri gerektirir ve aynı zamanda büyük miktarda hesaplama gücü gerektirir.
Bu nedenle, büyük modelin performansını etkileyen temel üç unsur vardır: parametre sayısı, veri miktarı ve kalitesi, hesaplama gücü; bu üçü, büyük modelin sonuç kalitesini ve genelleme yeteneğini birlikte etkiler. Parametre sayısını p, veri miktarını n( ise Token sayısı ile hesaplayarak kabul edersek, gerekli hesaplama miktarını genel bir deneysel kural ile hesaplayabiliriz, böylece ne kadar hesaplama gücü satın almamız gerektiğini ve eğitim süresini tahmin edebiliriz.
Hesaplama gücü genellikle Flops cinsinden temel birim olarak ifade edilir ve bir floating-point işlemi temsil eder. Floating-point işlemleri, tam sayı olmayan sayısal toplama, çıkarma, çarpma ve bölme işlemlerinin genel adıdır, örneğin 2.5 + 3.557. Floating-point, ondalık nokta içerebilen sayıları temsil ederken, FP16 ondalık hassasiyetini desteklediğini gösterir; FP32 ise genellikle daha yaygın bir hassasiyettir. Pratikteki deneyim kurallarına göre, önceden eğitim ) Pre-traning ( bir kez ) genellikle büyük modelleri birden fazla kez eğitmek için yaklaşık 6np Flops gerektirir; 6, endüstri sabiti olarak adlandırılır. Çıkarım ( Inference, bir veri girişi yapmamız ve büyük modelin çıktısını beklememiz sürecidir ); iki parçaya ayrılır: n token girişi ve n token çıkışı. Bu durumda toplamda yaklaşık 2np Flops gereklidir.
Başlangıçta, eğitim için işlem gücü desteği sağlamak amacıyla CPU yongaları kullanılıyordu, ancak daha sonra yavaş yavaş GPU'lar, örneğin Nvidia'nın A100, H100 yongaları gibi, ile değiştirilmiştir. Çünkü CPU genel hesaplama için varken, GPU özel amaçlı olarak kullanılabilir.