Şu anda AI + Crypto kombinasyonu için iki ana yön vardır: **dağıtılmış bilgi işlem gücü ve ZKML. **Bu makale, merkezi olmayan dağıtılmış bilgi işlem güç ağını analiz edecek ve yansıtacaktır.
Yapay zeka büyük ölçekli modellerin gelişme eğilimi altında, bilgi işlem güç kaynakları önümüzdeki on yılda büyük bir savaş alanı olacak ve aynı zamanda gelecekte insan toplumu için en önemli şey olacak ve yalnızca ticari olarak kalmayacak. rekabet, ama aynı zamanda **büyük bir ülke olacak Oyunun stratejik kaynakları. **Gelecekte, yüksek performanslı bilgi işlem altyapısına ve bilgi işlem gücü rezervlerine yapılan yatırım katlanarak artacaktır.
**Merkezi olmayan dağıtılmış bilgi işlem güç ağı, AI büyük model eğitimi için en büyük talebe sahiptir, ancak aynı zamanda en büyük zorluklarla ve teknik darboğazlarla karşı karşıyadır. ** Karmaşık veri senkronizasyonu ihtiyacı ve ağ optimizasyonu sorunları dahil. Ayrıca, veri gizliliği ve güvenliği de önemli kısıtlamalardır. Bazı mevcut teknikler ön çözümler sunabilse de, büyük hesaplama ve iletişim ek yükü nedeniyle büyük ölçekli dağıtılmış eğitim görevlerinde uygulanamazlar.
**Merkezi olmayan dağıtılmış bilgi işlem güç ağı, model muhakemesinde daha yüksek bir şansa sahiptir ve gelecekteki artımlı alanın da yeterince büyük olduğunu tahmin edebilir. ** Ancak iletişim gecikmesi, veri gizliliği ve model güvenliği gibi zorluklarla da karşı karşıyadır. Model eğitimi ile karşılaştırıldığında, çıkarım daha düşük hesaplama karmaşıklığına ve veri etkileşimine sahiptir ve dağıtılmış ortamlar için daha uygundur.
Yeni kurulan iki şirketin, Together ve Gensyn.ai vakaları aracılığıyla, teknoloji optimizasyonu ve teşvik katmanı tasarımı perspektiflerinden, merkezi olmayan dağıtılmış bilgi işlem güç ağının genel araştırma yönü ve belirli fikirleri gösterilmektedir.
1. Dağıtılmış Bilgi İşlem Gücü—Büyük Model Eğitimi
Eğitimde dağıtılmış bilgi işlem gücünün uygulanmasını tartışıyoruz ve genellikle büyük dil modellerinin eğitimine odaklanıyoruz. Bunun ana nedeni, küçük modellerin eğitiminin fazla bilgi işlem gücü gerektirmemesidir. Dağıtılmış veri gizliliği ve bir sürü şey yapmak için proje sayısı Sorun uygun maliyetli değil, doğrudan ve merkezi olarak çözmek daha iyidir. Büyük dil modelinin bilgi işlem gücü için büyük bir talebi var ve şu anda salgının ilk aşamasında. 2012'den 2018'e kadar, yapay zekanın bilgi işlem talebi yaklaşık olarak her 4 ayda bir ikiye katlanacak. hala büyük bir artımlı talep olacaktır.
Büyük fırsatlar varken, sorunların da net bir şekilde görülmesi gerekiyor. Herkes sahnenin çok büyük olduğunu biliyor, ancak belirli zorluklar nerede? Oyuna körü körüne girmek yerine bu sorunları kimin hedef alabileceği, bu parkurun mükemmel projelerini değerlendirmenin özüdür.
(NVIDIA NeMo Megatron Çerçevesi)
1. Genel eğitim süreci
Örnek olarak 175 milyar parametreli büyük bir model eğitimi alın. Modelin devasa boyutundan dolayı birçok GPU cihazında paralel olarak eğitilmesi gerekiyor. 100 GPU'lu merkezi bir bilgisayar odası olduğunu ve her cihazın 32 GB belleğe sahip olduğunu varsayalım.
Veri hazırlama: Öncelikle internet bilgileri, haberler, kitaplar vb. çeşitli verileri içeren çok büyük bir veri seti gereklidir. Bu verilerin eğitimden önce metin temizleme, tokenleştirme, sözcük dağarcığı oluşturma vb. dahil olmak üzere önceden işlenmesi gerekir.
**Veri segmentasyonu: **İşlenen veriler, birden çok GPU'da paralel işleme için birden çok gruba bölünecektir. Seçilen parti boyutunun 512 olduğunu, yani her partinin 512 metin dizisi içerdiğini varsayalım. Ardından, tüm veri kümesini gruplara ayırarak bir parti sırası oluştururuz.
Cihazlar arasında veri aktarımı: Her eğitim adımının başında, CPU toplu iş kuyruğundan bir parti alır ve ardından bu partinin verilerini PCIe veri yolu aracılığıyla GPU'ya gönderir. Her metin dizisinin ortalama uzunluğunun 1024 belirteç olduğunu varsayarsak, her toplu işin veri boyutu yaklaşık 512 * 1024 * 4B = 2MB'dir (her belirteci 4 baytlık tek duyarlıklı kayan noktalı bir sayı ile temsil edildiği varsayılarak). Bu veri aktarım işlemi genellikle yalnızca birkaç milisaniye sürer.
**Paralel eğitim: ** Her GPU cihazı verileri aldıktan sonra ileri geçiş ve geri geçiş hesaplamalarını yapmaya başlar ve her parametrenin gradyanını hesaplar. Modelin büyük ölçeği nedeniyle, tek bir GPU'nun belleği tüm parametreleri depolayamaz, bu nedenle model parametrelerini birden çok GPU'ya dağıtmak için model paralel teknolojisini kullanırız.
** Degrade Toplama ve Parametre Güncellemesi: ** Geri yayılım hesaplaması tamamlandıktan sonra, her bir GPU, parametrelerin bir kısmının gradyanını alır. Bu gradyanların daha sonra genel gradyanı hesaplamak için tüm GPU cihazlarında toplanması gerekir. Bu, ağ üzerinden veri iletimini gerektirir.25Gbps'lik bir ağ kullanıldığını varsayarsak, 700GB verinin iletilmesi yaklaşık 224 saniye sürer (her parametrenin tek duyarlıklı kayan noktalı sayılar kullandığını varsayarsak, o zaman 175 milyar parametre yaklaşık 700GB'dir). Daha sonra her GPU, saklanan parametrelerini genel gradyana göre günceller.
**Senkronizasyon: **Parametreler güncellendikten sonra, eğitimin bir sonraki adımı için hepsinin tutarlı model parametreleri kullanmasını sağlamak için tüm GPU cihazlarının senkronize edilmesi gerekir. Bu da ağ üzerinden veri aktarımını gerektirir.
Eğitim adımlarını tekrarlayın: Tüm grupların eğitimi tamamlanana veya önceden belirlenmiş eğitim turu sayısına (dönem) ulaşılana kadar yukarıdaki adımları tekrarlayın.
Bu süreç, eğitim verimliliği için bir darboğaz haline gelebilecek büyük miktarda veri aktarımı ve senkronizasyonu içerir. Bu nedenle, ağ bant genişliğini ve gecikmeyi optimize etmek ve verimli paralel ve senkronizasyon stratejileri kullanmak, büyük ölçekli model eğitimi için çok önemlidir.
2. İletişim yükünün darboğazı:
İletişim darboğazının, mevcut dağıtılmış bilgi işlem güç ağının büyük dil modeli eğitimi yapamamasının da nedeni olduğuna dikkat edilmelidir.
Her düğümün birlikte çalışmak için sık sık bilgi alışverişi yapması gerekir, bu da iletişim yükünü oluşturur. Büyük dil modelleri için, modelin çok sayıda parametresi nedeniyle bu sorun özellikle ciddidir. İletişim ek yükü şu yönlere ayrılır:
**Veri iletimi: **Eğitim sırasında, düğümlerin sık sık model parametrelerini ve gradyan bilgilerini değiş tokuş etmesi gerekir. Bu, büyük miktarda ağ bant genişliği tüketen ağda büyük miktarda verinin iletilmesini gerektirir. Ağ koşulları zayıfsa veya bilgi işlem düğümleri arasındaki mesafe büyükse, veri iletiminin gecikmesi yüksek olacak ve iletişim yükünü daha da artıracaktır.
**Senkronizasyon sorunu: **Eğitimin doğru ilerlemesini sağlamak için eğitim sırasında düğümlerin birlikte çalışması gerekir. Bu, model parametrelerinin güncellenmesi, genel gradyanların hesaplanması vb. gibi düğümler arasında sık sık senkronizasyon işlemleri gerektirir. Bu eşzamanlı işlemlerin ağda büyük miktarda veri iletmesi ve tüm düğümlerin işlemi tamamlamasını beklemesi gerekir, bu da çok fazla iletişim yüküne ve bekleme süresine neden olur.
**Degrade toplama ve güncelleme: ** Eğitim sürecinde, her düğümün kendi gradyanını hesaplaması ve bunu toplama ve güncelleme için diğer düğümlere göndermesi gerekir. Bu, ağda büyük miktarda gradyan verisinin iletilmesini ve tüm düğümlerin gradyanların hesaplanmasını ve iletimini tamamlamasını bekleme ihtiyacını gerektirir, bu da büyük miktarda iletişim yükünün nedenidir.
**Veri tutarlılığı: **Her düğümün model parametrelerinin tutarlı olmasını sağlamak gerekir. Bu, düğümler arasında sık sık veri sağlama toplamı ve senkronizasyon işlemleri gerektirir, bu da büyük miktarda iletişim ek yüküne neden olur.
Parametrelerin ve gradyanların sıkıştırılması, verimli paralel stratejiler vb. gibi iletişim yükünü azaltmak için bazı yöntemler olsa da, bu yöntemler ek hesaplama yükü getirebilir veya modelin eğitim etkisini olumsuz etkileyebilir. Ayrıca, bu yöntemler, özellikle zayıf ağ koşulları veya bilgi işlem düğümleri arasındaki büyük mesafeler söz konusu olduğunda, iletişim yükü sorununu tamamen çözemez.
Örnek olarak:
Merkezi olmayan dağıtılmış bilgi işlem güç ağı
GPT-3 modeli 175 milyar parametreye sahiptir ve bu parametreleri tek duyarlıklı kayan nokta sayıları (parametre başına 4 bayt) kullanarak temsil edersek, bu parametreleri depolamak ~700 GB bellek gerektirir. Dağıtılmış eğitimde, bu parametrelerin bilgi işlem düğümleri arasında sıklıkla iletilmesi ve güncellenmesi gerekir.
100 bilgi işlem düğümü olduğunu varsayarsak, her düğümün her adımda tüm parametreleri güncellemesi ve ardından her adımın yaklaşık 70TB (700GB*100) veri aktarması gerekir. Bir adımın 1 saniye sürdüğünü varsayarsak (çok iyimser bir varsayım), o zaman saniyede 70 TB verinin aktarılması gerekir. Bu bant genişliği talebi, halihazırda çoğu ağınkinden çok daha fazladır ve aynı zamanda bir fizibilite meselesidir.
Gerçekte, iletişim gecikmeleri ve ağ tıkanıklığı nedeniyle veri aktarım süresi 1 saniyeden çok daha uzun olabilir. Bu, bilgi işlem düğümlerinin gerçek hesaplamalar yapmak yerine veri iletimini beklemek için çok zaman harcaması gerekebileceği anlamına gelir. Bu, eğitimin verimliliğini büyük ölçüde azaltacaktır ve verimlilikteki bu azalma, bekleyerek çözülemez, ancak uygulanabilir ve uygulanamaz arasındaki fark, tüm eğitim sürecini uygulanamaz hale getirecektir.
Merkezi bilgisayar odası
**Merkezi bir bilgisayar odası ortamında bile, büyük modellerin eğitimi hala yoğun iletişim optimizasyonu gerektirir. **
Merkezi bir bilgisayar odası ortamında, yüksek performanslı bilgi işlem cihazları, bilgi işlem görevlerini paylaşmak için yüksek hızlı bir ağ aracılığıyla bağlanan bir küme olarak kullanılır. Bununla birlikte, böylesine yüksek hızlı bir ağ ortamında çok sayıda parametreye sahip bir modeli eğitirken bile, modelin parametrelerinin ve gradyanlarının çeşitli bilgi işlem cihazları arasında sık sık iletilmesi ve güncellenmesi gerektiğinden, iletişim ek yükü hala bir darboğazdır. .
Başta belirtildiği gibi, 100 bilgi işlem düğümü olduğunu ve her sunucunun 25Gbps ağ bant genişliğine sahip olduğunu varsayalım. Her sunucunun her eğitim adımında tüm parametreleri güncellemesi gerekiyorsa, her eğitim adımının yaklaşık 700 GB veri aktarması gerekir ve bu ~224 saniye sürer. Geliştiriciler, merkezi bilgisayar odasından yararlanarak veri merkezi içindeki ağ topolojisini optimize edebilir ve bu süreyi önemli ölçüde azaltmak için model paralelliği gibi teknolojileri kullanabilir.
Buna karşılık, aynı eğitim dağıtılmış bir ortamda gerçekleştirilirse, hala tüm dünyaya dağılmış 100 bilgi işlem düğümü olduğu varsayılırsa, her düğümün ortalama ağ bant genişliği yalnızca 1 Gbps'dir. Bu durumda, merkezi bilgisayar odasındakinden çok daha uzun olan aynı 700 GB veriyi aktarmak ~5600 saniye sürer. Ayrıca, ağ gecikmeleri ve tıkanıklık nedeniyle gereken gerçek süre daha uzun olabilir.
Bununla birlikte, dağıtılmış bilgi işlem güç ağındaki durumla karşılaştırıldığında, merkezi bir bilgisayar odası ortamında iletişim ek yükünü optimize etmek nispeten kolaydır. Çünkü merkezi bir bilgisayar odası ortamında bilgi işlem cihazları genellikle aynı yüksek hızlı ağa bağlıdır ve ağın bant genişliği ve gecikmesi nispeten iyidir. Dağıtılmış bir bilgi işlem güç ağında, bilgi işlem düğümleri tüm dünyaya dağılmış olabilir ve ağ koşulları nispeten zayıf olabilir, bu da iletişim yükünü daha ciddi hale getirir.
GPT-3'ü eğitme sürecinde OpenAI, iletişim yükü sorununu çözmek için Megatron adlı bir model paralel çerçeve kullanır. Megatron, modelin parametrelerini böler ve birden fazla GPU arasında paralel olarak işler ve her cihaz, parametrelerin yalnızca bir kısmını depolamaktan ve güncellemekten sorumludur, böylece her cihazın işlemesi gereken parametre miktarını azaltır ve iletişim yükünü azaltır. Aynı zamanda, eğitim sırasında yüksek hızlı ara bağlantı ağı da kullanılır ve ağ topolojisi optimize edilerek iletişim yolunun uzunluğu azaltılır.
3. Dağıtılmış bilgi işlem güç ağı neden bu optimizasyonları yapamıyor?
Yapılabilir, ancak merkezi bilgisayar odasıyla karşılaştırıldığında bu optimizasyonların etkisi çok sınırlıdır.
Ağ topolojisi optimizasyonu: Merkezi bilgisayar odasında, ağ donanımı ve düzeni doğrudan kontrol edilebilir, böylece ağ topolojisi ihtiyaca göre tasarlanabilir ve optimize edilebilir. Bununla birlikte, dağıtılmış bir ortamda, bilgi işlem düğümleri, biri Çin'de ve biri Amerika Birleşik Devletleri'nde bile olmak üzere farklı coğrafi konumlara dağılmıştır ve aralarındaki ağ bağlantısını doğrudan kontrol etmenin bir yolu yoktur. Veri iletim yolunu optimize etmek için yazılım kullanılabilse de, doğrudan donanım ağını optimize etmek kadar etkili değildir. Aynı zamanda, coğrafi konumlardaki farklılıklar nedeniyle ağ gecikmeleri ve bant genişlikleri de büyük ölçüde değişir ve bu da ağ topolojisi optimizasyonunun etkisini daha da sınırlar.
**Model paralelliği:**Model paralelliği, modelin parametrelerini birden fazla bilgi işlem düğümüne bölen ve paralel işleme yoluyla eğitim hızını artıran bir teknolojidir. Bununla birlikte, bu yöntemin genellikle düğümler arasında sık sık veri iletmesi gerekir, bu nedenle ağ bant genişliği ve gecikme süresi konusunda yüksek gereksinimleri vardır. Merkezi bir bilgisayar odasında, yüksek ağ bant genişliği ve düşük gecikme nedeniyle, model paralelliği çok etkili olabilir. Bununla birlikte, dağıtılmış bir ortamda, zayıf ağ koşulları nedeniyle model paralelliği büyük ölçüde sınırlıdır.
4. Veri güvenliği ve gizlilik sorunları
Veri işleme ve iletimi içeren hemen hemen tüm bağlantılar, veri güvenliğini ve gizliliğini etkileyebilir:
**Veri dağıtımı: **Eğitim verilerinin hesaplamaya katılan her bir düğüme dağıtılması gerekir. Bu bağlantıdaki veriler, dağıtılmış düğümlerde kötü amaçlarla kullanılabilir/sızdırılabilir.
**Model eğitimi: **Eğitim sürecinde, her bir düğüm hesaplama için atanan verilerini kullanacak ve ardından model parametrelerinin güncellemesini veya gradyanını çıkaracaktır. Bu işlem sırasında düğümün hesaplama işlemi çalınırsa veya sonuç kötü niyetli bir şekilde analiz edilirse veriler de sızdırılabilir.
Parametre ve Gradyan Toplama: Küresel modeli güncellemek için tek tek düğümlerin çıktılarının toplanması gerekir ve toplama işlemi sırasındaki iletişim, eğitim verileri hakkında bilgi sızdırabilir.
Veri gizliliği endişeleri için hangi çözümler var?
**Güvenli Çok Taraflı Hesaplama:**SMC, bazı özel, küçük ölçekli bilgi işlem görevlerinde başarıyla uygulanmıştır. Ancak, büyük hesaplama ve iletişim ek yükü nedeniyle büyük ölçekli dağıtılmış eğitim görevlerinde henüz yaygın olarak kullanılmamıştır.
**Farklı gizlilik: ** Chrome kullanıcı istatistikleri vb. gibi belirli veri toplama ve analiz görevlerinde uygulanır. Ancak büyük ölçekli derin öğrenme görevlerinde, DP'nin modelin doğruluğu üzerinde etkisi olacaktır. Aynı zamanda, uygun bir gürültü oluşturma ve ekleme mekanizması tasarlamak da bir zorluktur.
**Federal öğrenme: **Android klavyeler için kelime tahmini gibi bazı uç cihaz modeli eğitim görevlerinde uygulanır. Ancak, daha büyük ölçekli dağıtılmış eğitim görevlerinde FL, yüksek iletişim yükü ve karmaşık koordinasyon gibi sorunlarla karşılaşır.
Homomorfik şifreleme: daha az hesaplama karmaşıklığına sahip bazı görevlerde başarıyla uygulanmıştır. Ancak, büyük ölçekli dağıtılmış eğitim görevlerinde, yüksek hesaplama yükü nedeniyle henüz yaygın olarak kullanılmamıştır.
Özet
Yukarıdaki yöntemlerin her birinin uygulanabilir senaryoları ve sınırlamaları vardır ve yöntemlerin hiçbiri, dağıtılmış bilgi işlem güç ağının büyük model eğitimindeki veri gizliliği sorununu tamamen çözemez.
Büyük umutlar besleyen ZK, büyük model eğitimindeki veri gizliliği sorununu çözebilecek mi?
**Teorik olarak ZKP, dağıtılmış bilgi işlemde veri gizliliğini sağlamak için kullanılabilir ve bir düğümün düzenlemelere göre hesaplamalar yaptığını kanıtlamasına olanak tanır, ancak gerçek girdi ve çıktı verilerini ifşa etmesi gerekmez. **
Ancak aslında, büyük modelleri eğiten büyük ölçekli dağıtılmış bilgi işlem güç ağı için ZKP'nin kullanılması senaryosunda aşağıdaki darboğazlarla karşılaşılır:
** Bilgi işlem ve iletişim ek yükü: ** Sıfır bilgi kanıtlarını oluşturmak ve doğrulamak, çok fazla bilgi işlem kaynağı gerektirir. Ek olarak, kanıtın kendisini iletme ihtiyacı nedeniyle ZKP'nin iletişim yükü de yüksektir. Bu genel giderler, büyük model eğitimi durumunda özellikle önemli hale gelebilir. Örneğin, her mini partinin hesaplanması bir kanıtın oluşturulmasını gerektiriyorsa, bu, toplam eğitim süresini ve maliyetini önemli ölçüde artırabilir.
**ZK protokolünün karmaşıklığı: **Büyük model eğitimine uygun bir ZKP protokolünün tasarlanması ve uygulanması çok karmaşık olacaktır. Bu protokolün büyük ölçekli verileri ve karmaşık hesaplamaları işleyebilmesi ve olası anormal hataları işleyebilmesi gerekir.
**Donanım ve yazılım uyumluluğu: **ZKP'yi kullanmak, tüm dağıtılmış bilgi işlem cihazlarında bulunmayabilecek özel donanım ve yazılım desteği gerektirir.
Özet
ZKP'yi büyük ölçekli dağıtılmış bilgi işlem güç ağı eğitiminde büyük modeller için kullanmak, birkaç yıllık araştırma ve geliştirme gerektirecek ve ayrıca bu yönde akademik topluluktan daha fazla enerji ve kaynak gerektirecektir.
2. Dağıtılmış Bilgi İşlem Gücü—Model Akıl Yürütme
Dağıtılmış bilgi işlem gücünün diğer bir nispeten büyük senaryosu, model muhakemesidir. Büyük modellerin gelişim yolu hakkındaki yargımıza göre, büyük modeller yüksek bir noktayı geçtikten sonra olgunlaştıkça model eğitimine olan talep kademeli olarak yavaşlayacaktır. Buna bağlı olarak muhakeme gereksinimleri de katlanarak artacaktır. büyük modellerin ve AIGC'nin olgunluğuyla.
Eğitim görevleriyle karşılaştırıldığında, çıkarım görevleri genellikle daha düşük hesaplama karmaşıklığına ve daha zayıf veri etkileşimine sahiptir ve dağıtılmış ortamlar için daha uygundur.
(NVIDIA Triton ile Power LLM çıkarımı)
1. Zorluk
İletişim Gecikmesi:
Dağıtılmış bir ortamda, düğümler arasındaki iletişim esastır. Dağıtılmış bir bilgi işlem güç ağında, düğümler tüm dünyaya yayılmış olabilir, bu nedenle ağ gecikmesi, özellikle gerçek zamanlı yanıt gerektiren akıl yürütme görevleri için bir sorun olabilir.
Model Dağıtımı ve Güncelleme:
Modelin her düğüme dağıtılması gerekir. Model güncellenirse, her düğümün modelini güncellemesi gerekir, bu da çok fazla ağ bant genişliği ve zamanı tüketir.
Veri gizliliği:
Çıkarım görevleri genellikle yalnızca girdi verileri ve modelleri gerektirmesine ve büyük miktarda ara veri ve parametre döndürmesi gerekmemesine rağmen, girdi verileri yine de kullanıcıların kişisel bilgileri gibi hassas bilgiler içerebilir.
Model Güvenliği:
Merkezi olmayan bir ağda, modelin güvenilmeyen düğümlere dağıtılması gerekir, bu da modelin sızmasına ve model mülkiyet hakları ve kötüye kullanılması sorununa yol açar. Bu aynı zamanda güvenlik ve mahremiyet endişelerini de artırabilir, hassas verileri işlemek için bir model kullanılıyorsa, düğümler modelin davranışını analiz ederek hassas bilgileri anlayabilir.
KK:
Dağıtılmış bir bilgi işlem güç ağındaki her düğüm, çıkarım görevlerinin performansını ve kalitesini garanti etmeyi zorlaştırabilecek farklı bilgi işlem yeteneklerine ve kaynaklarına sahip olabilir.
2. Fizibilite
Hesaplama karmaşıklığı:
Eğitim aşamasında, modelin tekrar tekrar yinelenmesi gerekir.Eğitim sürecinde, aktivasyon fonksiyonunun hesaplanması, kayıp fonksiyonunun hesaplanması, ağırlığın gradyanı ve güncellenmesi. Bu nedenle, model eğitiminin hesaplama karmaşıklığı yüksektir.
Çıkarım aşamasında, tahmini hesaplamak için yalnızca bir ileri geçiş gereklidir. Örneğin, GPT-3'te, giriş metnini bir vektöre dönüştürmek ve ardından modelin her katmanında (genellikle Transformer katmanı) ileri yayılım gerçekleştirmek ve son olarak çıktı olasılık dağılımını elde etmek ve sonrakini oluşturmak gerekir. kelime bu dağılıma göre. GAN'larda, modelin giriş gürültü vektörüne dayalı bir görüntü oluşturması gerekir. Bu işlemler yalnızca modelin ileriye doğru yayılmasını içerir, gradyanları hesaplamaya veya parametreleri güncellemeye ihtiyaç duymaz ve düşük hesaplama karmaşıklığına sahiptir.
Veri Etkileşimi:
Çıkarım aşamasında, model genellikle eğitim sırasında büyük miktarda veri yerine tek bir girdiyi işler. Her çıkarımın sonucu, diğer girdi veya çıktıya değil, yalnızca mevcut girdiye bağlıdır, bu nedenle büyük miktarda veri etkileşimine gerek yoktur ve iletişim baskısı daha azdır.
Üretken görüntü modelini örnek olarak alırsak, görüntüler oluşturmak için GAN'ları kullandığımızı varsayarsak, modele yalnızca bir gürültü vektörü girmemiz gerekir ve ardından model karşılık gelen bir görüntü oluşturur. Bu süreçte her girdi yalnızca bir çıktı üreteceğinden çıktılar arasında bağımlılık olmadığı için veri etkileşimine gerek yoktur.
GPT-3'ü örnek olarak alırsak, bir sonraki kelimenin her nesli yalnızca geçerli metin girişini ve modelin durumunu gerektirir ve diğer girdiler veya çıktılarla etkileşime girmesi gerekmez, bu nedenle veri etkileşimi gereksinimi de zayıftır.
Özet
**İster büyük bir dil modeli ister üretken bir görüntü modeli olsun, muhakeme görevlerinin hesaplama karmaşıklığı ve veri etkileşimi nispeten düşüktür ve merkezi olmayan dağıtılmış bilgi işlem güç ağları için daha uygundur. Şu anda gördüğümüz şey bu. Çoğu proje bir yönde çalışıyor. **
3. Proje
Dağıtılmış bir bilgi işlem güç ağının teknik eşiği ve teknik genişliği çok yüksektir ve ayrıca donanım kaynaklarının desteğini gerektirir, bu nedenle şu anda çok fazla girişim görmedik. Örnek olarak Together ve Gensyn.ai'yi ele alalım:
1.Birlikte
Büyük modellerin açık kaynağına odaklanan ve merkezi olmayan yapay zeka bilgi işlem gücü çözümlerine kendini adamış bir şirket olan Together, herkesin, herhangi bir yerden yapay zekaya erişip kullanabileceğini umuyor. Birlikte, Lux Capital liderliğindeki 20 milyon dolarlık bir başlangıç turunu tamamladık.
Birlikte Chris, Percy ve Ce tarafından ortaklaşa kuruldu. Asıl amaç, büyük ölçekli model eğitiminin çok sayıda üst düzey GPU kümesi ve pahalı harcamalar gerektirmesiydi ve bu kaynaklar ve model eğitimi yetenekleri de birkaç merkezde yoğunlaşmıştı. büyük şirketler.
Benim bakış açıma göre, dağıtılmış bilgi işlem gücü için daha makul bir girişim planı:
1. Adım. Açık kaynak modeli
Dağıtılmış bir bilgi işlem güç ağında model muhakemesini uygulamak için ön koşul, düğümlerin modeli düşük maliyetle elde edebilmesidir, yani merkezi olmayan bilgi işlem güç ağını kullanan modelin açık kaynak olması gerekir (eğer model ilgili lisansa sahip olması gerekir. Aşağıda kullanılırsa, uygulamanın karmaşıklığını ve maliyetini artıracaktır). Örneğin, açık kaynaklı olmayan bir model olan chatgpt, merkezi olmayan bir bilgi işlem güç ağında yürütme için uygun değildir.
Bu nedenle, merkezi olmayan bir bilgi işlem güç ağı sağlayan bir şirketin görünmez bariyerinin, güçlü büyük ölçekli model geliştirme ve bakım yeteneklerine sahip olması gerektiği tahmin edilebilir. Kendi geliştirdiği ve açık kaynaklı güçlü bir temel model, üçüncü taraf model açık kaynağa bağımlılıktan bir ölçüde kurtulabilir ve merkezi olmayan bilgi işlem güç ağının en temel sorunlarını çözebilir. Aynı zamanda, bilgi işlem güç ağının büyük modellerin eğitimini ve akıl yürütmesini etkili bir şekilde gerçekleştirebileceğini kanıtlamak için daha elverişlidir.
Ve Birlikte de aynısını yaptı. Yakın zamanda piyasaya sürülen LLaMA tabanlı RedPajama, Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM ve Hazy Research gibi ekipler tarafından ortaklaşa başlatıldı.Hedef, bir dizi tamamen açık kaynaklı büyük dil modeli geliştirmek.
Adım 2. Dağıtılmış bilgi işlem gücü, model muhakemesine ulaştı
Yukarıdaki iki bölümde belirtildiği gibi, model eğitimi ile karşılaştırıldığında, model çıkarımı daha düşük hesaplama karmaşıklığına ve veri etkileşimine sahiptir ve merkezi olmayan dağıtılmış bir ortam için daha uygundur.
Açık kaynak model temelinde, Together'ın Ar-Ge ekibi, RedPajama-INCITE-3B modelinde düşük maliyetli ince ayar elde etmek için LoRA kullanmak, modeli CPU (özellikle MacBook) üzerinde çalıştırmak gibi bir dizi güncelleme yaptı. M2 Pro işlemcili Pro) Modelde daha ipeksi çalışır. Aynı zamanda, bu modelin ölçeği küçük olmasına rağmen, yeteneği aynı ölçekteki diğer modelleri aşmaktadır ve yasal, sosyal ve diğer senaryolarda pratik olarak uygulanmıştır.
Adım 3. Dağıtılmış bilgi işlem gücü, model eğitimine ulaştı
Orta ve uzun vadede, büyük zorluklarla ve teknik darboğazlarla karşı karşıya kalsa da, AI büyük model eğitimi için bilgi işlem gücü talebini üstlenmek en cazip olanı olmalıdır. Birlikte merkezi olmayan eğitimdeki iletişim darboğazının nasıl aşılacağı konusunda daha kuruluşunun başında çalışmalara başlandı. Ayrıca NeurIPS 2022: Merkezi Olmayan Eğitim için İletişim Darboğazlarının Üstesinden Gelme konusunda ilgili bir makale yayınladılar. Temel olarak aşağıdaki yönergeleri özetleyebiliriz:
Zamanlama Optimizasyonu
Merkezi olmayan bir ortamda eğitim alırken, düğümler arasındaki bağlantıların farklı gecikme süreleri ve bant genişlikleri olduğundan, daha hızlı bağlantılara sahip cihazlara iletişim ağırlıklı görevler atamak önemlidir. Birlikte, belirli bir zamanlama stratejisinin maliyetini açıklayan bir model oluşturur ve iletişim maliyetlerini en aza indirmek ve eğitim verimini en üst düzeye çıkarmak için zamanlama stratejisini daha iyi optimize eder. Together ekibi ayrıca ağın 100 kat daha yavaş olmasına rağmen uçtan uca eğitim çıktısının yalnızca 1,7 ila 2,3 kat daha yavaş olduğunu da buldu. Bu nedenle, zamanlama optimizasyonu yoluyla dağıtılmış ağlar ve merkezi kümeler arasındaki boşluğu kapatmak çok ilginçtir. **
İletişim sıkıştırma optimizasyonu
Birlikte, ileri aktivasyonlar ve ters gradyanlar için iletişim sıkıştırması önerir ve stokastik gradyan iniş yakınsaması için katı garantiler sağlayan AQ-SGD algoritmasını sunar. AQ-SGD, yavaş ağlarda (ör. 500 Mb/sn) büyük tabanlı modellerde ince ayar yapabilir, sıkıştırma olmadan merkezi bilgi işlem ağlarında (ör. 10 Gb/sn) uçtan uca eğitim performansından yalnızca %31 daha yavaştır. Ek olarak, AQ-SGD, %10 uçtan uca hızlanma elde etmek için QuantizedAdam gibi son teknoloji gradyan sıkıştırma teknikleriyle birleştirilebilir.
Proje özeti
Birlikte ekip yapılandırması çok kapsamlıdır, üyelerin çok güçlü bir akademik geçmişi vardır, büyük ölçekli model geliştirmeden bulut bilişimden donanım optimizasyonuna kadar endüstri uzmanları tarafından desteklenir. Ve Birlikte, açık kaynak büyük modeller geliştirmekten, dağıtılmış bilgi işlem güç ağında boştaki bilgi işlem gücünü (mac gibi) test etmeye ve terim modeliyle akıl yürütmeye ve ardından dağıtılmış bilgi işlem gücüne kadar yol planlamasında uzun vadeli ve sabırlı bir duruş sergiledi. model eğitiminde büyük Düzen. — O tarz bir birikim ve seyrelme hissi var :)
Ama şimdiye kadar, teşvik katmanında Together'ın çok fazla araştırma sonucunu görmedim.Bence bu, teknoloji araştırma ve geliştirme kadar önemlidir ve merkezi olmayan bir bilgi işlem güç ağının geliştirilmesini sağlamak için kilit bir faktördür.
2.Gensyn.ai
Together'ın teknik yolundan, merkezi olmayan bilgi işlem güç ağının model eğitimi ve akıl yürütmedeki uygulama sürecini ve ayrıca ilgili araştırma ve geliştirme önceliklerini kabaca anlayabiliriz.
Göz ardı edilemeyecek bir diğer önemli nokta, bilgi işlem güç ağının teşvik katmanı/konsensüs algoritmasının tasarımıdır.Örneğin, mükemmel bir ağın sahip olması gerekenler:
Faydaların yeterince çekici olduğundan emin olun;
Hile önleme ve daha fazla iş için daha fazla ücret dahil olmak üzere her madencinin hak ettiği faydaları elde etmesini sağlayın;
Görevlerin doğrudan ve makul bir şekilde planlandığından ve farklı düğümlere tahsis edildiğinden ve çok sayıda boşta düğüm olmayacağından veya bazı düğümlerin aşırı kalabalık olmayacağından emin olun;
Teşvik algoritması basit ve etkilidir ve çok fazla sistem yüküne ve gecikmesine neden olmaz;
……
Gensyn.ai'nin bunu nasıl yaptığını görün:
Düğüm olun
Öncelikle bilgi işlem güç ağındaki çözücüler, teklifler yoluyla kullanıcılar tarafından sunulan görevleri işleme hakkı için rekabet eder ve görevin ölçeğine ve hileli bulunma riskine göre çözücünün belirli bir miktar ipotek koyması gerekir.
doğrulamak
Çözücü, parametreleri güncellerken (işin şeffaflığını ve izlenebilirliğini sağlamak için) birden fazla kontrol noktası oluşturur ve görevler hakkında düzenli olarak kriptografik muhakeme kanıtları (iş ilerlemesinin kanıtı) oluşturur;
Çözücü işi tamamlayıp hesaplama sonuçlarının bir bölümünü oluşturduğunda, protokol bir doğrulayıcı seçecek ve doğrulayıcı da belirli bir miktar taahhüt edecek (doğrulayıcının doğrulamayı dürüstçe gerçekleştirmesini sağlamak için) ve hesaplamanın hangi kısmına karar verecek sonuçların yukarıda verilen kanıtlara göre doğrulanması gerekir.
Çözücü ve doğrulayıcı farklıysa
Merkle ağacı tabanlı veri yapısı sayesinde, hesaplama sonuçlarının tam olarak farklılık gösterdiği konum bulunur. Doğrulama işleminin tamamı zincir üzerinde olacak ve hile yapanlar taahhüt edilen miktardan düşülecektir.
Proje özeti
Teşvik ve doğrulama algoritmasının tasarımı, Gensyn.ai'nin doğrulama işlemi sırasında tüm bilgi işlem görevinin tüm sonuçlarını yeniden oynatmasına gerek duymamasını sağlar, ancak sağlanan kanıta göre sonuçların yalnızca bir kısmını kopyalaması ve doğrulaması gerekir, bu da büyük ölçüde iyileştirme sağlar doğrulama verimliliği. Aynı zamanda, düğümlerin hesaplama sonuçlarının yalnızca bir kısmını depolaması gerekir, bu da depolama alanı ve bilgi işlem kaynaklarının tüketimini azaltır. Ek olarak, potansiyel hile düğümleri, doğrulama için hangi parçaların seçileceğini tahmin edemez, dolayısıyla bu da hile riskini azaltır;
Bu farklılıkları doğrulama ve hilecileri keşfetme yöntemi, tüm hesaplama sonuçlarını karşılaştırmadan (Merkle ağacının kök düğümünden başlayarak ve adım adım ilerleyerek) hesaplama sürecindeki hataları hızlı bir şekilde bulabilir.Büyük ölçekli bilgi işlem görevleri için çok etkilidir.
Kısacası, Gensyn.ai'nin teşvik/doğrulama katmanının tasarım hedefi: kısa ve verimli. Ancak, şu anda teorik düzeyle sınırlıdır ve özel uygulama aşağıdaki zorluklarla karşılaşabilir:**
Ekonomik modelde, katılımcılar için aşırı yüksek bir eşik oluşturmadan dolandırıcılığı etkili bir şekilde önleyebilmek için uygun parametrelerin nasıl ayarlanacağı.
Teknik uygulama açısından, etkili bir periyodik şifreleme muhakeme kanıtının nasıl formüle edileceği de ileri düzeyde kriptografi bilgisi gerektiren karmaşık bir konudur.
Görev tahsisi açısından, bilgi işlem güç ağının görevleri seçip farklı çözücülere nasıl tahsis ettiği de makul bir zamanlama algoritmasının desteğine ihtiyaç duyar. teklif mekanizmasına, örneğin, güçlü bilgi işlem gücüne sahip düğümler daha büyük ölçekli görevlerin üstesinden gelebilir, ancak tekliflere katılmayabilir (bu, düğüm kullanılabilirliği için teşvik içerir), düşük işlem gücüne sahip düğümler en yüksek teklifi verebilir, ancak uygun değildir bazı karmaşık büyük ölçekli görevleri işlemek için Ölçekli bilgi işlem görevleri.
4. Gelecek hakkında düşünmek
Merkezi olmayan bir bilgi işlem güç ağına kimin ihtiyaç duyduğu sorusu doğrulanmadı. Boştaki bilgi işlem gücünün, büyük bilgi işlem gücü kaynakları gerektiren büyük ölçekli model eğitimine uygulanması, şüphesiz en mantıklı ve en yaratıcı alandır. Ama aslında, iletişim ve mahremiyet gibi darboğazlar bizi yeniden düşündürmeli:
Büyük modellerin merkezi olmayan eğitimi için gerçekten umut var mı?
Bu konsensüsün dışına atlarsanız, "en makul iniş senaryosu", merkezi olmayan bilgi işlem gücünün küçük yapay zeka modellerinin eğitimine uygulanıp uygulanmaması da büyük bir senaryodur. Teknik açıdan, modelin boyutu ve yapısı nedeniyle mevcut sınırlayıcı faktörler çözüldü.Aynı zamanda, pazar açısından, büyük modellerin eğitiminin çok büyük olacağını her zaman hissettik. şimdi geleceğe, ancak küçük yapay zeka modelleri pazarı henüz çekici değil mi?
Öyle düşünmüyorum. **Büyük modellerle karşılaştırıldığında, küçük yapay zeka modellerinin devreye alınması ve yönetilmesi daha kolaydır ve işlem hızı ile bellek kullanımı açısından daha verimlidir. Çok sayıda uygulama senaryosunda, kullanıcılar veya şirketler, büyük dil modelleri, ancak yalnızca çok ince taneli bir tahmin hedefiyle ilgilenir. Bu nedenle, çoğu senaryoda, küçük AI modelleri hala daha uygun bir seçenektir ve fomo büyük modellerin dalgasında zamanından önce göz ardı edilmemelidir. **
View Original
The content is for reference only, not a solicitation or offer. No investment, tax, or legal advice provided. See Disclaimer for more risks disclosure.
Yapay zeka bilgi işlem gücüne yönelik benzeri görülmemiş talepte Web3'ün kullanımı nedir?
Önemli içerik:
1. Dağıtılmış Bilgi İşlem Gücü—Büyük Model Eğitimi
Eğitimde dağıtılmış bilgi işlem gücünün uygulanmasını tartışıyoruz ve genellikle büyük dil modellerinin eğitimine odaklanıyoruz. Bunun ana nedeni, küçük modellerin eğitiminin fazla bilgi işlem gücü gerektirmemesidir. Dağıtılmış veri gizliliği ve bir sürü şey yapmak için proje sayısı Sorun uygun maliyetli değil, doğrudan ve merkezi olarak çözmek daha iyidir. Büyük dil modelinin bilgi işlem gücü için büyük bir talebi var ve şu anda salgının ilk aşamasında. 2012'den 2018'e kadar, yapay zekanın bilgi işlem talebi yaklaşık olarak her 4 ayda bir ikiye katlanacak. hala büyük bir artımlı talep olacaktır.
Büyük fırsatlar varken, sorunların da net bir şekilde görülmesi gerekiyor. Herkes sahnenin çok büyük olduğunu biliyor, ancak belirli zorluklar nerede? Oyuna körü körüne girmek yerine bu sorunları kimin hedef alabileceği, bu parkurun mükemmel projelerini değerlendirmenin özüdür.
(NVIDIA NeMo Megatron Çerçevesi)
1. Genel eğitim süreci
Örnek olarak 175 milyar parametreli büyük bir model eğitimi alın. Modelin devasa boyutundan dolayı birçok GPU cihazında paralel olarak eğitilmesi gerekiyor. 100 GPU'lu merkezi bir bilgisayar odası olduğunu ve her cihazın 32 GB belleğe sahip olduğunu varsayalım.
Bu süreç, eğitim verimliliği için bir darboğaz haline gelebilecek büyük miktarda veri aktarımı ve senkronizasyonu içerir. Bu nedenle, ağ bant genişliğini ve gecikmeyi optimize etmek ve verimli paralel ve senkronizasyon stratejileri kullanmak, büyük ölçekli model eğitimi için çok önemlidir.
2. İletişim yükünün darboğazı:
İletişim darboğazının, mevcut dağıtılmış bilgi işlem güç ağının büyük dil modeli eğitimi yapamamasının da nedeni olduğuna dikkat edilmelidir.
Her düğümün birlikte çalışmak için sık sık bilgi alışverişi yapması gerekir, bu da iletişim yükünü oluşturur. Büyük dil modelleri için, modelin çok sayıda parametresi nedeniyle bu sorun özellikle ciddidir. İletişim ek yükü şu yönlere ayrılır:
Parametrelerin ve gradyanların sıkıştırılması, verimli paralel stratejiler vb. gibi iletişim yükünü azaltmak için bazı yöntemler olsa da, bu yöntemler ek hesaplama yükü getirebilir veya modelin eğitim etkisini olumsuz etkileyebilir. Ayrıca, bu yöntemler, özellikle zayıf ağ koşulları veya bilgi işlem düğümleri arasındaki büyük mesafeler söz konusu olduğunda, iletişim yükü sorununu tamamen çözemez.
Örnek olarak:
Merkezi olmayan dağıtılmış bilgi işlem güç ağı
GPT-3 modeli 175 milyar parametreye sahiptir ve bu parametreleri tek duyarlıklı kayan nokta sayıları (parametre başına 4 bayt) kullanarak temsil edersek, bu parametreleri depolamak ~700 GB bellek gerektirir. Dağıtılmış eğitimde, bu parametrelerin bilgi işlem düğümleri arasında sıklıkla iletilmesi ve güncellenmesi gerekir.
100 bilgi işlem düğümü olduğunu varsayarsak, her düğümün her adımda tüm parametreleri güncellemesi ve ardından her adımın yaklaşık 70TB (700GB*100) veri aktarması gerekir. Bir adımın 1 saniye sürdüğünü varsayarsak (çok iyimser bir varsayım), o zaman saniyede 70 TB verinin aktarılması gerekir. Bu bant genişliği talebi, halihazırda çoğu ağınkinden çok daha fazladır ve aynı zamanda bir fizibilite meselesidir.
Gerçekte, iletişim gecikmeleri ve ağ tıkanıklığı nedeniyle veri aktarım süresi 1 saniyeden çok daha uzun olabilir. Bu, bilgi işlem düğümlerinin gerçek hesaplamalar yapmak yerine veri iletimini beklemek için çok zaman harcaması gerekebileceği anlamına gelir. Bu, eğitimin verimliliğini büyük ölçüde azaltacaktır ve verimlilikteki bu azalma, bekleyerek çözülemez, ancak uygulanabilir ve uygulanamaz arasındaki fark, tüm eğitim sürecini uygulanamaz hale getirecektir.
Merkezi bilgisayar odası
**Merkezi bir bilgisayar odası ortamında bile, büyük modellerin eğitimi hala yoğun iletişim optimizasyonu gerektirir. **
Merkezi bir bilgisayar odası ortamında, yüksek performanslı bilgi işlem cihazları, bilgi işlem görevlerini paylaşmak için yüksek hızlı bir ağ aracılığıyla bağlanan bir küme olarak kullanılır. Bununla birlikte, böylesine yüksek hızlı bir ağ ortamında çok sayıda parametreye sahip bir modeli eğitirken bile, modelin parametrelerinin ve gradyanlarının çeşitli bilgi işlem cihazları arasında sık sık iletilmesi ve güncellenmesi gerektiğinden, iletişim ek yükü hala bir darboğazdır. .
Başta belirtildiği gibi, 100 bilgi işlem düğümü olduğunu ve her sunucunun 25Gbps ağ bant genişliğine sahip olduğunu varsayalım. Her sunucunun her eğitim adımında tüm parametreleri güncellemesi gerekiyorsa, her eğitim adımının yaklaşık 700 GB veri aktarması gerekir ve bu ~224 saniye sürer. Geliştiriciler, merkezi bilgisayar odasından yararlanarak veri merkezi içindeki ağ topolojisini optimize edebilir ve bu süreyi önemli ölçüde azaltmak için model paralelliği gibi teknolojileri kullanabilir.
Buna karşılık, aynı eğitim dağıtılmış bir ortamda gerçekleştirilirse, hala tüm dünyaya dağılmış 100 bilgi işlem düğümü olduğu varsayılırsa, her düğümün ortalama ağ bant genişliği yalnızca 1 Gbps'dir. Bu durumda, merkezi bilgisayar odasındakinden çok daha uzun olan aynı 700 GB veriyi aktarmak ~5600 saniye sürer. Ayrıca, ağ gecikmeleri ve tıkanıklık nedeniyle gereken gerçek süre daha uzun olabilir.
Bununla birlikte, dağıtılmış bilgi işlem güç ağındaki durumla karşılaştırıldığında, merkezi bir bilgisayar odası ortamında iletişim ek yükünü optimize etmek nispeten kolaydır. Çünkü merkezi bir bilgisayar odası ortamında bilgi işlem cihazları genellikle aynı yüksek hızlı ağa bağlıdır ve ağın bant genişliği ve gecikmesi nispeten iyidir. Dağıtılmış bir bilgi işlem güç ağında, bilgi işlem düğümleri tüm dünyaya dağılmış olabilir ve ağ koşulları nispeten zayıf olabilir, bu da iletişim yükünü daha ciddi hale getirir.
GPT-3'ü eğitme sürecinde OpenAI, iletişim yükü sorununu çözmek için Megatron adlı bir model paralel çerçeve kullanır. Megatron, modelin parametrelerini böler ve birden fazla GPU arasında paralel olarak işler ve her cihaz, parametrelerin yalnızca bir kısmını depolamaktan ve güncellemekten sorumludur, böylece her cihazın işlemesi gereken parametre miktarını azaltır ve iletişim yükünü azaltır. Aynı zamanda, eğitim sırasında yüksek hızlı ara bağlantı ağı da kullanılır ve ağ topolojisi optimize edilerek iletişim yolunun uzunluğu azaltılır.
3. Dağıtılmış bilgi işlem güç ağı neden bu optimizasyonları yapamıyor?
Yapılabilir, ancak merkezi bilgisayar odasıyla karşılaştırıldığında bu optimizasyonların etkisi çok sınırlıdır.
Ağ topolojisi optimizasyonu: Merkezi bilgisayar odasında, ağ donanımı ve düzeni doğrudan kontrol edilebilir, böylece ağ topolojisi ihtiyaca göre tasarlanabilir ve optimize edilebilir. Bununla birlikte, dağıtılmış bir ortamda, bilgi işlem düğümleri, biri Çin'de ve biri Amerika Birleşik Devletleri'nde bile olmak üzere farklı coğrafi konumlara dağılmıştır ve aralarındaki ağ bağlantısını doğrudan kontrol etmenin bir yolu yoktur. Veri iletim yolunu optimize etmek için yazılım kullanılabilse de, doğrudan donanım ağını optimize etmek kadar etkili değildir. Aynı zamanda, coğrafi konumlardaki farklılıklar nedeniyle ağ gecikmeleri ve bant genişlikleri de büyük ölçüde değişir ve bu da ağ topolojisi optimizasyonunun etkisini daha da sınırlar.
**Model paralelliği:**Model paralelliği, modelin parametrelerini birden fazla bilgi işlem düğümüne bölen ve paralel işleme yoluyla eğitim hızını artıran bir teknolojidir. Bununla birlikte, bu yöntemin genellikle düğümler arasında sık sık veri iletmesi gerekir, bu nedenle ağ bant genişliği ve gecikme süresi konusunda yüksek gereksinimleri vardır. Merkezi bir bilgisayar odasında, yüksek ağ bant genişliği ve düşük gecikme nedeniyle, model paralelliği çok etkili olabilir. Bununla birlikte, dağıtılmış bir ortamda, zayıf ağ koşulları nedeniyle model paralelliği büyük ölçüde sınırlıdır.
4. Veri güvenliği ve gizlilik sorunları
Veri işleme ve iletimi içeren hemen hemen tüm bağlantılar, veri güvenliğini ve gizliliğini etkileyebilir:
Veri gizliliği endişeleri için hangi çözümler var?
Özet
Yukarıdaki yöntemlerin her birinin uygulanabilir senaryoları ve sınırlamaları vardır ve yöntemlerin hiçbiri, dağıtılmış bilgi işlem güç ağının büyük model eğitimindeki veri gizliliği sorununu tamamen çözemez.
Büyük umutlar besleyen ZK, büyük model eğitimindeki veri gizliliği sorununu çözebilecek mi?
**Teorik olarak ZKP, dağıtılmış bilgi işlemde veri gizliliğini sağlamak için kullanılabilir ve bir düğümün düzenlemelere göre hesaplamalar yaptığını kanıtlamasına olanak tanır, ancak gerçek girdi ve çıktı verilerini ifşa etmesi gerekmez. **
Ancak aslında, büyük modelleri eğiten büyük ölçekli dağıtılmış bilgi işlem güç ağı için ZKP'nin kullanılması senaryosunda aşağıdaki darboğazlarla karşılaşılır:
** Bilgi işlem ve iletişim ek yükü: ** Sıfır bilgi kanıtlarını oluşturmak ve doğrulamak, çok fazla bilgi işlem kaynağı gerektirir. Ek olarak, kanıtın kendisini iletme ihtiyacı nedeniyle ZKP'nin iletişim yükü de yüksektir. Bu genel giderler, büyük model eğitimi durumunda özellikle önemli hale gelebilir. Örneğin, her mini partinin hesaplanması bir kanıtın oluşturulmasını gerektiriyorsa, bu, toplam eğitim süresini ve maliyetini önemli ölçüde artırabilir.
**ZK protokolünün karmaşıklığı: **Büyük model eğitimine uygun bir ZKP protokolünün tasarlanması ve uygulanması çok karmaşık olacaktır. Bu protokolün büyük ölçekli verileri ve karmaşık hesaplamaları işleyebilmesi ve olası anormal hataları işleyebilmesi gerekir.
**Donanım ve yazılım uyumluluğu: **ZKP'yi kullanmak, tüm dağıtılmış bilgi işlem cihazlarında bulunmayabilecek özel donanım ve yazılım desteği gerektirir.
Özet
ZKP'yi büyük ölçekli dağıtılmış bilgi işlem güç ağı eğitiminde büyük modeller için kullanmak, birkaç yıllık araştırma ve geliştirme gerektirecek ve ayrıca bu yönde akademik topluluktan daha fazla enerji ve kaynak gerektirecektir.
2. Dağıtılmış Bilgi İşlem Gücü—Model Akıl Yürütme
Dağıtılmış bilgi işlem gücünün diğer bir nispeten büyük senaryosu, model muhakemesidir. Büyük modellerin gelişim yolu hakkındaki yargımıza göre, büyük modeller yüksek bir noktayı geçtikten sonra olgunlaştıkça model eğitimine olan talep kademeli olarak yavaşlayacaktır. Buna bağlı olarak muhakeme gereksinimleri de katlanarak artacaktır. büyük modellerin ve AIGC'nin olgunluğuyla.
Eğitim görevleriyle karşılaştırıldığında, çıkarım görevleri genellikle daha düşük hesaplama karmaşıklığına ve daha zayıf veri etkileşimine sahiptir ve dağıtılmış ortamlar için daha uygundur.
(NVIDIA Triton ile Power LLM çıkarımı)
1. Zorluk
İletişim Gecikmesi:
Dağıtılmış bir ortamda, düğümler arasındaki iletişim esastır. Dağıtılmış bir bilgi işlem güç ağında, düğümler tüm dünyaya yayılmış olabilir, bu nedenle ağ gecikmesi, özellikle gerçek zamanlı yanıt gerektiren akıl yürütme görevleri için bir sorun olabilir.
Model Dağıtımı ve Güncelleme:
Modelin her düğüme dağıtılması gerekir. Model güncellenirse, her düğümün modelini güncellemesi gerekir, bu da çok fazla ağ bant genişliği ve zamanı tüketir.
Veri gizliliği:
Çıkarım görevleri genellikle yalnızca girdi verileri ve modelleri gerektirmesine ve büyük miktarda ara veri ve parametre döndürmesi gerekmemesine rağmen, girdi verileri yine de kullanıcıların kişisel bilgileri gibi hassas bilgiler içerebilir.
Model Güvenliği:
Merkezi olmayan bir ağda, modelin güvenilmeyen düğümlere dağıtılması gerekir, bu da modelin sızmasına ve model mülkiyet hakları ve kötüye kullanılması sorununa yol açar. Bu aynı zamanda güvenlik ve mahremiyet endişelerini de artırabilir, hassas verileri işlemek için bir model kullanılıyorsa, düğümler modelin davranışını analiz ederek hassas bilgileri anlayabilir.
KK:
Dağıtılmış bir bilgi işlem güç ağındaki her düğüm, çıkarım görevlerinin performansını ve kalitesini garanti etmeyi zorlaştırabilecek farklı bilgi işlem yeteneklerine ve kaynaklarına sahip olabilir.
2. Fizibilite
Hesaplama karmaşıklığı:
Eğitim aşamasında, modelin tekrar tekrar yinelenmesi gerekir.Eğitim sürecinde, aktivasyon fonksiyonunun hesaplanması, kayıp fonksiyonunun hesaplanması, ağırlığın gradyanı ve güncellenmesi. Bu nedenle, model eğitiminin hesaplama karmaşıklığı yüksektir.
Çıkarım aşamasında, tahmini hesaplamak için yalnızca bir ileri geçiş gereklidir. Örneğin, GPT-3'te, giriş metnini bir vektöre dönüştürmek ve ardından modelin her katmanında (genellikle Transformer katmanı) ileri yayılım gerçekleştirmek ve son olarak çıktı olasılık dağılımını elde etmek ve sonrakini oluşturmak gerekir. kelime bu dağılıma göre. GAN'larda, modelin giriş gürültü vektörüne dayalı bir görüntü oluşturması gerekir. Bu işlemler yalnızca modelin ileriye doğru yayılmasını içerir, gradyanları hesaplamaya veya parametreleri güncellemeye ihtiyaç duymaz ve düşük hesaplama karmaşıklığına sahiptir.
Veri Etkileşimi:
Çıkarım aşamasında, model genellikle eğitim sırasında büyük miktarda veri yerine tek bir girdiyi işler. Her çıkarımın sonucu, diğer girdi veya çıktıya değil, yalnızca mevcut girdiye bağlıdır, bu nedenle büyük miktarda veri etkileşimine gerek yoktur ve iletişim baskısı daha azdır.
Üretken görüntü modelini örnek olarak alırsak, görüntüler oluşturmak için GAN'ları kullandığımızı varsayarsak, modele yalnızca bir gürültü vektörü girmemiz gerekir ve ardından model karşılık gelen bir görüntü oluşturur. Bu süreçte her girdi yalnızca bir çıktı üreteceğinden çıktılar arasında bağımlılık olmadığı için veri etkileşimine gerek yoktur.
GPT-3'ü örnek olarak alırsak, bir sonraki kelimenin her nesli yalnızca geçerli metin girişini ve modelin durumunu gerektirir ve diğer girdiler veya çıktılarla etkileşime girmesi gerekmez, bu nedenle veri etkileşimi gereksinimi de zayıftır.
Özet
**İster büyük bir dil modeli ister üretken bir görüntü modeli olsun, muhakeme görevlerinin hesaplama karmaşıklığı ve veri etkileşimi nispeten düşüktür ve merkezi olmayan dağıtılmış bilgi işlem güç ağları için daha uygundur. Şu anda gördüğümüz şey bu. Çoğu proje bir yönde çalışıyor. **
3. Proje
Dağıtılmış bir bilgi işlem güç ağının teknik eşiği ve teknik genişliği çok yüksektir ve ayrıca donanım kaynaklarının desteğini gerektirir, bu nedenle şu anda çok fazla girişim görmedik. Örnek olarak Together ve Gensyn.ai'yi ele alalım:
1.Birlikte
Büyük modellerin açık kaynağına odaklanan ve merkezi olmayan yapay zeka bilgi işlem gücü çözümlerine kendini adamış bir şirket olan Together, herkesin, herhangi bir yerden yapay zekaya erişip kullanabileceğini umuyor. Birlikte, Lux Capital liderliğindeki 20 milyon dolarlık bir başlangıç turunu tamamladık.
Birlikte Chris, Percy ve Ce tarafından ortaklaşa kuruldu. Asıl amaç, büyük ölçekli model eğitiminin çok sayıda üst düzey GPU kümesi ve pahalı harcamalar gerektirmesiydi ve bu kaynaklar ve model eğitimi yetenekleri de birkaç merkezde yoğunlaşmıştı. büyük şirketler.
Benim bakış açıma göre, dağıtılmış bilgi işlem gücü için daha makul bir girişim planı:
1. Adım. Açık kaynak modeli
Dağıtılmış bir bilgi işlem güç ağında model muhakemesini uygulamak için ön koşul, düğümlerin modeli düşük maliyetle elde edebilmesidir, yani merkezi olmayan bilgi işlem güç ağını kullanan modelin açık kaynak olması gerekir (eğer model ilgili lisansa sahip olması gerekir. Aşağıda kullanılırsa, uygulamanın karmaşıklığını ve maliyetini artıracaktır). Örneğin, açık kaynaklı olmayan bir model olan chatgpt, merkezi olmayan bir bilgi işlem güç ağında yürütme için uygun değildir.
Bu nedenle, merkezi olmayan bir bilgi işlem güç ağı sağlayan bir şirketin görünmez bariyerinin, güçlü büyük ölçekli model geliştirme ve bakım yeteneklerine sahip olması gerektiği tahmin edilebilir. Kendi geliştirdiği ve açık kaynaklı güçlü bir temel model, üçüncü taraf model açık kaynağa bağımlılıktan bir ölçüde kurtulabilir ve merkezi olmayan bilgi işlem güç ağının en temel sorunlarını çözebilir. Aynı zamanda, bilgi işlem güç ağının büyük modellerin eğitimini ve akıl yürütmesini etkili bir şekilde gerçekleştirebileceğini kanıtlamak için daha elverişlidir.
Ve Birlikte de aynısını yaptı. Yakın zamanda piyasaya sürülen LLaMA tabanlı RedPajama, Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM ve Hazy Research gibi ekipler tarafından ortaklaşa başlatıldı.Hedef, bir dizi tamamen açık kaynaklı büyük dil modeli geliştirmek.
Adım 2. Dağıtılmış bilgi işlem gücü, model muhakemesine ulaştı
Yukarıdaki iki bölümde belirtildiği gibi, model eğitimi ile karşılaştırıldığında, model çıkarımı daha düşük hesaplama karmaşıklığına ve veri etkileşimine sahiptir ve merkezi olmayan dağıtılmış bir ortam için daha uygundur.
Açık kaynak model temelinde, Together'ın Ar-Ge ekibi, RedPajama-INCITE-3B modelinde düşük maliyetli ince ayar elde etmek için LoRA kullanmak, modeli CPU (özellikle MacBook) üzerinde çalıştırmak gibi bir dizi güncelleme yaptı. M2 Pro işlemcili Pro) Modelde daha ipeksi çalışır. Aynı zamanda, bu modelin ölçeği küçük olmasına rağmen, yeteneği aynı ölçekteki diğer modelleri aşmaktadır ve yasal, sosyal ve diğer senaryolarda pratik olarak uygulanmıştır.
Adım 3. Dağıtılmış bilgi işlem gücü, model eğitimine ulaştı
Orta ve uzun vadede, büyük zorluklarla ve teknik darboğazlarla karşı karşıya kalsa da, AI büyük model eğitimi için bilgi işlem gücü talebini üstlenmek en cazip olanı olmalıdır. Birlikte merkezi olmayan eğitimdeki iletişim darboğazının nasıl aşılacağı konusunda daha kuruluşunun başında çalışmalara başlandı. Ayrıca NeurIPS 2022: Merkezi Olmayan Eğitim için İletişim Darboğazlarının Üstesinden Gelme konusunda ilgili bir makale yayınladılar. Temel olarak aşağıdaki yönergeleri özetleyebiliriz:
Merkezi olmayan bir ortamda eğitim alırken, düğümler arasındaki bağlantıların farklı gecikme süreleri ve bant genişlikleri olduğundan, daha hızlı bağlantılara sahip cihazlara iletişim ağırlıklı görevler atamak önemlidir. Birlikte, belirli bir zamanlama stratejisinin maliyetini açıklayan bir model oluşturur ve iletişim maliyetlerini en aza indirmek ve eğitim verimini en üst düzeye çıkarmak için zamanlama stratejisini daha iyi optimize eder. Together ekibi ayrıca ağın 100 kat daha yavaş olmasına rağmen uçtan uca eğitim çıktısının yalnızca 1,7 ila 2,3 kat daha yavaş olduğunu da buldu. Bu nedenle, zamanlama optimizasyonu yoluyla dağıtılmış ağlar ve merkezi kümeler arasındaki boşluğu kapatmak çok ilginçtir. **
Birlikte, ileri aktivasyonlar ve ters gradyanlar için iletişim sıkıştırması önerir ve stokastik gradyan iniş yakınsaması için katı garantiler sağlayan AQ-SGD algoritmasını sunar. AQ-SGD, yavaş ağlarda (ör. 500 Mb/sn) büyük tabanlı modellerde ince ayar yapabilir, sıkıştırma olmadan merkezi bilgi işlem ağlarında (ör. 10 Gb/sn) uçtan uca eğitim performansından yalnızca %31 daha yavaştır. Ek olarak, AQ-SGD, %10 uçtan uca hızlanma elde etmek için QuantizedAdam gibi son teknoloji gradyan sıkıştırma teknikleriyle birleştirilebilir.
Birlikte ekip yapılandırması çok kapsamlıdır, üyelerin çok güçlü bir akademik geçmişi vardır, büyük ölçekli model geliştirmeden bulut bilişimden donanım optimizasyonuna kadar endüstri uzmanları tarafından desteklenir. Ve Birlikte, açık kaynak büyük modeller geliştirmekten, dağıtılmış bilgi işlem güç ağında boştaki bilgi işlem gücünü (mac gibi) test etmeye ve terim modeliyle akıl yürütmeye ve ardından dağıtılmış bilgi işlem gücüne kadar yol planlamasında uzun vadeli ve sabırlı bir duruş sergiledi. model eğitiminde büyük Düzen. — O tarz bir birikim ve seyrelme hissi var :)
Ama şimdiye kadar, teşvik katmanında Together'ın çok fazla araştırma sonucunu görmedim.Bence bu, teknoloji araştırma ve geliştirme kadar önemlidir ve merkezi olmayan bir bilgi işlem güç ağının geliştirilmesini sağlamak için kilit bir faktördür.
2.Gensyn.ai
Together'ın teknik yolundan, merkezi olmayan bilgi işlem güç ağının model eğitimi ve akıl yürütmedeki uygulama sürecini ve ayrıca ilgili araştırma ve geliştirme önceliklerini kabaca anlayabiliriz.
Göz ardı edilemeyecek bir diğer önemli nokta, bilgi işlem güç ağının teşvik katmanı/konsensüs algoritmasının tasarımıdır.Örneğin, mükemmel bir ağın sahip olması gerekenler:
……
Gensyn.ai'nin bunu nasıl yaptığını görün:
Öncelikle bilgi işlem güç ağındaki çözücüler, teklifler yoluyla kullanıcılar tarafından sunulan görevleri işleme hakkı için rekabet eder ve görevin ölçeğine ve hileli bulunma riskine göre çözücünün belirli bir miktar ipotek koyması gerekir.
Çözücü, parametreleri güncellerken (işin şeffaflığını ve izlenebilirliğini sağlamak için) birden fazla kontrol noktası oluşturur ve görevler hakkında düzenli olarak kriptografik muhakeme kanıtları (iş ilerlemesinin kanıtı) oluşturur;
Çözücü işi tamamlayıp hesaplama sonuçlarının bir bölümünü oluşturduğunda, protokol bir doğrulayıcı seçecek ve doğrulayıcı da belirli bir miktar taahhüt edecek (doğrulayıcının doğrulamayı dürüstçe gerçekleştirmesini sağlamak için) ve hesaplamanın hangi kısmına karar verecek sonuçların yukarıda verilen kanıtlara göre doğrulanması gerekir.
Merkle ağacı tabanlı veri yapısı sayesinde, hesaplama sonuçlarının tam olarak farklılık gösterdiği konum bulunur. Doğrulama işleminin tamamı zincir üzerinde olacak ve hile yapanlar taahhüt edilen miktardan düşülecektir.
Proje özeti
Teşvik ve doğrulama algoritmasının tasarımı, Gensyn.ai'nin doğrulama işlemi sırasında tüm bilgi işlem görevinin tüm sonuçlarını yeniden oynatmasına gerek duymamasını sağlar, ancak sağlanan kanıta göre sonuçların yalnızca bir kısmını kopyalaması ve doğrulaması gerekir, bu da büyük ölçüde iyileştirme sağlar doğrulama verimliliği. Aynı zamanda, düğümlerin hesaplama sonuçlarının yalnızca bir kısmını depolaması gerekir, bu da depolama alanı ve bilgi işlem kaynaklarının tüketimini azaltır. Ek olarak, potansiyel hile düğümleri, doğrulama için hangi parçaların seçileceğini tahmin edemez, dolayısıyla bu da hile riskini azaltır;
Bu farklılıkları doğrulama ve hilecileri keşfetme yöntemi, tüm hesaplama sonuçlarını karşılaştırmadan (Merkle ağacının kök düğümünden başlayarak ve adım adım ilerleyerek) hesaplama sürecindeki hataları hızlı bir şekilde bulabilir.Büyük ölçekli bilgi işlem görevleri için çok etkilidir.
Kısacası, Gensyn.ai'nin teşvik/doğrulama katmanının tasarım hedefi: kısa ve verimli. Ancak, şu anda teorik düzeyle sınırlıdır ve özel uygulama aşağıdaki zorluklarla karşılaşabilir:**
Ekonomik modelde, katılımcılar için aşırı yüksek bir eşik oluşturmadan dolandırıcılığı etkili bir şekilde önleyebilmek için uygun parametrelerin nasıl ayarlanacağı.
Teknik uygulama açısından, etkili bir periyodik şifreleme muhakeme kanıtının nasıl formüle edileceği de ileri düzeyde kriptografi bilgisi gerektiren karmaşık bir konudur.
Görev tahsisi açısından, bilgi işlem güç ağının görevleri seçip farklı çözücülere nasıl tahsis ettiği de makul bir zamanlama algoritmasının desteğine ihtiyaç duyar. teklif mekanizmasına, örneğin, güçlü bilgi işlem gücüne sahip düğümler daha büyük ölçekli görevlerin üstesinden gelebilir, ancak tekliflere katılmayabilir (bu, düğüm kullanılabilirliği için teşvik içerir), düşük işlem gücüne sahip düğümler en yüksek teklifi verebilir, ancak uygun değildir bazı karmaşık büyük ölçekli görevleri işlemek için Ölçekli bilgi işlem görevleri.
4. Gelecek hakkında düşünmek
Merkezi olmayan bir bilgi işlem güç ağına kimin ihtiyaç duyduğu sorusu doğrulanmadı. Boştaki bilgi işlem gücünün, büyük bilgi işlem gücü kaynakları gerektiren büyük ölçekli model eğitimine uygulanması, şüphesiz en mantıklı ve en yaratıcı alandır. Ama aslında, iletişim ve mahremiyet gibi darboğazlar bizi yeniden düşündürmeli:
Büyük modellerin merkezi olmayan eğitimi için gerçekten umut var mı?
Bu konsensüsün dışına atlarsanız, "en makul iniş senaryosu", merkezi olmayan bilgi işlem gücünün küçük yapay zeka modellerinin eğitimine uygulanıp uygulanmaması da büyük bir senaryodur. Teknik açıdan, modelin boyutu ve yapısı nedeniyle mevcut sınırlayıcı faktörler çözüldü.Aynı zamanda, pazar açısından, büyük modellerin eğitiminin çok büyük olacağını her zaman hissettik. şimdi geleceğe, ancak küçük yapay zeka modelleri pazarı henüz çekici değil mi?
Öyle düşünmüyorum. **Büyük modellerle karşılaştırıldığında, küçük yapay zeka modellerinin devreye alınması ve yönetilmesi daha kolaydır ve işlem hızı ile bellek kullanımı açısından daha verimlidir. Çok sayıda uygulama senaryosunda, kullanıcılar veya şirketler, büyük dil modelleri, ancak yalnızca çok ince taneli bir tahmin hedefiyle ilgilenir. Bu nedenle, çoğu senaryoda, küçük AI modelleri hala daha uygun bir seçenektir ve fomo büyük modellerin dalgasında zamanından önce göz ardı edilmemelidir. **