Foresight Ventures: Merkezi Olmayan Bilgi İşlem Güç Ağlarına Akılcı Bir Bakış

Orijinal Yazar: Yihan Xu, Foresight Ventures

TL;DR

  • Şu anda, "AI + Crypto" kombinasyonu esas olarak "2" nispeten büyük yön içeriyor: dağıtılmış bilgi işlem gücü ve "ZKML". "ZKML" hakkında önceki makaleme başvurabilirsiniz. Bu makale, merkezi olmayan dağıtılmış bilgi işlem güç ağını analiz edecek ve yansıtacaktır. ;
  • "AI" büyük modelinin gelişme eğilimi altında, bilgi işlem gücü kaynakları önümüzdeki on yılda büyük savaş alanı olacak ve aynı zamanda gelecekte insan toplumu için en önemli şey olacak ve yalnızca ticari olarak kalmayacak rekabet, aynı zamanda büyük bir ülke haline gelme Oyunun stratejik kaynakları. Gelecekte, yüksek performanslı bilgi işlem altyapısına ve bilgi işlem gücü rezervlerine yapılan yatırım katlanarak artacaktır.
  • Merkezi olmayan dağıtılmış bilgi işlem güç ağı, yapay zeka üzerinde en büyük talebe sahiptir; büyük model eğitimi, ancak aynı zamanda en büyük zorluklarla ve teknik darboğazlarla da karşı karşıyadır. Karmaşık veri senkronizasyonu ihtiyacı ve ağ optimizasyonu sorunları dahil. Ayrıca, veri gizliliği ve güvenliği de önemli kısıtlamalardır. Bazı mevcut teknikler ön çözümler sunabilse de, büyük hesaplama ve iletişim ek yükü nedeniyle büyük ölçekli dağıtılmış eğitim görevlerinde uygulanamazlar.
  • Merkezi olmayan dağıtılmış bilgi işlem güç ağının, model muhakemesinde iniş yapma şansı daha yüksektir ve gelecekteki artımlı alanın da yeterince büyük olduğunu tahmin edebilir. Ancak iletişim gecikmesi, veri gizliliği ve model güvenliği gibi zorluklarla da karşı karşıyadır. Model eğitimi ile karşılaştırıldığında, çıkarım daha düşük hesaplama karmaşıklığına ve veri etkileşimine sahiptir ve dağıtılmış ortamlar için daha uygundur.
  • "Together" ve "Gensyn.ai" iki yeni şirket vakası aracılığıyla, genel araştırma yönü ve merkezi olmayan dağıtılmış bilgi işlem güç ağının belirli fikirleri, teknoloji optimizasyonu ve teşvik katmanı tasarımı perspektiflerinden gösterilmektedir.

1. Dağıtılmış Bilgi İşlem Gücü—Büyük Model Eğitimi

Eğitimde dağıtılmış bilgi işlem gücünün uygulanmasını tartışıyoruz ve genellikle büyük dil modellerinin eğitimine odaklanıyoruz. Bunun ana nedeni, küçük modellerin eğitiminin fazla bilgi işlem gücü gerektirmemesidir. Dağıtılmış veri gizliliği ve bir sürü şey yapmak için proje sayısı Sorun uygun maliyetli değil, doğrudan ve merkezi olarak çözmek daha iyidir. Büyük dil modelinin bilgi işlem gücü için büyük bir talebi var ve şu anda patlamanın ilk aşamasında. 2012'den 2018'e kadar, yapay zekanın bilgi işlem talebi her 4 ayda bir ikiye katlanacak ve şimdi bilgi işlem gücü için daha da talepkar. • Konsantre noktalar geleceği tahmin edebilir, 5-8 yıl yine de çok büyük bir artımlı talep olacaktır.

Büyük fırsatlar varken, sorunların da net bir şekilde görülmesi gerekiyor. Herkes sahnenin çok büyük olduğunu biliyor, ancak belirli zorluklar nerede? Bu parkurun mükemmel projelerini değerlendirmenin özü olan oyuna körü körüne girmek yerine bu sorunları kim "hedefleyebilir".

Foresight Ventures: Merkezi Olmayan Bilgi İşlem Güç Ağı Üzerine Akılcı Bir Bakış

;(NVIDIA NeMo Megatron Çerçevesi)

1. Genel eğitim süreci

Örnek olarak 175 milyar parametreli büyük bir model eğitimi alın. Modelin devasa boyutundan dolayı birçok "GPU" cihazında paralel olarak eğitilmesi gerekiyor. Diyelim ki merkezi bir bilgisayar odası var, 100 GPU var, her cihazın 32 GB hafızası var.

  • Veri hazırlama: Öncelikle internet bilgileri, haberler, kitaplar vb. çeşitli verileri içeren çok büyük bir veri seti gereklidir. Bu verilerin eğitimden önce metin temizleme, tokenleştirme, sözcük dağarcığı oluşturma vb. dahil olmak üzere önceden işlenmesi gerekir.
  • Veri bölünmesi: İşlenen veriler, birden çok GPU'da paralel işleme için çoklu gruplara bölünecektir; Seçilen parti boyutunun 512 olduğunu, yani her partinin 512 metin dizisi içerdiğini varsayalım. Ardından, tüm veri kümesini gruplara ayırarak bir parti sırası oluştururuz.
  • Cihazlar arası veri aktarımı: Her eğitim adımının başında, CPU toplu iş kuyruğundan bir parti alır ve ardından bu partinin verilerini PCIe veriyoluna GPU'ya gönderir. Her metin dizisinin ortalama uzunluğunun; 1024; belirteç olduğunu varsayarsak, o zaman her toplu işin veri boyutu yaklaşık olarak; 512 * 1024 * 4;B = 2; MB'dir (her belirteç; 4; bayt tek duyarlıklı kayan -nokta gösterimi). Bu veri aktarım işlemi genellikle yalnızca birkaç milisaniye sürer.
  • Paralel eğitim: Verileri aldıktan sonra, her "GPU" cihazı ileri geçiş ve geri geçiş hesaplamaları yapmaya başlar ve her parametrenin gradyanını hesaplar. Modelin büyük ölçeği nedeniyle, tek bir "GPU"nun belleği tüm parametreleri depolayamaz, bu nedenle model parametrelerini birden çok "GPU"ya dağıtmak için model paralel teknolojisini kullanırız.
  • Gradient toplama ve parametre güncelleme: Geri yayılım hesaplaması tamamlandıktan sonra, her bir GPU, parametrelerin bir kısmının gradyanını alır. Bu gradyanların daha sonra küresel gradyanları hesaplamak için tüm GPU cihazlarında toplanması gerekir. Bu, "25; Gbps" ağının kullanıldığını varsayarak ağ üzerinden veri iletimini gerektirir, ardından "700; GB; ;GB) iletimi yaklaşık ;224; saniye sürer. Ardından her bir GPU, saklanan parametrelerini global gradyana göre günceller.
  • Senkronizasyon: Parametre güncellemesinden sonra, eğitimin bir sonraki adımı için hepsinin tutarlı model parametreleri kullandığından emin olmak için tüm GPU cihazlarının senkronize edilmesi gerekir. Bu da ağ üzerinden veri aktarımını gerektirir.
  • Eğitim adımlarını tekrarlayın: Tüm grupların eğitimi tamamlanana veya önceden belirlenmiş eğitim turu sayısına (dönem) ulaşılana kadar yukarıdaki adımları tekrarlayın.

Bu süreç, eğitim verimliliği için bir darboğaz haline gelebilecek büyük miktarda veri aktarımı ve senkronizasyonu içerir. Bu nedenle, ağ bant genişliğini ve gecikmeyi optimize etmek ve verimli paralel ve senkronizasyon stratejileri kullanmak, büyük ölçekli model eğitimi için çok önemlidir.

2. İletişim yükünün darboğazı:

İletişim darboğazının, mevcut dağıtılmış bilgi işlem güç ağının büyük dil modeli eğitimi yapamamasının da nedeni olduğuna dikkat edilmelidir.

Her düğümün birlikte çalışmak için sık sık bilgi alışverişi yapması gerekir, bu da iletişim yükünü oluşturur. Büyük dil modelleri için, modelin çok sayıda parametresi nedeniyle bu sorun özellikle ciddidir. İletişim ek yükü şu yönlere ayrılır:

  • Veri iletimi: Düğümlerin, eğitim sırasında model parametrelerini ve gradyan bilgilerini sık sık değiş tokuş etmesi gerekir. Bu, büyük miktarda ağ bant genişliği tüketen ağda büyük miktarda verinin iletilmesini gerektirir. Ağ koşulları zayıfsa veya bilgi işlem düğümleri arasındaki mesafe büyükse, veri iletiminin gecikmesi yüksek olacak ve iletişim yükünü daha da artıracaktır.
  • Senkronizasyon sorunu: Eğitim sırasında, doğru eğitimi sağlamak için düğümlerin birlikte çalışması gerekir. Bu, model parametrelerinin güncellenmesi, genel gradyanların hesaplanması vb. gibi düğümler arasında sık sık senkronizasyon işlemleri gerektirir. Bu eşzamanlı işlemlerin ağda büyük miktarda veri iletmesi ve tüm düğümlerin işlemi tamamlamasını beklemesi gerekir, bu da çok fazla iletişim yüküne ve bekleme süresine neden olur.
  • Degrade toplama ve güncelleme: Eğitim sürecinde, her düğümün kendi gradyanını hesaplaması ve bunu toplama ve güncelleme için diğer düğümlere göndermesi gerekir. Bu, ağda büyük miktarda gradyan verisinin iletilmesini ve tüm düğümlerin gradyanların hesaplanmasını ve iletimini tamamlamasını bekleme ihtiyacını gerektirir, bu da büyük miktarda iletişim yükünün nedenidir.
  • Veri Tutarlılığı: Her düğümün model parametrelerinin tutarlı olmasını sağlamak gerekir. Bu, düğümler arasında sık sık veri sağlama toplamı ve senkronizasyon işlemleri gerektirir, bu da büyük miktarda iletişim ek yüküne neden olur.

Parametrelerin ve gradyanların sıkıştırılması, verimli paralel stratejiler vb. gibi iletişim yükünü azaltmak için bazı yöntemler olsa da, bu yöntemler ek hesaplama yükü getirebilir veya modelin eğitim etkisini olumsuz etkileyebilir. Ayrıca, bu yöntemler, özellikle zayıf ağ koşulları veya bilgi işlem düğümleri arasındaki büyük mesafeler söz konusu olduğunda, iletişim yükü sorununu tamamen çözemez.

Örnek olarak:

Merkezi olmayan dağıtılmış bilgi işlem güç ağı

GPT-3 modelinde 175 milyar milyar parametre vardır ve bu parametreleri temsil etmek için tek duyarlıklı kayan noktalı sayılar (her parametre; 4; bayt) kullanırsak, bu parametreleri depolamak ~;700;GB; bellek gerektirir . Dağıtılmış eğitimde, bu parametrelerin bilgi işlem düğümleri arasında sıklıkla iletilmesi ve güncellenmesi gerekir.

100 bilgi işlem düğümü olduğunu ve her düğümün her adımda tüm parametreleri güncellemesi gerektiğini, ardından her adımın yaklaşık 70 TB (700; GB*; 100;) veri iletmesi gerektiğini varsayalım. Bir adımın saniyeler sürdüğünü varsayarsak (çok iyimser bir varsayım), o zaman her saniye 70 TB verinin aktarılması gerekir. Bu bant genişliği talebi, halihazırda çoğu ağınkinden çok daha fazladır ve aynı zamanda bir fizibilite meselesidir.

Gerçekte, iletişim gecikmeleri ve ağ tıkanıklığı nedeniyle, veri aktarım süresi saniyeden çok daha uzun olabilir. Bu, bilgi işlem düğümlerinin gerçek hesaplamalar yapmak yerine veri iletimini beklemek için çok zaman harcaması gerekebileceği anlamına gelir. Bu, eğitimin verimliliğini büyük ölçüde azaltacaktır ve verimlilikteki bu azalma, bekleyerek çözülemez, ancak uygulanabilir ve uygulanamaz arasındaki fark, tüm eğitim sürecini uygulanamaz hale getirecektir.

Merkezi bilgisayar odası

Merkezi bir bilgisayar odası ortamında bile, büyük modellerin eğitimi hala yoğun iletişim optimizasyonu gerektirir.

Merkezi bir bilgisayar odası ortamında, yüksek performanslı bilgi işlem cihazları, bilgi işlem görevlerini paylaşmak için yüksek hızlı bir ağ aracılığıyla bağlanan bir küme olarak kullanılır. Bununla birlikte, böylesine yüksek hızlı bir ağ ortamında çok sayıda parametreye sahip bir modeli eğitirken bile, modelin parametrelerinin ve gradyanlarının çeşitli bilgi işlem cihazları arasında sık sık iletilmesi ve güncellenmesi gerektiğinden, iletişim ek yükü hala bir darboğazdır. .

Başta da belirttiğimiz gibi 100 bilgi işlem düğümü olduğunu, her sunucunun 25 Gbps ağ bant genişliğine sahip olduğunu varsayalım. Her sunucunun her eğitim adımında tüm parametreleri güncellemesi gerekiyorsa, o zaman her eğitim adımı yaklaşık 700; GB; veri ihtiyacı ~; 224; saniyedir. Geliştiriciler, merkezi bilgisayar odasından yararlanarak veri merkezi içindeki ağ topolojisini optimize edebilir ve bu süreyi önemli ölçüde azaltmak için model paralelliği gibi teknolojileri kullanabilir.

Buna karşılık, aynı eğitim dağıtık bir ortamda yapılırsa, hala tüm dünyaya dağılmış 100 bilgi işlem düğümü olduğu ve her düğümün ortalama ağ bant genişliğinin yalnızca 1 Gbps olduğu varsayılır. Bu durumda, aynı 700 GB verinin aktarımı ~; 5600 saniye sürer ve merkezi bir bilgisayar odasındakinden çok daha uzun sürer. Ayrıca, ağ gecikmeleri ve tıkanıklık nedeniyle gereken gerçek süre daha uzun olabilir.

Bununla birlikte, dağıtılmış bilgi işlem güç ağındaki durumla karşılaştırıldığında, merkezi bir bilgisayar odası ortamında iletişim ek yükünü optimize etmek nispeten kolaydır. Çünkü merkezi bir bilgisayar odası ortamında bilgi işlem cihazları genellikle aynı yüksek hızlı ağa bağlıdır ve ağın bant genişliği ve gecikmesi nispeten iyidir. Dağıtılmış bir bilgi işlem güç ağında, bilgi işlem düğümleri tüm dünyaya dağılmış olabilir ve ağ koşulları nispeten zayıf olabilir, bu da iletişim yükünü daha ciddi hale getirir.

GPT-3'ü eğitme sürecinde OpenAI, iletişim yükü sorununu çözmek için "Megatron" adlı bir model paralel çerçeve benimsedi. Megatron, modelin parametrelerini böler ve birden fazla GPU arasında paralel olarak işler ve her cihaz, parametrelerin yalnızca bir kısmını depolamaktan ve güncellemekten sorumludur, böylece her cihazın işlemesi gereken parametre miktarını azaltır ve iletişim yükünü azaltır. Aynı zamanda, eğitim sırasında yüksek hızlı ara bağlantı ağı da kullanılır ve ağ topolojisi optimize edilerek iletişim yolunun uzunluğu azaltılır.

Foresight Ventures: Merkezi Olmayan Bilgi İşlem Güç Ağı Üzerine Akılcı Bir Bakış

(LLM modellerini eğitmek için kullanılan veriler)

3. Dağıtılmış bilgi işlem güç ağı neden bu optimizasyonları yapamıyor?

Yapılabilir, ancak merkezi bilgisayar odasıyla karşılaştırıldığında bu optimizasyonların etkisi çok sınırlıdır.

  1. Ağ topolojisi optimizasyonu: Merkezi bilgisayar odasında, ağ donanımı ve düzeni doğrudan kontrol edilebilir, böylece ağ topolojisi ihtiyaca göre tasarlanabilir ve optimize edilebilir. Bununla birlikte, dağıtılmış bir ortamda, bilgi işlem düğümleri, biri Çin'de ve biri Amerika Birleşik Devletleri'nde bile olmak üzere farklı coğrafi konumlara dağılmıştır ve aralarındaki ağ bağlantısını doğrudan kontrol etmenin bir yolu yoktur. Veri iletim yolunu optimize etmek için yazılım kullanılabilse de, doğrudan donanım ağını optimize etmek kadar etkili değildir. Aynı zamanda, coğrafi konumlardaki farklılıklar nedeniyle ağ gecikmeleri ve bant genişlikleri de büyük ölçüde değişir ve bu da ağ topolojisi optimizasyonunun etkisini daha da sınırlar.

  2. Model paralelliği: Model paralelliği, modelin parametrelerini birden çok bilgi işlem düğümüne bölen ve paralel işleme yoluyla eğitim hızını artıran bir teknolojidir. Bununla birlikte, bu yöntemin genellikle düğümler arasında sık sık veri iletmesi gerekir, bu nedenle ağ bant genişliği ve gecikme süresi konusunda yüksek gereksinimleri vardır. Merkezi bir bilgisayar odasında, yüksek ağ bant genişliği ve düşük gecikme nedeniyle, model paralelliği çok etkili olabilir. Bununla birlikte, dağıtılmış bir ortamda, zayıf ağ koşulları nedeniyle model paralelliği büyük ölçüde sınırlıdır. ; ; ; ; ;

4. Veri güvenliği ve gizlilik sorunları

Veri işleme ve iletimi içeren hemen hemen tüm bağlantılar, veri güvenliğini ve gizliliğini etkileyebilir:

  1. Veri dağıtımı: Eğitim verilerinin, hesaplamaya katılan her bir düğüme dağıtılması gerekir. Bu bağlantıdaki veriler, dağıtılmış düğümlerde kötü amaçlarla kullanılabilir/sızdırılabilir.

  2. Model eğitimi: Eğitim süreci sırasında, her bir düğüm hesaplama için atanan verilerini kullanacak ve ardından model parametrelerinin güncellemesini veya gradyanını çıkaracaktır. Bu işlem sırasında düğümün hesaplama işlemi çalınırsa veya sonuç kötü niyetli bir şekilde analiz edilirse veriler de sızdırılabilir.

  3. Parametre ve Gradyan Toplama: Genel modeli güncellemek için her bir düğümün çıktısının toplanması gerekir ve toplama işlemi sırasındaki iletişim, eğitim verileri hakkında bilgi sızdırabilir.

**Veri gizliliği endişeleri için hangi çözümler mevcut? **

  • Güvenli çok taraflı bilgi işlem: SMC; bazı özel, küçük ölçekli bilgi işlem görevlerinde başarıyla uygulanmıştır. Ancak, büyük hesaplama ve iletişim ek yükü nedeniyle büyük ölçekli dağıtılmış eğitim görevlerinde henüz yaygın olarak kullanılmamıştır.
  • Diferansiyel gizlilik: Chrome, kullanıcı istatistikleri vb. belirli veri toplama ve analiz görevlerinde uygulanır. Ancak büyük ölçekli derin öğrenme görevlerinde DP; modelin doğruluğu üzerinde etkili olacaktır. Aynı zamanda, uygun bir gürültü oluşturma ve ekleme mekanizması tasarlamak da bir zorluktur.
  • Birleşik Öğrenme: Android, klavyenin kelime tahmini vb. gibi bazı uç cihazların model eğitim görevlerinde uygulanır. Ancak daha büyük ölçekli dağıtık eğitim görevlerinde FL; yüksek iletişim yükü ve karmaşık koordinasyon gibi sorunlarla karşılaşır.
  • Homomorfik şifreleme: Daha az hesaplama karmaşıklığı ile bazı görevlerde başarıyla uygulanmıştır. Ancak, büyük ölçekli dağıtılmış eğitim görevlerinde, yüksek hesaplama yükü nedeniyle henüz yaygın olarak kullanılmamıştır.

Özet

Yukarıdaki yöntemlerin her birinin uygulanabilir senaryoları ve sınırlamaları vardır ve yöntemlerin hiçbiri, dağıtılmış bilgi işlem güç ağının büyük model eğitimindeki veri gizliliği sorununu tamamen çözemez.

**Ümitleri büyük olan ZK, büyük model eğitiminde veri gizliliği sorununu çözebilecek mi? **

Teorik olarak; ZKP; dağıtık hesaplamada veri gizliliğini sağlamak için kullanılabilir, bir düğümün düzenlemelere göre hesaplamalar yaptığını kanıtlamasına izin verir, ancak gerçek girdi ve çıktı verilerini ifşa etmesine gerek yoktur.

Ama aslında "ZKP", büyük modelleri eğitmek için büyük ölçekli dağıtılmış bilgi işlem güç ağı kullanma senaryosunda aşağıdaki darboğazlarla karşılaşacaktır:

  • Hesaplama ve iletişim ek yükü yukarı: Sıfır bilgi kanıtlarını oluşturmak ve doğrulamak, çok fazla bilgi işlem kaynağı gerektirir. Ayrıca ZKP; ispatın kendisini iletme ihtiyacından dolayı da büyük bir iletişim yüküne sahiptir. Bu genel giderler, büyük model eğitimi durumunda özellikle önemli hale gelebilir. Örneğin, her mini partinin hesaplanması bir kanıtın oluşturulmasını gerektiriyorsa, bu, toplam eğitim süresini ve maliyetini önemli ölçüde artırabilir.
  • ZK; Protokol Karmaşıklığı: Büyük model eğitimine uygun bir "ZKP" protokolünün tasarlanması ve uygulanması çok karmaşık olacaktır. Bu protokolün büyük ölçekli verileri ve karmaşık hesaplamaları işleyebilmesi ve olası anormal hataları işleyebilmesi gerekir.
  • Donanım ve Yazılım Uyumluluğu: ;ZKP;'nin kullanımı, tüm dağıtılmış bilgi işlem cihazlarında bulunmayabilen özel donanım ve yazılım desteği gerektirir.

Özet

Büyük modelleri eğitmek için büyük ölçekli dağıtık bilgi işlem ağları için "ZKP" kullanmak birkaç yıllık araştırma ve geliştirme gerektirecek ve ayrıca bu yönde akademik topluluktan daha fazla enerji ve kaynak gerektirecektir.

2. Dağıtılmış Bilgi İşlem Gücü—Model Akıl Yürütme

Dağıtılmış bilgi işlem gücünün diğer bir görece büyük senaryosu, model muhakemesidir. Büyük modellerin gelişim yolu hakkındaki yargımıza göre, büyük modeller yüksek bir noktayı geçtikten sonra olgunlaştıkça model eğitimine olan talep kademeli olarak yavaşlayacaktır. Çıkarım gereksinimleri buna bağlı olarak katlanarak artacaktır. büyük modellerin olgunluğu ve "AIGC" ile.

Eğitim görevleriyle karşılaştırıldığında, çıkarım görevleri genellikle daha düşük hesaplama karmaşıklığına ve daha zayıf veri etkileşimine sahiptir ve dağıtılmış ortamlar için daha uygundur.

Foresight Ventures: Merkezi Olmayan Bilgi İşlem Güç Ağı Üzerine Akılcı Bir Bakış

(NVIDIA Triton ile Power LLM çıkarımı)

1. Zorluk

İletişim Gecikmesi:

Dağıtılmış bir ortamda, düğümler arasındaki iletişim esastır. Dağıtılmış bir bilgi işlem güç ağında, düğümler tüm dünyaya yayılmış olabilir, bu nedenle ağ gecikmesi, özellikle gerçek zamanlı yanıt gerektiren akıl yürütme görevleri için bir sorun olabilir.

Model Dağıtımı ve Güncelleme:

Modelin her düğüme dağıtılması gerekir. Model güncellenirse, her düğümün modelini güncellemesi gerekir, bu da çok fazla ağ bant genişliği ve zamanı tüketir.

Veri gizliliği:

Çıkarım görevleri genellikle yalnızca girdi verileri ve modelleri gerektirmesine ve büyük miktarda ara veri ve parametre döndürmesi gerekmemesine rağmen, girdi verileri yine de kullanıcıların kişisel bilgileri gibi hassas bilgiler içerebilir.

Model Güvenliği:

Merkezi olmayan bir ağda, modelin güvenilmeyen düğümlere dağıtılması gerekir, bu da modelin sızmasına ve model mülkiyet hakları ve kötüye kullanılması sorununa yol açar. Bu aynı zamanda güvenlik ve mahremiyet endişelerini de artırabilir, hassas verileri işlemek için bir model kullanılıyorsa, düğümler modelin davranışını analiz ederek hassas bilgileri anlayabilir.

KK:

Dağıtılmış bir bilgi işlem güç ağındaki her düğüm, çıkarım görevlerinin performansını ve kalitesini garanti etmeyi zorlaştırabilecek farklı bilgi işlem yeteneklerine ve kaynaklarına sahip olabilir.

2. Fizibilite

Hesaplama karmaşıklığı:

Eğitim aşamasında, modelin tekrar tekrar yinelenmesi gerekir.Eğitim sürecinde, aktivasyon fonksiyonunun hesaplanması, kayıp fonksiyonunun hesaplanması, ağırlığın gradyanı ve güncellenmesi. Bu nedenle, model eğitiminin hesaplama karmaşıklığı yüksektir.

Çıkarım aşamasında, tahmini hesaplamak için yalnızca bir ileri geçiş gereklidir. Örneğin; GPT-3'te, giriş metnini bir vektöre dönüştürmek ve ardından modelin her katmanında (genellikle; Transformer; katmanı) ileri yayılım yapmak ve son olarak çıktı olasılık dağılımını elde etmek ve sonraki kelimeyi bu dağılıma göre üretin. GAN'larda, modelin giriş gürültü vektörüne dayalı bir görüntü oluşturması gerekir. Bu işlemler yalnızca modelin ileriye doğru yayılmasını içerir, gradyanları hesaplamaya veya parametreleri güncellemeye ihtiyaç duymaz ve düşük hesaplama karmaşıklığına sahiptir.

Veri Etkileşimi:

Çıkarım aşamasında, model genellikle eğitim sırasında büyük miktarda veri yerine tek bir girdiyi işler. Her çıkarımın sonucu, diğer girdi veya çıktıya değil, yalnızca mevcut girdiye bağlıdır, bu nedenle büyük miktarda veri etkileşimine gerek yoktur ve iletişim baskısı daha azdır.

Üretken görüntü modelini örnek olarak alırsak, görüntüler oluşturmak için GAN'lar kullandığımızı varsayarsak, modele yalnızca bir gürültü vektörü girmemiz gerekir ve ardından model karşılık gelen bir görüntü oluşturur. Bu süreçte her girdi yalnızca bir çıktı üreteceğinden çıktılar arasında bağımlılık olmadığı için veri etkileşimine gerek yoktur.

Örnek olarak "GPT-3" alınırsa, bir sonraki kelimenin her nesli yalnızca geçerli metin girişini ve modelin durumunu gerektirir ve diğer girdiler veya çıktılarla etkileşime girmesi gerekmez, bu nedenle veri etkileşimi gereksinimi de zayıftır. .

Özet

İster büyük bir dil modeli ister üretken bir görüntü modeli olsun, muhakeme görevlerinin hesaplama karmaşıklığı ve veri etkileşimi nispeten düşüktür, bu da merkezi olmayan dağıtılmış bilgi işlem güç ağları için daha uygundur, bu nedenle şu anda gördüğümüz çoğu proje tek yönde güç.

3. Proje

Dağıtılmış bir bilgi işlem güç ağının teknik eşiği ve teknik genişliği çok yüksektir ve ayrıca donanım kaynaklarının desteğini gerektirir, bu nedenle şu anda çok fazla girişim görmedik. Örneğin;Together; ve ;Gensyn.ai;'yi ele alalım:

1.Birlikte

Foresight Ventures: Merkezi Olmayan Bilgi İşlem Güç Ağı Üzerine Akılcı Bir Bakış

(Birlikte RedPajama)

Birlikte; büyük modellere odaklanan ve merkezi olmayan yapay zekaya; bilgi işlem gücü çözümlerine kendini adamış, herkesin ona her yerden erişip kullanabileceğini ümit eden bir açık kaynak şirketidir; yapay zeka. Birlikte yeni tamamlandı Lux Capital liderliğinde 20 milyon USD finansmanın tohum turu.

Birlikte; Chris, Percy, Ce tarafından ortaklaşa kuruldu; asıl amaç, büyük model eğitiminin çok sayıda üst düzey GPU; kümeler ve pahalı harcamalar gerektirmesidir ve bu kaynaklar ve model eğitim yetenekleri de birkaç yerde yoğunlaşmıştır. büyük şirketler.

Benim bakış açıma göre, dağıtılmış bilgi işlem gücü için daha makul bir girişim planı:

Adım;1. Açık kaynak modeli

Dağıtılmış bir bilgi işlem güç ağında model muhakemesini uygulamak için ön koşul, düğümlerin modeli düşük maliyetle elde edebilmesidir, yani, merkezi olmayan bilgi işlem güç ağını kullanan modelin açık kaynak olması gerekir (eğer model ilgili lisansa sahip olması gerekir. Aşağıda kullanılırsa, uygulamanın karmaşıklığını ve maliyetini artıracaktır). Örneğin, açık kaynaklı olmayan bir model olan chatgpt, merkezi olmayan bir bilgi işlem güç ağında yürütme için uygun değildir.

Bu nedenle, merkezi olmayan bir bilgi işlem güç ağı sağlayan bir şirketin görünmez bariyerinin, güçlü büyük ölçekli model geliştirme ve bakım yeteneklerine sahip olması gerektiği tahmin edilebilir. Kendi geliştirdiği ve açık kaynak güçlü bir "temel model", üçüncü taraf açık kaynak modeline bağımlılıktan bir dereceye kadar kurtulabilir ve merkezi olmayan bilgi işlem güç ağının en temel sorunlarını çözebilir. Aynı zamanda, bilgi işlem güç ağının büyük modellerin eğitimini ve akıl yürütmesini etkili bir şekilde gerçekleştirebileceğini kanıtlamak için daha elverişlidir.

Ve "Birlikte" aynı şeyi yapar. Yakın zamanda piyasaya sürülen; LLaMA;; dil modeline dayalıdır.

Adım;2. Dağıtılmış bilgi işlem gücü, model muhakemesine dayanır

Yukarıdaki iki bölümde belirtildiği gibi, model eğitimi ile karşılaştırıldığında, model çıkarımı daha düşük hesaplama karmaşıklığına ve veri etkileşimine sahiptir ve merkezi olmayan dağıtılmış bir ortam için daha uygundur.

Açık kaynak modeline dayalı olarak, Together'ın Ar-Ge ekibi "RedPajama-INCITE-3; B; ;M;2 Pro;işlemci;MacBook Pro) modellerinde daha ipeksi pürüzsüzlükte çalışan bir dizi güncelleme yaptı. Aynı zamanda, bu modelin ölçeği küçük olmasına rağmen, yeteneği aynı ölçekteki diğer modelleri aşmaktadır ve yasal, sosyal ve diğer senaryolarda pratik olarak uygulanmıştır.

Adım;3. Model eğitiminde dağıtılmış bilgi işlem gücünün uygulanması

Foresight Ventures: Merkezi Olmayan Bilgi İşlem Güç Ağı Üzerine Akılcı Bir Bakış

(Merkezi Olmayan Eğitim için İletişim Darboğazlarının Üstesinden Gelme; bilgi işlem güç ağının şematik diyagramı)

Orta ve uzun vadeli bir perspektiften bakıldığında, büyük zorluklarla ve teknik darboğazlarla karşı karşıya kalınmasına rağmen, büyük ölçekli model eğitimi için "AI" bilgi işlem gücü gereksinimlerini üstlenmek en cazip olanı olmalıdır. Birlikte; merkezi olmayan eğitimde iletişim darboğazının nasıl aşılacağını daha kuruluşunun başında ortaya koymaya başladı. Ayrıca NeurIPS 2022 ile ilgili bir makale yayınladılar: Merkezi Olmayan Eğitim için İletişim Darboğazlarını Aşmak. Temel olarak aşağıdaki yönergeleri özetleyebiliriz:

Planlama Optimizasyonu

Merkezi olmayan bir ortamda eğitim alırken, düğümler arasındaki bağlantıların farklı gecikme süreleri ve bant genişlikleri olduğundan, daha hızlı bağlantılara sahip cihazlara iletişim ağırlıklı görevler atamak önemlidir. Birlikte; belirli bir planlama stratejisinin maliyetini açıklayan bir model oluşturarak, iletişim maliyetlerini en aza indirmek ve eğitim verimini en üst düzeye çıkarmak için planlama stratejilerini daha iyi optimize edin. Ekip ayrıca, ağın 100 kat daha yavaş olmasına rağmen uçtan uca eğitim çıktısının yalnızca 1,7 ila 2,3 kat daha yavaş olduğunu da buldu. Bu nedenle, zamanlama optimizasyonu yoluyla dağıtılmış ağlar ve merkezi kümeler arasındaki boşluğu kapatmak ilginçtir.

İletişim sıkıştırma optimizasyonu

Birlikte; ileri aktivasyonlar ve geri gradyanlar için iletişim sıkıştırması önerir ve stokastik gradyan iniş yakınsaması için katı garantiler sağlayan "AQ-SGD" algoritmasını sunar. AQ-SGD; yavaş ağlarda (ör. 500 Mb/sn) büyük tabanlı modellerde ince ayar yapabilir, yalnızca merkezi ağlarda (ör. 10 Gb/sn) sıkıştırma olmadan uçtan uca eğitim performansından daha yavaştır; %31;. Ayrıca, AQ-SGD; en son gradyan sıkıştırma teknikleri (QuantizedAdam gibi) ile birleştirilerek %10 uçtan uca hız iyileştirmesi elde edilebilir.

Proje özeti

Birlikte; ekip yapılandırması çok kapsamlıdır, üyelerin hepsi çok güçlü bir akademik geçmişe sahiptir ve büyük ölçekli model geliştirme, bulut bilişimden donanım optimizasyonuna kadar sektör uzmanları tarafından desteklenmektedir. Ve "Birlikte", açık kaynaklı büyük modeller geliştirmekten, model muhakemesi kullanarak dağıtılmış bilgi işlem güç ağında boştaki bilgi işlem gücünü (örneğin; mac) test etmeye ve ardından dağıtılmış hesaplamaya kadar yol planlamasında uzun vadeli sabırlı bir duruşu gösterir. büyük model eğitiminde kuvvetlerin düzeni. — O tarz bir birikim ve seyrelme hissi var :);

Ancak şu ana kadar teşvik katmanında "Birlikte" çok fazla araştırma sonucu görmedik.Bunun teknoloji araştırma ve geliştirme kadar önemli olduğunu ve merkezi olmayan bilgi işlem güç ağının gelişimini sağlamak için kilit bir faktör olduğunu düşünüyorum.

2.Gensyn.ai

Foresight Ventures: Merkezi Olmayan Bilgi İşlem Güç Ağı Üzerine Akılcı Bir Bakış

;(Gensyn.ai)

"Birlikte" teknik yolundan, model eğitimi ve akıl yürütmede merkezi olmayan bilgi işlem güç ağının uygulama sürecini ve ilgili Ar-Ge odağını kabaca anlayabiliriz.

Göz ardı edilemeyecek bir diğer önemli nokta, bilgi işlem güç ağının teşvik katmanı/konsensüs algoritmasının tasarımıdır.Örneğin, mükemmel bir ağın sahip olması gerekenler:

  1. Faydaların yeterince çekici olduğundan emin olun;

  2. Hile önleme ve daha fazla iş için daha fazla ücret dahil olmak üzere her madencinin hak ettiği faydaları elde etmesini sağlayın;

  3. Görevlerin doğrudan ve makul bir şekilde planlandığından ve farklı düğümlere tahsis edildiğinden ve çok sayıda boşta düğüm olmayacağından veya bazı düğümlerin aşırı kalabalık olmayacağından emin olun;

  4. Teşvik algoritması basit ve etkilidir ve aşırı sistem yüküne ve gecikmesine neden olmaz;

……

Gensyn.ai'nin bunu nasıl yaptığını görün:

  • Düğüm olun

Her şeyden önce, bilgi işlem güç ağındaki "çözücü", "kullanıcı" tarafından sunulan görevleri "bid" yöntemiyle ve görevin ölçeğine ve bulunma riskine göre işleme hakkı için rekabet eder. hile yapan, çözen; belli bir miktar ipotek koyması gerekiyor.

  • doğrulamak

Çözücü; parametreleri güncellerken birden fazla kontrol noktası (işin şeffaflığını ve izlenebilirliğini sağlamak için) oluşturur ve periyodik olarak görevler hakkında kriptografik şifreleme muhakemesi, kanıtlar (iş ilerlemesinin kanıtları) oluşturur;

Çözücü işi tamamladığında ve hesaplama sonuçlarının bir kısmını ürettiğinde, protokol bir doğrulayıcı, doğrulayıcı seçecek; ayrıca belirli bir miktar taahhütte bulunacaktır (doğrulayıcının doğrulamayı dürüstçe gerçekleştirmesini sağlamak için) ve Yukarıda sağlanan; Hesaplama sonuçlarının bir kısmı.

  • Çözücü ve doğrulayıcı birbirinden uzaklaşırsa

"Merkle ağacı" tabanlı veri yapısı aracılığıyla, hesaplama sonuçlarının farklı olduğu tam konumu bulun. Doğrulama işleminin tamamı zincir üzerinde olacak ve hile yapanlar taahhüt edilen miktardan düşülecektir.

Proje özeti

Teşvik ve doğrulama algoritmasının tasarımı; Gensyn.ai'nin doğrulama işlemi sırasında tüm bilgi işlem görevinin tüm sonuçlarını tekrar oynatmasına gerek duymaz, ancak sağlanan kanıtlara göre sonuçların yalnızca bir kısmını kopyalayıp doğrulaması gerekir, doğrulama verimliliğini büyük ölçüde artıran verimlilik. Aynı zamanda, düğümlerin hesaplama sonuçlarının yalnızca bir kısmını depolaması gerekir, bu da depolama alanı ve bilgi işlem kaynaklarının tüketimini azaltır. Ek olarak, potansiyel hile düğümleri, doğrulama için hangi parçaların seçileceğini tahmin edemez, dolayısıyla bu da hile riskini azaltır;

Bu farklılıkları doğrulama ve hilecileri keşfetme yöntemi, tüm hesaplama sonucunu karşılaştırmadan ("Merkle ağacının" kök düğümünden başlayarak ve adım adım ilerleyerek) hesaplama sürecindeki hatayı hızlı bir şekilde bulabilir. büyük ölçekli bilgi işlem görevleriyle uğraşmak.

Kısacası, Gensyn.ai'nin teşvik/doğrulama katmanının tasarım hedefi: basit ve verimli. Ancak, şu anda teorik düzeyle sınırlıdır ve özel uygulama aşağıdaki zorluklarla karşılaşabilir:

  • Ekonomik modelde, katılımcılar için çok yüksek bir eşik belirlemeden dolandırıcılığı etkili bir şekilde önleyebilmek için uygun parametrelerin nasıl ayarlanacağı.
  • Teknik uygulama açısından, etkili bir periyodik şifreleme muhakeme kanıtının nasıl formüle edileceği de ileri düzey kriptografi bilgisi gerektiren karmaşık bir konudur.
  • Görev dağılımı açısından, yalnızca bilgi işlem güç ağının görevleri nasıl seçtiği ve farklı "çözücülere" nasıl atadığı da makul bir zamanlama algoritmasının desteğini gerektirir. "teklif" mekanizması, Örneğin, güçlü bilgi işlem gücüne sahip düğümler, daha büyük ölçekli görevlerin üstesinden gelebilir, ancak teklife katılmayabilir (burada, düğüm kullanılabilirliği için teşvik konusu söz konusudur), düşük işlem gücüne sahip düğümler, teklif verebilir. en yüksektir ancak bazı Karmaşık büyük ölçekli bilgi işlem görevlerini işlemek için uygun değildir.

4. Gelecek hakkında düşünmek

Merkezi olmayan bir bilgi işlem güç ağına kimin ihtiyaç duyduğu sorusu doğrulanmadı. Boştaki bilgi işlem gücünün, büyük bilgi işlem gücü kaynakları gerektiren büyük ölçekli model eğitimine uygulanması açık bir şekilde en fazla olanıdır; anlamlandırmak aynı zamanda en yaratıcı alandır. Ama aslında, iletişim ve mahremiyet gibi darboğazlar bizi yeniden düşündürmeli:

Büyük modellerin merkezi olmayan eğitimi için gerçekten umut var mı?

Bu konsensüsün dışına atlarsanız, "en makul iniş senaryosu", merkezi olmayan bilgi işlem gücünü küçük yapay zeka modellerinin eğitimine uygulamak büyük bir senaryo mudur? Teknik açıdan, modelin boyutu ve mimarisi nedeniyle mevcut sınırlayıcı faktörler çözüldü.Aynı zamanda, pazar açısından, büyük modellerin eğitiminin her zaman çok büyük olacağını hissettik. şimdi geleceğe, ama küçük; AI; model Pazar çekici değil mi?

Öyle düşünmüyorum. Büyük modellerle karşılaştırıldığında, küçük "AI" modellerinin devreye alınması ve yönetilmesi daha kolaydır ve işlem hızı ve bellek kullanımı açısından daha verimlidir. Çok sayıda uygulama senaryosunda, kullanıcılar veya şirketler, büyük dil modelleri, ancak yalnızca çok ince taneli bir tahmin hedefiyle ilgilenir. Bu nedenle, küçük "AI" modelleri çoğu senaryoda hala daha uygun bir seçenektir ve büyük modellerin "fomo" dalgasında zamanından önce göz ardı edilmemelidir.

Referans

Öngörü Girişimleri Hakkında

Foresight Ventures, önümüzdeki birkaç on yılda kripto para biriminin yenilik sürecine bahis yapıyor ve yönetimi altında birden fazla fonu yönetiyor: VC; fon, ikincil aktif yönetim fonu, çoklu strateji; FOF, özel amaçlı; S; "Foresight Secondary Fund l" fonu , toplam varlıklar Yönetim ölçeği 4 milyon ABD dolarını aşıyor. Foresight Ventures, "Benzersiz, Bağımsız, Agresif, Uzun Vadeli" kavramına bağlı kalmakta ve güçlü ekolojik güçleri ile projelere kapsamlı destek sağlamaktadır. Ekibi, Sequoia China, CICC, Google, Bitmain vb. dahil olmak üzere en iyi finans ve teknoloji şirketlerinden kıdemli personelden gelmektedir.

İnternet sitesi:;

**Sorumluluk Reddi: Foresight Ventures; tüm makaleler yatırım tavsiyesi olarak tasarlanmamıştır. Yatırım risklidir, lütfen kişisel risk toleransınızı değerlendirin ve yatırım kararlarını ihtiyatlı bir şekilde verin. **

View Original
The content is for reference only, not a solicitation or offer. No investment, tax, or legal advice provided. See Disclaimer for more risks disclosure.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
  • Pin