Tüm alpaka ailesini yenen yeni Meta AI kendi kendine hizalama yöntemi, çok az manuel etiketleme verisi gerektirir

Orijinal kaynak: Qubit

Verileri manuel olarak etiketlemek acil mi?

Mata'nın yeni yöntemi, yalnızca az miktarda çekirdek veriyle yüksek kaliteli bir talimat izleyen (talimat izleyen) dil modeli oluşturur.

Başka bir deyişle, büyük dil modelleri, ince ayar için büyük miktarda insan tarafından etiketlenmiş yönerge verisi gerektirir, ancak şimdi model, web derlemindeki etiketlenmemiş metinden yönergeleri otomatik olarak çıkarabilir.

Ardından, kendi ürettiğiniz ve sattığınızla karşılaştırılabilir eğitim için kendi ürettiğiniz talimat verilerini kullanın.

Ve bu yöntemle eğitilen model, Alpaca kıyaslama testinde açık kaynak alpaka ve onun türev model serisini geride bırakıyor.

LeCun, çalışmanın modelin kendi kendine hizalanması açısından sansasyonel olduğunu tweetledi:

Bir netizenin cümlesiyle özetlemek gerekirse:

Alpaka kendini eğitmeye başladı.

İki cümle durumu şöyle özetliyor:

Başlangıçta gerekli talimat>yanıt veri seti (manuel etiketleme gerektirir), şimdi sadece yanıt> talimatı için bir "ters model" eğitmek yeterlidir. Herhangi bir metin, bir talimat veri setine serbestçe dönüştürülebilir.

Başka bir netizen bir ruh işkencesi yayınladı:

Bunun süper zekaya giden yol gibi göründüğünü düşünen tek kişi ben miyim? Ek yüksek kaliteli harici veriler olmadan daha akıllı hale gelen LLM'ler elde edebiliyorsanız, bu kendi kendini geliştiren kapalı bir sistemdir. Belki de sinyali sağlamak için sadece bir takviyeli öğrenme sistemine ihtiyaç vardır ve ardından LLM'nin kendi yinelemeleri gerisini halledebilir.

Alpaka: Bir balinayı eğitmek için verileri kullandım

Bu ölçeklenebilir yeni yönteme Talimat Geri Çevirisi adı verilir ve Mata bu yöntemle eğitilen modeli-Kambur (kambur balina, kambur balina olarak da bilinir) olarak adlandırdı.

(Araştırmacılar, adın devenin sırtıyla olan ilişkisinden dolayı verildiğini ve balinanın boyutunun daha büyük olmasının, modelin daha büyük bir ölçeğine karşılık geldiğini söylediler)

Bir Kambur Eğitim adımı, az miktarda etiketlenmiş veri ile başlamak ve aday eğitim verilerini oluşturmak için etiketlenmemiş metne karşılık gelen talimatları oluşturmak için dil modelini kullanmaktır. Ardından, veri kalitesini değerlendirmek ve yeniden eğitim için yüksek kaliteli verileri seçmek için modeli kullanın. İşlem daha sonra modeli daha da geliştirmek için tekrarlanır.

Yukarıdaki şekilde gösterildiği gibi, hazırlanması gereken "malzemeler" şunlardır:

  • Temel model - LLaMa
  • Open Assistant veri kümesinden 3200 örnek içeren bir çekirdek veri (Temel Veri), her örnek bir talimat ve ilgili çıktı içerir.
  • ClueWeb külliyatından, tekilleştirilmiş, filtrelenmiş ve potansiyel olarak düşük kaliteli paragraflar olan 502 bin etiketlenmemiş metin (Etiketlenmemiş Veri) silindi.

Etiketli örnekler ve derlem kaynakları mevcuttur ve sonraki adım Kendini büyütme aşamasıdır.

Araştırmacılar, talimat tahmin modelini elde etmek için temel model LLaMa'da çekirdek verilerle ince ayar yaptı. Bu talimat tahmin modeli daha sonra etiketlenmemiş metin için bir aday talimat çıkarmak için kullanılır. Ardından, yukarıdaki şekilde Artırılmış Veri A olan bir aday geliştirilmiş eğitim verisi olarak aday talimatı ve metni (talimat-çıktı çifti) birleştirin.

Bununla birlikte, A'nın verilerini doğrudan eğitim için kullanmak mümkün değildir, çünkü etiketlenmemiş metnin kendisinin kalitesi eşit değildir ve oluşturulan aday yönergeleri de gürültülüdür.

Bu nedenle, modeli veri kalitesini tahmin etmek için kullanma ve eğitim için yüksek kaliteli örnekler seçme gibi önemli Kendi kendini iyileştirme adımları gereklidir.

Spesifik olarak, araştırmacılar aday verileri yalnızca çekirdek veriler üzerinde ince ayarlı bir talimat modeli kullanarak puanladılar. Tam puan beş puan olup, daha yüksek puan alanlar bir sonraki tura aday veri olarak seçilecektir.

Araştırmacılar, model yönergelerinin tahmin kalitesini artırmak için modeli aday verilerle yinelemeli eğitti ve yinelemeli eğitimde veri kalitesi giderek daha iyi hale gelecek.

Ek olarak, modelde ince ayar yapmak için çekirdek verileri ve büyütme verilerini birleştirirken, bu iki veri kaynağı arasında ayrım yapmak için farklı sistem ipucu etiketleri de kullanırlar:

  • Çekirdek veri kullanım ipuçları "Bir AI Asistanı tarzında yanıtlayın."
  • "Web arama bilgisiyle yanıtlayın" istemini kullanarak verileri filtreleyin.

İki yinelemeden sonra nihai model fırından yeni çıkmıştır.

İki tür egzersiz verisini birleştirin: 1+1>2

Araştırmacıların analiz sonuçlarına bir göz atalım:

** **###### Çekirdek veriler ve geliştirilmiş veriler için talimat çeşitliliği. İç daire ortak kök fiildir ve dış daire ona karşılık gelen ortak isimdir.

Yukarıdaki şekil, %8 tohum verisi ve %13 geliştirilmiş veri istatistikleri ile talimat çeşitliliğini göstermektedir.

Geliştirilmiş veri çeşitliliğinin uzun kuyruk kısmında daha güçlü olduğu sezgisel olarak görülebilir ve geliştirilmiş veri, tohum verilerinde görünmeyen türleri tamamlayarak mevcut yapay olarak etiketlenmiş çekirdek verileri tamamlar.

İkincisi, araştırmacılar üç artırılmış veri setini karşılaştırdılar: Artırılmış veriler, tümü (öz yönetim yok),

, daha az veri ancak daha yüksek kalite

Deneyler, veri setinin küçülmesine rağmen, eğitim verisinin kalitesinin iyileştirilmesiyle modelin performansının da arttığını gözlemlemiştir.

** **###### Farklı veri boyutları ve niteliklerinin kendi kendini büyütme verilerini değerlendirmek için kendi kendini filtrelemeyi kullanın. Y ekseni, belirli bir veri boyutu ve kalitesiyle LLaMa 7B'nin ince ayarını yaparken text-davinci-003 ile kazanma oranını temsil eder.

(text-davinci-003, Takviyeli öğrenme kullanılarak insanlar tarafından yazılan talimat verileri, çıktılar, model yanıtları ve insan tercihleri üzerinde ince ayarı yapılmış modeli izleyen GPT-3 tabanlı bir öğretim)

Son olarak, Alpaca liderlik tablosundaki sonuçlara bir göz atalım. Kambur, damıtılmış verilere dayanmadan diğer yöntemlerden önemli ölçüde daha iyi performans gösterir ve özel modellerle açığı kapatır.

Damıtılmamış (Damıtılmamış), herhangi bir denetim biçimi olarak herhangi bir harici modele dayanmayan bir eğitim modelini ifade eder; Damıtılmış (Damıtılmış), eğitim sürecinde daha güçlü bir harici modelin tanıtılmasını ifade eder, örneğin: harici bir modelden damıtılmış verileri kullanma; Tescilli, tescilli veriler ve teknikler kullanılarak eğitilen modelleri ifade eder.

** **###### text-davinci-003'ün kazanma oranı ile karşılaştırıldığında

Açık kaynak modelleri LIMA 65B, Guanaco 65B, Falcon-Instruct 40B ve tescilli davinci-003, Claude modelleri ile karşılaştırıldığında, Humpback'in performansı da insan tercihleriyle daha uyumludur.

Ek olarak, araştırmacılar yöntemin sınırlamalarına dikkat çekti:

Eğitim için kullanılan metin verileri bir web derleminden geldiğinden, ince ayarlı model web verilerinin yanlılığını artırabilir. Temel modelle karşılaştırıldığında, ince ayarlı model önyargıyı tespit etme doğruluğunu artırır. Ancak bu, sorunun tamamen çözüleceği anlamına gelmez.

Portal: kağıt bağlantı)

Referans bağlantısı: [1] [2] [3]

View Original
The content is for reference only, not a solicitation or offer. No investment, tax, or legal advice provided. See Disclaimer for more risks disclosure.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
  • Pin
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)