Децентралізація AI тренування: шлях до святого грааля: від технічних досліджень до практичної реалізації

2025-07-13 19:35:38

Святий Грааль Crypto AI: передові дослідження децентралізованого навчання

У повній ціннісній ланцюгу ШІ навчання моделей є найресурсоємнішою, з найвищими технологічними бар'єрами стадією, яка безпосередньо визначає межу можливостей моделі та реальний ефект застосування. У порівнянні з легковаговими викликами етапу висновку, процес навчання потребує постійних витрат великомасштабних обчислювальних потужностей, складних процесів обробки даних та підтримки високоефективних оптимізаційних алгоритмів, що робить його справжньою "важкою промисловістю" системи ШІ. З точки зору архітектурних парадигм, способи навчання можна поділити на чотири категорії: централізоване навчання, розподілене навчання, федеративне навчання та децентралізоване навчання, яке є основною темою цієї статті.

Централізоване навчання є найбільш поширеним традиційним способом, який виконується єдиною установою в локальному кластері високої продуктивності, де всі етапи навчання - від апаратного забезпечення, програмного забезпечення нижнього рівня, системи планування кластеру до всіх компонентів навчальної рамки - координуються єдиною системою управління. Така глибока співпраця архітектури дозволяє досягати оптимальної ефективності у спільному використанні пам'яті, синхронізації градієнтів та механізмах відмовостійкості, що робить його дуже придатним для навчання великих моделей, таких як GPT, Gemini, має переваги високої ефективності та контрольованих ресурсів, але в той же час стикається з проблемами монополії даних, бар'єрів ресурсів, споживання енергії та ризиків єдиної точки.

Розподілене навчання є основним способом навчання великих моделей сьогодні, його суть полягає в розподілі завдань навчання моделі на кілька машин для спільного виконання, щоб подолати обмеження обчислень і зберігання на одному комп'ютері. Хоча фізично має "дистрибутивні" характеристики, загалом все ще контролюється централізованими організаціями для управління та синхронізації, зазвичай працює в середовищі високошвидкісної локальної мережі, через технологію високошвидкісної міжмашинної зв'язки NVLink, головний вузол єдина координує кожне підзавдання. Основні методи включають:

Паралельність даних: кожен вузол навчає різні дані, параметри діляться, потрібно узгодити ваги моделі
Паралелізм моделі: розгортання різних частин моделі на різних вузлах для досягнення сильної масштабованості
Паралельні канали: поетапне серійне виконання, підвищення пропускної здатності
Тензорне паралельне обчислення: детальне розбиття матричних обчислень, підвищення паралельного масштабу

Розподілене навчання є комбінацією "централізованого контролю + розподіленого виконання", аналогічно тому, як один і той же керівник дистанційно керує співпрацею кількох "офісних" працівників для виконання завдання. Наразі майже всі основні великі моделі навчаються цим способом.

Децентралізація тренування означає більш відкритий та стійкий до цензури шлях у майбутнє. Його основна характеристика полягає в тому, що кілька недовірливих вузлів співпрацюють для виконання навчальних завдань без центрального координатора, зазвичай через протоколи, які керують розподілом завдань та співпрацею, та за допомогою механізмів криптостимулювання, які забезпечують чесність внесків. Основні виклики, з якими стикається ця модель, включають:

Гетерогенні пристрої та проблеми з розподілом: висока складність координації гетерогенних пристроїв, низька ефективність розподілу завдань
Проблема з ефективністю зв'язку: нестабільність мережевої комунікації, помітна проблема синхронізації градієнтів
Відсутність довіреного виконання: відсутність довіреного середовища виконання ускладнює перевірку того, чи дійсно вузол бере участь у обчисленнях.
Відсутність єдиної координації: немає центрального диспетчера, розподіл завдань, механізм відкату помилок складний

Децентралізація тренування можна зрозуміти як: група глобальних волонтерів, які кожен вносять свої обчислювальні потужності для спільного тренування моделі, але "справді життєздатне велике децентралізоване тренування" все ще є системною інженерною проблемою, яка охоплює такі аспекти, як системна архітектура, комунікаційні протоколи, криптографічна безпека, економічні механізми, верифікація моделей та інші, але питання "спільної ефективності + стимулювання чесності + правильності результатів" все ще перебуває на ранній стадії прототипування.

Федеративне навчання, як перехідна форма між розподіленим та Децентралізація, акцентує увагу на локальному збереженні даних і централізованій агрегації параметрів моделі, що підходить для сценаріїв, які акцентують на дотриманні конфіденційності. Федеративне навчання має інженерну структуру розподіленого навчання та локальні кооперативні можливості, одночасно володіючи перевагами розподілених даних у процесі Децентралізація, але все ж залежить від надійної координуючої сторони і не має повністю відкритих та антицензурних характеристик. Це можна розглядати як "контрольовану Децентралізація" у сценаріях, що дотримуються конфіденційності, з відносно помірними вимогами до навчальних завдань, структур довіри та комунікаційних механізмів, що робить його більш придатним для промислових перехідних архітектур.

Децентралізація тренувань: межі, можливості та реальні шляхи

З точки зору навчальної парадигми, децентралізоване навчання не підходить для всіх типів завдань. У деяких сценах, через складну структуру завдання, надзвичайно високі вимоги до ресурсів або великі труднощі в співпраці, воно природно не підходить для ефективного виконання між гетерогенними, недовіреними вузлами. Наприклад, навчання великих моделей часто залежить від високої відеопам'яті, низької затримки та високої пропускної здатності, що ускладнює ефективне розподіл і синхронізацію в відкритих мережах; завдання, які обмежені сильними вимогами до конфіденційності даних і суверенітету, обмежені юридичними і етичними рамками, не можуть бути відкритими для спільного використання; а завдання, що не мають основи для співпраці, не мають зовнішніх стимулів для участі. Ці межі разом становлять реальні обмеження сучасного децентралізованого навчання.

Але це не означає, що децентралізоване навчання є псевдопроблемою. Насправді, у типах завдань, які є легкими за структурою, легко паралельними та можуть бути стимульованими, децентралізоване навчання демонструє чіткі перспективи застосування. Сюди входять, але не обмежуються: LoRA тонка настройка, завдання після навчання на основі поведінки, навчання та маркування даних з краудсорсингом, навчання малих базових моделей з контрольованими ресурсами, а також сценарії кооперативного навчання з участю крайових пристроїв. Ці завдання загалом мають високу паралельність, низьку зв’язаність і толерантність до неоднорідних обчислювальних потужностей, що робить їх дуже підходящими для кооперативного навчання через P2P-мережі, протокол Swarm, розподілені оптимізатори та інші методи.

Децентралізація тренування класичних проєктів аналіз

Наразі в галузі децентралізованого навчання та федеративного навчання ключовими блокчейн-проектами є Prime Intellect, Pluralis.ai, Gensyn, Nous Research та Flock.io. З точки зору технічних інновацій та складності інженерної реалізації, Prime Intellect, Nous Research та Pluralis.ai пропонують багато оригінальних досліджень у системній архітектурі та алгоритмічному дизайні, представляючи сучасні теоретичні напрямки; в той час як реалізаційні шляхи Gensyn та Flock.io відносно чіткі, вже видно початкові інженерні досягнення. У цій статті буде поетапно проаналізовано основні технології та інженерні архітектури цих п'яти проектів, а також додатково розглянуто їх відмінності та взаємодоповнюючі зв'язки в децентралізованій системі AI-навчання.

Prime Intellect: Тренувальна траєкторія, що підлягає перевірці, посилена навчанням, кооперативна мережа попередника

Prime Intellect прагне створити бездоверчі мережі навчання AI, щоб будь-хто міг брати участь у навчанні та отримувати надійні винагороди за свої обчислювальні внески. Prime Intellect сподівається створити систему децентралізованого навчання AI з трьох основних модулів: PRIME-RL + TOPLOC + SHARDCAST, яка буде мати перевірюваність, відкритість та повний механізм стимулювання.

01、Структура протоколу Prime Intellect та цінність ключових модулів

02、Детальний аналіз ключових механізмів тренування Prime Intellect

#PRIME-RL:Архітектура задач асинхронного підкріплювального навчання з декомпозицією

PRIME-RL є фреймворком для моделювання завдань та виконання, спеціально розробленим Prime Intellect для децентралізованих навчальних сценаріїв, призначеним для гетерогенних мереж і асинхронної участі. Він використовує підкріплювальне навчання як пріоритетний об'єкт адаптації, структурно декомпозуючи процеси навчання, інференції та завантаження ваг, що дозволяє кожному навчальному вузлу незалежно виконувати цикли завдань локально та співпрацювати через стандартизовані інтерфейси з механізмами валідації та агрегації. У порівнянні з традиційними процесами навчання з наглядом, PRIME-RL більше підходить для реалізації гнучкого навчання в середовищах без централізованого контролю, що знижує складність системи та закладає основу для підтримки паралельного виконання багатьох завдань і еволюції стратегій.

#TOPLOC:Легка перевірка поведінки навчання

TOPLOC є основним механізмом перевірки навчання, запропонованим Prime Intellect, що використовується для визначення того, чи дійсно вузол завершив ефективне навчання стратегії на основі спостережуваних даних. На відміну від важких рішень, таких як ZKML, TOPLOC не покладається на повторний розрахунок всієї моделі, а завершує верифікацію легковажної структури шляхом аналізу локальної узгодженості траєкторій між "послідовністю спостережень↔оновлення стратегії". Вперше він перетворює траєкторії поведінки під час навчання на об'єкти, що можуть бути перевірені, що є ключовою інновацією для реалізації ненадійного розподілу навчальних винагород, забезпечуючи можливий шлях для побудови аудиторських та стимулюючих децентралізованих мереж співпраці.

#SHARDCAST: Асинхронна агрегація ваг та протокол поширення

SHARDCAST є протоколом вагового поширення та агрегації, розробленим Prime Intellect, оптимізованим для асинхронних, обмежених по пропускній здатності та з змінним станом вузлів реальних мережевих середовищ. Він поєднує механізм поширення gossip з локальною синхронізацією, що дозволяє кільком вузлам безперервно подавати часткові оновлення в умовах асинхронності, досягаючи поступової конвергенції ваг і еволюції з кількома версіями. На відміну від централізованих або синхронних методів AllReduce, SHARDCAST значно підвищує масштабованість та стійкість до збоїв децентралізованого навчання, є основою для побудови стабільного консенсусу ваг і безперервної ітерації навчання.

#OpenDiLoCo:Рідка асинхронна комунікаційна рамка

OpenDiLoCo є незалежною реалізацією та відкритим виходом оптимізаційної рамки зв'язку, розробленою командою Prime Intellect на основі концепції DiLoCo, запропонованої DeepMind, спеціально розробленою для вирішення таких викликів, як обмежена пропускна здатність, гетерогенність пристроїв та нестабільність вузлів, які часто виникають під час децентралізованого навчання. Його архітектура базується на паралельній обробці даних, шляхом побудови рідкісних топологічних структур, таких як кільце, розширювач, малосвіт, що уникає високих витрат на комунікацію глобальної синхронізації, і для завершення спільного навчання моделі покладається лише на сусідні вузли. Поєднуючи асинхронне оновлення та механізм відновлення після збоїв, OpenDiLoCo дозволяє споживчим GPU та крайовим пристроям стабільно брати участь у навчальних завданнях, значно підвищуючи можливість участі у глобальному співпраці з навчання, є однією з ключових комунікаційних інфраструктур для побудови децентралізованої навчальної мережі.

#PCCL:Бібліотека спільної комунікації

PCCL є легковаговою комунікаційною бібліотекою, розробленою Prime Intellect для децентралізованого AI-тренувального середовища, що має на меті вирішення адаптаційних вузьких місць традиційних комунікаційних бібліотек в гетерогенних пристроях та мережах з низькою пропускною здатністю. PCCL підтримує рідкісну топологію, стиснення градієнтів, синхронізацію з низькою точністю та відновлення з місця зупинки, може працювати на споживчих GPU та нестабільних вузлах, є базовим компонентом, що підтримує асинхронну комунікаційну здатність протоколу OpenDiLoCo. Він значно покращує терпимість до пропускної здатності тренувальних мереж та сумісність пристроїв, прокладаючи "остання миля" комунікаційної основи для створення справді відкритих, бездостовірних кооперативних тренувальних мереж.

03、Prime Intellect стимулююча мережа та розподіл ролей

Prime Intellect побудував мережу тренувань, яка не потребує дозволу, є перевірною та має економічні стимули, що дозволяє будь-кому брати участь у завданнях і отримувати винагороди на основі реального внеску. Протокол працює на основі трьох основних ролей:

Ініціатор завдання: визначити навчальне середовище, початкову модель, функцію винагороди та критерії валідації
Навчальні вузли: виконання локального навчання, подання оновлень ваг та спостережуваних траєкторій
Вузли верифікації: використовують механізм TOPLOC для перевірки достовірності навчальної поведінки та беруть участь у розрахунку винагороди та агрегації стратегій

Ядро процесу угоди включає публікацію завдань, навчання вузлів, перевірку траєкторій, агрегацію ваг та виплату винагород, формуючи стимулюючий замкнутий цикл навколо "реальної навчальної поведінки".

04、INTELLECT-2: Перший перевіряємий децентралізований навчальний модель.

Prime Intellect у травні 2025 року випустив INTELLECT-2, це перша у світі велика модель зміцнення навчання, створена за допомогою асинхронних, без довіри, децентралізованих вузлів співпраці, з параметрами обсягом 32B. Модель INTELLECT-2 була спільно навчена за допомогою більше 100 гетерогенних вузлів GPU, розподілених по трьох континентах, з використанням повністю асинхронної архітектури, тривалість навчання перевищила 400 годин, що демонструє доцільність і стабільність асинхронної кооперативної мережі. Ця модель не тільки є проривом у продуктивності, але й першим системним втіленням парадигми "навчання - це консенсус", запропонованої Prime Intellect. INTELLECT-2 інтегрує ключові модульні протоколи, такі як PRIME-RL, TOPLOC та SHARDCAST, що знаменує собою перше досягнення відкритості, верифікації та економічних стимулів у процесі навчання децентралізованої навчальної мережі.

У плані продуктивності INTELLECT-2 базується на QwQ-32B, пройшов спеціалізоване RL-тренування в коді та математиці, займаючи перші позиції серед поточних відкритих RL-моделей для доопрацювання.

PRIME3.28%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

22 лайків

Нагородити
22
5
Поділіться

Прокоментувати

0/400

PerennialLeek