Децентрализация AI тренировки: путь к святому граалю от технических исследований до практической реализации

2025-07-13 19:35:38

Святой Грааль Crypto AI: передовые исследования децентрализованного обучения

В полной价值链 AI обучение моделей является этапом с наибольшими затратами ресурсов и самым высоким техническим порогом, который напрямую определяет пределы возможностей модели и фактическую эффективность применения. В отличие от легковесных вызовов на этапе вывода, процесс обучения требует постоянных вложений в масштабные вычислительные мощности, сложные процессы обработки данных и поддержку высокоинтенсивных алгоритмов оптимизации, что делает его настоящей "тяжелой промышленностью" в строительстве AI систем. С точки зрения архитектурных парадигм, методы обучения можно разделить на четыре категории: централизованное обучение, распределенное обучение, федеративное обучение и децентрализованное обучение, на котором акцентируется внимание в данной статье.

Централизованное обучение является наиболее распространенным традиционным методом, при котором весь процесс обучения выполняется одной организацией на локальном высокопроизводительном кластере, где все компоненты, начиная от аппаратного обеспечения, программного обеспечения нижнего уровня, системы распределения кластера и заканчивая обучающей рамкой, координируются единой управляющей системой. Эта архитектура глубокой координации обеспечивает оптимальную эффективность совместного использования памяти, синхронизации градиентов и механизмов отказоустойчивости, что делает ее очень подходящей для обучения крупных моделей, таких как GPT и Gemini, обладая преимуществами высокой эффективности и контролируемых ресурсов, однако также существует проблема монополии данных, барьеров для доступа к ресурсам, потребления энергии и рисков единой точки отказа.

Распределённое обучение является основным способом обучения современных больших моделей. Его суть заключается в разбиении задач обучения модели и распределении их на несколько машин для совместного выполнения, чтобы преодолеть ограничения по вычислениям и хранению данных на одной машине. Несмотря на то, что в физическом плане он обладает "Децентрализация" характеристиками, в целом он по-прежнему контролируется и координируется централизованным учреждением, часто работает в среде высокоскоростной локальной сети, используя технологии высокоскоростной межсоединительной шины NVLink для единой координации подзадач основным узлом. Основные методы включают:

Параллельные данные: каждый узел обучает разные данные, параметры делятся, необходимо соответствие весам модели
Модельное параллелизм: развертывание различных частей модели на разных узлах для достижения высокой масштабируемости
Параллельные каналы: поэтапное последовательное выполнение, повышение пропускной способности
Тензорное параллелизм: детализированное деление матричных вычислений, повышение уровня параллелизма

Распределённое обучение — это комбинация "централизованного контроля + распределённого выполнения", аналогично тому, как один и тот же начальник удаленно управляет сотрудниками нескольких "офисов", чтобы совместно выполнять задачи. В настоящее время почти все основные модели обучаются таким образом.

Децентрализация обучения представляет собой более открытый и устойчивый к цензуре путь в будущее. Его ключевая характеристика заключается в том, что несколько недоверяющих друг другу узлов совместно выполняют задачи обучения без централизованного координатора, обычно с помощью протоколов для распределения задач и сотрудничества, а также с помощью механизмов криптостимулов для обеспечения честности вкладов. Основные вызовы, с которыми сталкивается эта модель, включают:

Гетерогенность устройств и сложности разделения: высокая сложность координации гетерогенных устройств, низкая эффективность разделения задач
Бутылочное горлышко в эффективности связи: нестабильная сетевое соединение, явно выраженное бутылочное горлышко в синхронизации градиентов
Отсутствие доверительного выполнения: отсутствие доверенной вычислительной среды затрудняет проверку настоящего участия узлов в вычислениях.
Недостаток единой координации: нет центрального диспетчера, сложное распределение задач и механизм отката ошибок

Децентрализация тренировки можно понимать как: группа глобальных волонтеров, которые совместно вносят вычислительную мощность для тренировки модели, но "действительно осуществимая масштабная децентрализация тренировки" все еще является системной инженерной задачей, охватывающей такие аспекты, как системная архитектура, коммуникационные протоколы, безопасность криптографии, экономические механизмы, валидация моделей и т.д., но вопрос о том, можно ли "совместно эффективно + стимулировать честность + получить правильный результат", все еще находится на стадии раннего прототипирования.

Федеративное обучение как переходная форма между распределенной и Децентрализация, подчеркивает локальное хранение данных и централизованную агрегацию параметров модели, подходит для сценариев, акцентирующих внимание на соблюдении конфиденциальности. Федеративное обучение обладает инженерной структурой распределенного обучения и возможностями локальной кооперации, одновременно обладая преимуществами распределенных данных для обучения, но по-прежнему зависит от доверенной координирующей стороны и не имеет полностью открытых и антикоррупционных характеристик. Это можно рассматривать как "контролируемую Децентрализация" в условиях соблюдения конфиденциальности, которая относительно мягкая по своим задачам обучения, структуре доверия и механизмам связи, что делает ее более подходящей в качестве переходной архитектуры для промышленного развертывания.

Децентрализация тренировки: границы, возможности и реальные пути

С точки зрения парадигмы обучения, Децентрализация обучения не подходит для всех типов задач. В некоторых сценариях, из-за сложной структуры задач, высоких требований к ресурсам или трудности сотрудничества, она естественно не подходит для эффективного выполнения на гетерогенных, децентрализованных узлах. Например, обучение больших моделей часто зависит от высокой видеопамяти, низкой задержки и высокой пропускной способности, что затрудняет эффективное разбиение и синхронизацию в открытой сети; задачи с сильными ограничениями по конфиденциальности данных и суверенитету ограничены юридическими нормами и этическими рамками, что делает невозможным открытое совместное использование; а задачи, лишенные основы для сотрудничества, не имеют внешнего стимула для участия. Эти границы вместе составляют реальные ограничения текущего Децентрализованного обучения.

Но это не означает, что Децентрализация тренировки является ложной проблемой. На самом деле, в задачах с легкой структурой, легкой параллельностью и возможностью стимула, Децентрализация тренировки демонстрирует явные перспективы применения. Включая, но не ограничиваясь: LoRA дообучение, задачи после обучения с выравниванием поведения, задачи по обучению и аннотации данных с краудсорсингом, обучение малых базовых моделей с контролируемыми ресурсами, а также сценарии совместного обучения с участием периферийных устройств. Эти задачи обычно обладают высокой параллельностью, низкой связанностью и терпимостью к гетерогенной вычислительной мощности, что делает их очень подходящими для совместного обучения через P2P сети, протокол Swarm, распределенные оптимизаторы и другие способы.

Децентрализация тренировка классических проектов анализ

В настоящее время в области децентрализации обучения и федеративного обучения представительные блокчейн-проекты включают Prime Intellect, Pluralis.ai, Gensyn, Nous Research и Flock.io. С точки зрения технической инновации и сложности реализации, Prime Intellect, Nous Research и Pluralis.ai предложили много оригинальных исследований в области системной архитектуры и проектирования алгоритмов, представляя текущие передовые направления теоретических исследований; в то время как пути реализации Gensyn и Flock.io относительно ясны, уже можно видеть начальный прогресс в инженерной реализации. В данной статье будут последовательно проанализированы ключевые технологии и инженерные архитектуры, стоящие за этими пятью проектами, а также дальнейшее обсуждение их различий и взаимодополняющих отношений в системе децентрализованного ИИ-обучения.

Prime Intellect: Тренировочная траектория проверяемой усиленной обучающей кооперативной сети пионеров

Prime Intellect стремится создать сеть обучения ИИ, не требующую доверия, позволяя любому участвовать в обучении и получать надежные вознаграждения за свои вычислительные вклады. Prime Intellect надеется создать систему децентрализованного обучения ИИ с полной верификацией, открытостью и механизмом стимулов с помощью трех ключевых модулей: PRIME-RL + TOPLOC + SHARDCAST.

01、Структура и ключевые модули протокола Prime Intellect

02, Подробное объяснение ключевых механизмов тренировки Prime Intellect

#PRIME-RL: Архитектура задач декомпозируемого асинхронного обучения с подкреплением

PRIME-RL является фреймворком для моделирования задач и их выполнения, разработанным Prime Intellect для Децентрализация тренировочных сценариев, специально созданным для гетерогенных сетей и асинхронного участия. Он использует обучение с подкреплением в качестве приоритетного объекта адаптации, структурно декомпозируя процессы обучения, вывода и загрузки весов, что позволяет каждому узлу обучения независимо выполнять циклы задач на локальном уровне и взаимодействовать через стандартизированные интерфейсы с механизмами проверки и агрегирования. В отличие от традиционных процессов обучения с учителем, PRIME-RL лучше подходит для реализации гибкого обучения в средах без централизованного управления, что снижает сложность системы и закладывает основу для поддержки параллельных задач и эволюции стратегий.

#TOPLOC:Легковесный механизм верификации поведения обучения

TOPLOC — это основная механика проверяемости обучения, предложенная Prime Intellect, используемая для определения того, завершил ли узел эффективное обучение стратегии на основе наблюдаемых данных. В отличие от тяжелых решений, таких как ZKML, TOPLOC не зависит от перерасчета полной модели, а анализирует локальные согласованные траектории между "последовательностью наблюдений ↔ обновлением стратегии" для завершения верификации легковесной структуры. Он впервые преобразует поведенческие траектории в процессе обучения в объекты, подлежащие проверке, что является ключевым нововведением для распределения вознаграждений за обучение без доверия, предоставляя жизнеспособный путь для создания可审计,可激励的 Децентрализация协作训练网络.

#SHARDCAST: Асинхронный протокол агрегирования и распространения весов

SHARDCAST — это протокол распространения и агрегации весов, разработанный Prime Intellect, оптимизированный специально для асинхронной, ограниченной по пропускной способности и с изменяющимся состоянием узлов реальной сетевой среды. Он сочетает в себе механизм распространения gossip и локальные стратегии синхронизации, позволяя нескольким узлам продолжать подавать частичные обновления в состоянии несинхронизации, достигая прогрессивной сходимости весов и многоверсионной эволюции. В отличие от централизованных или синхронных методов AllReduce, SHARDCAST значительно повышает масштабируемость и устойчивость к сбоям децентрализованного обучения, являясь основой для построения стабильного консенсуса по весам и непрерывной итерации обучения.

#OpenDiLoCo: Разреженная асинхронная коммуникационная рамка

OpenDiLoCo — это оптимизированная система связи, разработанная командой Prime Intellect на основе концепции DiLoCo, предложенной DeepMind, и реализованная в виде независимого открытого проекта. Она предназначена для решения проблем, связанных с ограниченной пропускной способностью, гетерогенностью устройств и нестабильностью узлов, которые часто возникают в процессе Децентрализации обучения. Архитектура основана на параллельной обработке данных и использует разреженные топологические структуры, такие как Ring, Expander и Small-World, что позволяет избежать высоких затрат на глобальную синхронизацию, полагаясь лишь на локальных соседних узлов для выполнения совместного обучения моделей. В сочетании с асинхронным обновлением и механизмом восстановления после сбоев OpenDiLoCo позволяет потребительским GPU и периферийным устройствам стабильно участвовать в обучающих задачах, значительно повышая возможность участия в глобальном кооперативном обучении и являясь одной из ключевых коммуникационных инфраструктур для построения децентрализованной обучающей сети.

#PCCL:Библиотека совместной связи

PCCL является легковесной библиотекой связи, созданной Prime Intellect для децентрализованной среды обучения ИИ, направленной на решение проблем адаптации традиционных библиотек связи в гетерогенных устройствах и сетях с низкой пропускной способностью. PCCL поддерживает разреженные топологии, сжатие градиентов, синхронизацию с низкой точностью и восстановление после сбоев, может работать на потребительских GPU и нестабильных узлах, являясь основным компонентом, поддерживающим асинхронные коммуникации протокола OpenDiLoCo. Он значительно увеличивает устойчивость сети к пропускной способности и совместимость устройств, прокладывая "последнюю милю" коммуникационной инфраструктуры для создания действительно открытой, не требующей доверия, сети совместного обучения.

03, Сеть стимулирования и ролевое подразделение Prime Intellect

Prime Intellect создал тренировочную сеть, которая не требует разрешений, обеспечивает проверяемость и имеет экономические стимулы, позволяя любому участвовать в заданиях и получать вознаграждения на основе реального вклада. Протокол работает на основе трех типов основных ролей:

Инициатор задания: определение тренировочной среды, начальной модели, функции вознаграждения и стандартов валидации
Узел обучения: выполнение локального обучения, отправка обновлений весов и наблюдательных траекторий
Узлы верификации: Используйте механизм TOPLOC для проверки подлинности обучающих действий и участвуйте в расчете вознаграждений и агрегации стратегий

Ядро процесса соглашения включает в себя публикацию задач, обучение узлов, проверку траекторий, агрегацию весов и распределение вознаграждений, что составляет замкнутый цикл стимулов вокруг "реального тренировочного поведения".

04, INTELLECT-2: Публикация первой проверяемой Децентрализации обучающей модели

Компания Prime Intellect выпустила INTELLECT-2 в мае 2025 года. Это первая в мире большая модель обучения с подкреплением, обученная с помощью асинхронных, не требующих доверия, децентрализованных узлов, с числом параметров 32B. Модель INTELLECT-2 была обучена с помощью более 100 гетерогенных узлов GPU, расположенных на трех континентах, с использованием полностью асинхронной архитектуры и временем обучения более 400 часов, что продемонстрировало жизнеспособность и стабильность асинхронной кооперативной сети. Эта модель не только является прорывом в производительности, но и представляет собой первое системное воплощение парадигмы "обучение равносильно консенсусу", предложенной Prime Intellect. INTELLECT-2 интегрировала ключевые протоколы, такие как PRIME-RL, TOPLOC и SHARDCAST, что знаменует собой первое достижение открытости, верифицируемости и экономического стимула в процессе обучения децентрализованной обучающей сети.

В плане производительности, INTELLECT-2 основан на QwQ-32B, и на коде и математике была проведена специальная RL-тренировка, что ставит его на передний план среди текущих открытых RL-моделей для дообучения.

PRIME8.24%

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

22 Лайков

Награда
22
5
Поделиться

комментарий

0/400

PerennialLeek

· 07-14 06:17

Учишься хорошо, лысеешь.

Посмотреть ОригиналОтветить0

MeaninglessGwei

· 07-13 20:05

又可以 Клиповые купоны 了嘛

Посмотреть ОригиналОтветить0

SerNgmi

· 07-13 20:05

Немного абсурдно, все еще играют с концепциями.

Посмотреть ОригиналОтветить0

BearMarketSurvivor

· 07-13 19:55

Чтобы炼丹, играйте в федеративное обучение

Посмотреть ОригиналОтветить0

BearMarketBard

· 07-13 19:48

Как организовать тренировку нескольких ловушек? Как определить механизм стимулов?

Посмотреть ОригиналОтветить0

Тема
1/3
1ETH Breaks Through $3,800
21k Популярность
2Gate June Transparency Report
12k Популярность
3Altcoins on the Rise
20k Популярность
4Gate Square Creator Spark Program
143k Популярность
5Content Mining & Earn Rich Commission
1837k Популярность

Закрепить

Карта сайта