В настоящее время существует два основных направления объединения ИИ + Крипто: **распределенная вычислительная мощность и ZKML. ** В этой статье будет проанализирована и отражена децентрализованная сеть распределенных вычислительных мощностей.
В соответствии с тенденцией развития крупномасштабных моделей ИИ ресурсы вычислительной мощности станут большим полем битвы в следующем десятилетии, а также самой важной вещью для человеческого общества в будущем, и они останутся не только в коммерческом соревнование, но и ** стать большой страной Стратегические ресурсы игры. **В будущем инвестиции в высокопроизводительную вычислительную инфраструктуру и резервы вычислительной мощности будут увеличиваться в геометрической прогрессии.
** Сеть децентрализованных распределенных вычислительных мощностей имеет наибольший спрос на обучение больших моделей ИИ, но она также сталкивается с самыми большими проблемами и техническими узкими местами. ** Включая необходимость сложной синхронизации данных и оптимизацию сети. Кроме того, конфиденциальность и безопасность данных также являются важными ограничениями. Хотя некоторые существующие методы могут предоставить предварительные решения, они по-прежнему неприменимы в крупномасштабных распределенных задачах обучения из-за огромных вычислительных и коммуникационных накладных расходов.
** Децентрализованная сеть с распределенными вычислительными мощностями имеет больше шансов приземлиться в рассуждениях модели, и она может предсказать, что будущее дополнительное пространство также достаточно велико. ** Но он также сталкивается с такими проблемами, как задержка связи, конфиденциальность данных и безопасность модели. По сравнению с обучением модели, вывод имеет меньшую вычислительную сложность и взаимодействие с данными и больше подходит для распределенных сред.
На примере двух начинающих компаний, Together и Gensyn.ai, с точки зрения оптимизации технологий и дизайна уровня стимулов проиллюстрировано общее направление исследований и конкретные идеи децентрализованной распределенной вычислительной сети.
1. Распределенная вычислительная мощность — обучение на больших моделях
Мы обсуждаем применение распределенных вычислительных мощностей в обучении и в целом фокусируемся на обучении больших языковых моделей.Основная причина в том, что обучение малых моделей не требует больших вычислительных мощностей.Для того, чтобы сделать распределенную конфиденциальность данных и кучу проектов Проблема нерентабельна, лучше решать ее напрямую и централизованно. Большая языковая модель имеет огромный спрос на вычислительную мощность, и сейчас она находится в начальной стадии вспышки.С 2012 по 2018 год вычислительная потребность ИИ будет удваиваться примерно каждые 4 месяца.Судя по тому, что следующие 5-8 лет будут по-прежнему будет огромный дополнительный спрос.
Хотя существуют огромные возможности, необходимо также четко видеть проблемы. Все знают, что сцена огромна, но где конкретные проблемы? Кто может ориентироваться на эти проблемы, а не вслепую входить в игру, является основой оценки отличных проектов этого трека.
(NVIDIA NeMo Megatron Framework)
1. Общий тренировочный процесс
В качестве примера возьмем обучение большой модели со 175 миллиардами параметров. Из-за огромного размера модели ее необходимо обучать параллельно на многих GPU-устройствах. Предположим, есть централизованный компьютерный зал со 100 графическими процессорами и каждое устройство имеет 32 ГБ памяти.
Подготовка данных: Во-первых, требуется огромный набор данных, который содержит различные данные, такие как информация из Интернета, новости, книги и т. д. Эти данные должны быть предварительно обработаны перед обучением, включая очистку текста, токенизацию, построение словаря и т. д.
** Сегментация данных: ** Обработанные данные будут разделены на несколько пакетов для параллельной обработки на нескольких графических процессорах. Предположим, что выбранный размер пакета равен 512, то есть каждый пакет содержит 512 текстовых последовательностей. Затем мы разбиваем весь набор данных на пакеты, формируя очередь пакетов.
Передача данных между устройствами: В начале каждого шага обучения ЦП берет пакет из очереди пакетов, а затем отправляет данные этого пакета в ГП через шину PCIe. Предполагая, что средняя длина каждой текстовой последовательности составляет 1024 маркера, тогда размер данных каждого пакета составляет приблизительно 512 * 1024 * 4B = 2 МБ (при условии, что каждый маркер представлен 4-байтовым числом с плавающей запятой одинарной точности). Этот процесс передачи данных обычно занимает всего несколько миллисекунд.
**Параллельное обучение: ** После того, как каждое устройство GPU получает данные, оно начинает выполнять расчеты прямого и обратного прохода, а также вычисляет градиент каждого параметра. Из-за большого масштаба модели память одного графического процессора не может хранить все параметры, поэтому мы используем технологию параллелизма модели для распределения параметров модели на несколько графических процессоров.
** Агрегация градиента и обновление параметров: ** После завершения расчета обратного распространения каждый GPU получает градиент части параметров. Затем эти градиенты необходимо агрегировать по всем устройствам GPU, чтобы вычислить глобальный градиент. Для этого требуется передача данных по сети.Предполагая, что используется сеть 25 Гбит/с, требуется около 224 секунд для передачи 700 ГБ данных (при условии, что каждый параметр использует числа с плавающей запятой одинарной точности, тогда 175 миллиардов параметров составляют около 700 ГБ). Затем каждый графический процессор обновляет свои сохраненные параметры в соответствии с глобальным градиентом.
**Синхронизация: **После обновления параметров все устройства GPU необходимо синхронизировать, чтобы убедиться, что все они используют согласованные параметры модели для следующего этапа обучения. Это также требует передачи данных по сети.
Повторить этапы обучения: Повторяйте описанные выше шаги, пока не будет завершено обучение всех пакетов или не будет достигнуто заданное количество тренировочных раундов (эпох).
Этот процесс включает передачу и синхронизацию большого объема данных, что может стать узким местом для эффективности обучения. Таким образом, оптимизация пропускной способности и задержки сети, а также использование эффективных стратегий параллельной обработки и синхронизации очень важны для обучения крупномасштабных моделей.
2. Узкое место коммуникационных накладных расходов:
Следует отметить, что коммуникационное узкое место также является причиной того, что текущая сеть распределенных вычислительных мощностей не может выполнять обучение большой языковой модели.
Каждому узлу необходимо часто обмениваться информацией для совместной работы, что создает коммуникационные издержки. Для больших языковых моделей эта проблема особенно серьезна из-за большого количества параметров модели. Накладные расходы на связь делятся на следующие аспекты:
**Передача данных: **Во время обучения узлам необходимо часто обмениваться параметрами модели и информацией о градиенте. Это требует передачи большого объема данных в сети, что требует большой пропускной способности сети. Если сетевые условия плохие или расстояние между вычислительными узлами велико, задержка передачи данных будет высокой, что еще больше увеличит коммуникационные издержки.
** Проблема синхронизации: ** Узлы должны работать вместе во время обучения, чтобы обеспечить правильный ход обучения. Это требует частых операций синхронизации между узлами, таких как обновление параметров модели, вычисление глобальных градиентов и т. д. Эти синхронные операции требуют передачи большого объема данных в сети и ожидания завершения операции всеми узлами, что приведет к большим затратам на связь и времени ожидания.
**Накопление и обновление градиента: ** В процессе обучения каждому узлу необходимо вычислить собственный градиент и отправить его другим узлам для накопления и обновления. Это требует передачи большого количества данных градиента в сети и необходимости ждать, пока все узлы завершат расчет и передачу градиентов, что также является причиной большого объема коммуникационных накладных расходов.
**Консистентность данных: **Необходимо обеспечить согласованность параметров модели каждого узла. Это требует частой проверки контрольной суммы данных и операций синхронизации между узлами, что приводит к большим затратам на связь.
Хотя существуют некоторые методы снижения коммуникационных издержек, такие как сжатие параметров и градиентов, эффективные параллельные стратегии и т. д., эти методы могут создавать дополнительную вычислительную нагрузку или негативно влиять на эффект обучения модели. Кроме того, эти методы не могут полностью решить проблему коммуникационных издержек, особенно в случае плохого состояния сети или больших расстояний между вычислительными узлами.
В качестве примера:
Децентрализованная сеть распределенных вычислительных мощностей
Модель GPT-3 имеет 175 миллиардов параметров, и если мы представим эти параметры с помощью чисел с плавающей запятой одинарной точности (4 байта на параметр), то для хранения этих параметров потребуется ~700 ГБ памяти. При распределенном обучении эти параметры необходимо часто передавать и обновлять между вычислительными узлами.
Предполагая, что имеется 100 вычислительных узлов, каждый узел должен обновлять все параметры на каждом шаге, а затем каждый шаг должен передавать около 70 ТБ (700 ГБ*100) данных. Если предположить, что шаг занимает 1 с (очень оптимистичное предположение), то каждую секунду нужно передавать 70 ТБ данных. Этот спрос на пропускную способность уже намного превышает спрос на большинство сетей, а также является вопросом осуществимости.
В действительности из-за задержек связи и перегрузки сети время передачи данных может быть намного больше 1 с. Это означает, что вычислительным узлам может потребоваться потратить много времени на ожидание передачи данных вместо выполнения реальных вычислений. Это значительно снизит эффективность обучения, и это снижение эффективности не может быть решено ожиданием, а различием между возможным и невозможным, которое сделает весь процесс обучения неосуществимым.
Централизованный компьютерный зал
**Даже в среде централизованного компьютерного зала обучение больших моделей по-прежнему требует серьезной оптимизации связи. **
В среде централизованного компьютерного зала высокопроизводительные вычислительные устройства используются как кластер, соединенный через высокоскоростную сеть для совместного использования вычислительных задач. Однако даже при обучении модели с чрезвычайно большим количеством параметров в такой высокоскоростной сетевой среде коммуникационные издержки по-прежнему являются узким местом, поскольку параметры и градиенты модели необходимо часто передавать и обновлять между различными вычислительными устройствами. .
Как упоминалось в начале, предположим, что имеется 100 вычислительных узлов, и каждый сервер имеет пропускную способность сети 25 Гбит/с. Если каждому серверу необходимо обновить все параметры на каждом шаге обучения, то каждый шаг обучения должен передавать около 700 ГБ данных, и это занимает ~ 224 секунды. Используя преимущества централизованного компьютерного зала, разработчики могут оптимизировать топологию сети внутри центра обработки данных и использовать такие технологии, как параллелизм моделей, чтобы значительно сократить это время.
Напротив, если такое же обучение выполняется в распределенной среде, предполагая, что по всему миру все еще есть 100 вычислительных узлов, средняя пропускная способность сети каждого узла составляет всего 1 Гбит/с. В этом случае для передачи тех же 700 ГБ данных требуется ~5600 секунд, что намного дольше, чем в централизованном компьютерном зале. Кроме того, из-за задержек и перегрузок сети фактическое требуемое время может быть больше.
Однако по сравнению с ситуацией в сети с распределенной вычислительной мощностью относительно легко оптимизировать коммуникационные издержки в среде централизованного компьютерного зала. Потому что в среде централизованного компьютерного зала вычислительные устройства обычно подключены к одной и той же высокоскоростной сети, а пропускная способность и задержка сети относительно хорошие. В сети с распределенной вычислительной мощностью вычислительные узлы могут быть распределены по всему миру, а сетевые условия могут быть относительно плохими, что делает проблему накладных расходов на связь более серьезной.
В процессе обучения GPT-3 OpenAI использует модель параллельного фреймворка под названием Megatron для решения проблемы коммуникационных накладных расходов. Megatron разделяет параметры модели и обрабатывает их параллельно между несколькими графическими процессорами, и каждое устройство отвечает только за хранение и обновление части параметров, тем самым уменьшая количество параметров, которые необходимо обрабатывать каждому устройству, и сокращая коммуникационные издержки. При этом во время обучения также используется высокоскоростная сеть межсоединений, а длина пути связи сокращается за счет оптимизации топологии сети.
3. Почему сеть распределенных вычислительных мощностей не может выполнить эти оптимизации
Это можно сделать, но по сравнению с централизованным компьютерным залом эффект от этих оптимизаций очень ограничен.
** Оптимизация топологии сети: ** В централизованном компьютерном зале можно напрямую управлять сетевым оборудованием и компоновкой, поэтому топологию сети можно разработать и оптимизировать в соответствии с потребностями. Однако в распределенной среде вычислительные узлы распределены в разных географических точках, даже один в Китае и один в США, и нет возможности напрямую контролировать сетевое соединение между ними. Хотя для оптимизации пути передачи данных можно использовать программное обеспечение, оно не так эффективно, как непосредственная оптимизация аппаратной сети. В то же время из-за различий в географическом расположении задержки и пропускная способность сети также сильно различаются, что еще больше ограничивает эффект от оптимизации топологии сети.
** Параллелизм модели: ** Параллелизм модели — это технология, которая разделяет параметры модели на несколько вычислительных узлов и повышает скорость обучения за счет параллельной обработки. Однако этот метод обычно требует частой передачи данных между узлами, поэтому он предъявляет высокие требования к пропускной способности сети и задержке. В централизованном компьютерном зале из-за высокой пропускной способности сети и низкой задержки модельный параллелизм может быть очень эффективным. Однако в распределенной среде параллелизм моделей сильно ограничен из-за плохого состояния сети.
4. Проблемы безопасности данных и конфиденциальности
Почти все ссылки, связанные с обработкой и передачей данных, могут повлиять на безопасность и конфиденциальность данных:
**Распределение данных: **Обучающие данные должны быть распределены по каждому узлу, участвующему в расчете. Данные по этой ссылке могут быть злонамеренно использованы/утекли на распределенных узлах.
** Обучение модели: ** В процессе обучения каждый узел будет использовать назначенные ему данные для расчета, а затем выводить обновление или градиент параметров модели. Во время этого процесса, если процесс расчета узла украден или результат злонамеренно проанализирован, также может произойти утечка данных.
Агрегация параметров и градиентов: выходные данные отдельных узлов необходимо агрегировать для обновления глобальной модели, а обмен данными в процессе агрегации также может привести к утечке информации об обучающих данных.
Какие существуют решения для проблем с конфиденциальностью данных?
**Безопасные многосторонние вычисления:**SMC успешно применяется в некоторых конкретных задачах небольших вычислений. Однако в крупномасштабных распределенных обучающих задачах из-за больших вычислительных и коммуникационных накладных расходов он еще не нашел широкого применения.
** Дифференциальная конфиденциальность: ** Применяется в определенных задачах сбора и анализа данных, таких как статистика пользователей Chrome и т. д. Но в крупномасштабных задачах глубокого обучения DP будет влиять на точность модели. В то же время, разработка соответствующего механизма генерации и добавления шума также является сложной задачей.
**Федеральное обучение: **Применяется в некоторых задачах обучения моделей периферийных устройств, таких как прогнозирование словарного запаса для клавиатур Android и т. д. Однако в крупномасштабных распределенных учебных задачах FL сталкивается с такими проблемами, как высокие коммуникационные издержки и сложная координация.
Гомоморфное шифрование: успешно применяется в некоторых задачах с меньшей вычислительной сложностью. Однако в крупномасштабных распределенных обучающих задачах из-за высоких вычислительных затрат он еще не нашел широкого применения.
Краткое содержание
Каждый из вышеперечисленных методов имеет свои применимые сценарии и ограничения, и ни один из методов не может полностью решить проблему конфиденциальности данных при обучении большой модели сети с распределенной вычислительной мощностью.
Может ли ZK, на которую возлагаются большие надежды, решить проблему конфиденциальности данных при обучении больших моделей?
** Теоретически ZKP можно использовать для обеспечения конфиденциальности данных в распределенных вычислениях, позволяя узлу доказать, что он выполнил вычисления в соответствии с правилами, но не требует раскрытия фактических входных и выходных данных. **
Но на самом деле в сценарии использования ZKP для обучения больших моделей сетей с распределенной вычислительной мощностью возникают следующие узкие места:
** Накладные расходы на вычисления и связь: ** Построение и проверка доказательств с нулевым разглашением требует много вычислительных ресурсов. Кроме того, коммуникационные издержки ZKP также высоки из-за необходимости передачи самого доказательства. Эти накладные расходы могут стать особенно значительными в случае обучения больших моделей. Например, если для вычисления каждого мини-пакета требуется генерация доказательства, это может значительно увеличить общее время и стоимость обучения.
**Сложность протокола ZK: **Разработка и реализация протокола ZKP, подходящего для обучения больших моделей, будет очень сложной. Этот протокол должен иметь возможность обрабатывать крупномасштабные данные и сложные вычисления, а также обрабатывать возможные аномальные ошибки.
** Аппаратная и программная совместимость: ** Для использования ZKP требуется специальная аппаратная и программная поддержка, которая может быть недоступна на всех распределенных вычислительных устройствах.
Краткое содержание
Чтобы использовать ZKP для крупномасштабной распределенной вычислительной сети, обучающей большие модели, потребуется несколько лет исследований и разработок, а также требуется больше энергии и ресурсов академического сообщества в этом направлении.
2. Распределенная вычислительная мощность — обоснование модели
Другим относительно большим сценарием распределенной вычислительной мощности является рассуждение модели.Согласно нашему мнению о пути развития больших моделей, потребность в обучении моделей будет постепенно замедляться по мере того, как большие модели совершенствуются после прохождения высшей точки.Соответственно, требования к рассуждению будут увеличиваться в геометрической прогрессии. со зрелостью крупных моделей и AIGC.
По сравнению с задачами обучения задачи логического вывода обычно имеют меньшую вычислительную сложность и более слабое взаимодействие с данными и больше подходят для распределенных сред.
(Вывод Power LLM с NVIDIA Triton)
1. Вызов
Задержка связи:
В распределенной среде связь между узлами имеет важное значение. В децентрализованной сети с распределенной вычислительной мощностью узлы могут быть разбросаны по всему миру, поэтому сетевая задержка может стать проблемой, особенно для логических задач, требующих ответа в реальном времени.
Развертывание и обновление модели:
Модель необходимо развернуть на каждом узле. Если модель обновляется, каждый узел должен обновить свою модель, что требует большой пропускной способности сети и времени.
Конфиденциальность данных:
Хотя для задач логического вывода обычно требуются только входные данные и модели и не требуется возвращать большое количество промежуточных данных и параметров, входные данные могут по-прежнему содержать конфиденциальную информацию, например личную информацию пользователей.
Безопасность модели:
В децентрализованной сети модель необходимо развернуть на недоверенных узлах, что приведет к утечке модели и приведет к проблеме прав собственности на модель и злоупотреблений. Это также может вызвать проблемы с безопасностью и конфиденциальностью. Если модель используется для обработки конфиденциальных данных, узлы могут вывести конфиденциальную информацию, анализируя поведение модели.
КК:
Каждый узел в децентрализованной сети с распределенной вычислительной мощностью может иметь разные вычислительные возможности и ресурсы, что может затруднить обеспечение производительности и качества задач логического вывода.
2. Осуществимость
Вычислительная сложность:
На этапе обучения модель должна многократно повторяться.В процессе обучения необходимо рассчитать прямое и обратное распространение каждого слоя, включая расчет функции активации, расчет функции потерь, расчет градиент и обновление веса. Поэтому вычислительная сложность обучения модели высока.
На этапе вывода для вычисления прогноза требуется только один прямой проход. Например, в GPT-3 необходимо преобразовать входной текст в вектор, а затем выполнить прямое распространение через каждый слой модели (обычно слой Transformer), и, наконец, получить выходное распределение вероятностей, и сгенерировать следующий слово согласно этому распределению. В GAN модель должна генерировать изображение на основе входного вектора шума. Эти операции включают только прямое распространение модели, не требуют вычисления градиентов или обновления параметров и имеют низкую вычислительную сложность.
Интерактивность данных:
На этапе вывода модель обычно обрабатывает один вход, а не большой пакет данных во время обучения. Результат каждого вывода зависит только от текущего ввода, а не от другого ввода или вывода, поэтому нет необходимости в большом объеме взаимодействия данных, а коммуникационное давление меньше.
Взяв в качестве примера модель генеративного изображения, предполагая, что мы используем GAN для создания изображений, нам нужно только ввести вектор шума в модель, а затем модель сгенерирует соответствующее изображение. В этом процессе каждый вход будет генерировать только один выход, и между выходами нет никакой зависимости, поэтому нет необходимости во взаимодействии с данными.
Взяв в качестве примера GPT-3, для каждого поколения следующего слова требуется только текущий ввод текста и состояние модели, и ему не нужно взаимодействовать с другими входами или выходами, поэтому требование интерактивности данных также слабое.
Краткое содержание
** Будь то большая языковая модель или модель генеративного изображения, вычислительная сложность и взаимодействие данных задач рассуждения относительно низки, и это больше подходит для децентрализованных сетей с распределенной вычислительной мощностью. Это то, что мы видим сейчас. Большинство проектов работает в одном направлении. **
3. Проект
Технический порог и техническая широта децентрализованной сети с распределенной вычислительной мощностью очень высоки, и она также требует поддержки аппаратных ресурсов, поэтому сейчас мы не видели слишком много попыток. Возьмите Вместе и Gensyn.ai в качестве примера:
1.Вместе
Компания Together фокусируется на открытом исходном коде больших моделей и привержена децентрализованным решениям для вычислительной мощности ИИ, надеясь, что любой сможет получить доступ к ИИ и использовать его где угодно. Вместе только что завершили посевной раунд на 20 миллионов долларов США под руководством Lux Capital.
Вместе были соучредителями Крис, Перси и Се. Первоначальное намерение состояло в том, что крупномасштабное обучение модели требует большого количества высокопроизводительных кластеров графических процессоров и больших расходов, и эти ресурсы и возможности обучения модели также были сосредоточены в нескольких крупные компании.
С моей точки зрения, более разумный предпринимательский план для распределенных вычислительных мощностей таков:
Шаг 1. Модель с открытым исходным кодом
Для реализации рассуждения модели в децентрализованной сети с распределенными вычислительными мощностями предварительным условием является то, что узлы должны быть в состоянии получить модель по низкой цене, то есть модель, использующая децентрализованную сеть вычислительных мощностей, должна быть с открытым исходным кодом (если модель необходимо лицензировать в соответствующем разделе. Если используется ниже, это увеличит сложность и стоимость реализации). Например, chatgpt как модель с закрытым исходным кодом не подходит для выполнения в децентрализованной сети вычислительных мощностей.
Таким образом, можно предположить, что невидимый барьер компании, предоставляющей децентрализованную сеть вычислительных мощностей, должен иметь мощные возможности крупномасштабной разработки и обслуживания моделей. Самостоятельно разработанная мощная базовая модель с открытым исходным кодом может в определенной степени избавиться от зависимости от сторонней модели с открытым исходным кодом и решить самые основные проблемы децентрализованной вычислительной сети. В то же время это больше способствует доказательству того, что вычислительная сеть может эффективно проводить обучение и анализ больших моделей.
И «Вместе» сделали то же самое. Недавно выпущенная RedPajama на основе LLaMA была запущена совместными командами, включая Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM и Hazy Research, Цель состоит в том, чтобы разработать серию больших языковых моделей с полностью открытым исходным кодом.
Шаг 2. Распределенная вычислительная мощность основывается на моделировании
Как упоминалось в двух предыдущих разделах, по сравнению с обучением модели, вывод модели имеет меньшую вычислительную сложность и взаимодействие с данными и больше подходит для децентрализованной распределенной среды.
На основе модели с открытым исходным кодом группа исследований и разработок Together внесла ряд обновлений в модель RedPajama-INCITE-3B, например, используя LoRA для недорогой тонкой настройки, чтобы модель работала на ЦП (особенно на MacBook). Pro с процессором M2 Pro) Работает на модели более шелковисто. В то же время, хотя масштаб этой модели невелик, ее возможности превосходят другие модели того же масштаба, и она нашла практическое применение в правовых, социальных и других сценариях.
Шаг 3. Распределенная вычислительная мощность используется для обучения модели
В среднесрочной и долгосрочной перспективе, несмотря на серьезные проблемы и технические узкие места, наиболее привлекательной должна быть потребность в вычислительной мощности для обучения больших моделей ИИ. Вместе начали выкладывать работу по преодолению коммуникативного узкого места в децентрализованном обучении в начале его становления. Они также опубликовали соответствующий документ о NeurIPS 2022: Преодоление коммуникационных узких мест для децентрализованного обучения. В основном можно выделить следующие направления:
Оптимизация расписания
При обучении в децентрализованной среде важно назначать коммуникационные задачи устройствам с более быстрым соединением, поскольку соединения между узлами имеют разную задержку и пропускную способность. Вместе строит модель для описания стоимости конкретной стратегии планирования и лучше оптимизирует стратегию планирования, чтобы минимизировать затраты на связь и максимизировать пропускную способность обучения. Команда «Вместе» также обнаружила, что, несмотря на то, что сеть была в 100 раз медленнее, пропускная способность сквозного обучения была всего в 1,7–2,3 раза ниже. Поэтому очень интересно наверстать разрыв между распределенными сетями и централизованными кластерами за счет оптимизации планирования. **
Оптимизация сжатия связи
Вместе предлагает сжатие связи для прямых активаций и обратных градиентов, а также вводит алгоритм AQ-SGD, который обеспечивает строгие гарантии сходимости стохастического градиентного спуска. AQ-SGD может точно настраивать большие базовые модели в медленных сетях (например, 500 Мбит/с), что всего на 31% медленнее, чем сквозное обучение в централизованных вычислительных сетях (например, 10 Гбит/с) без сжатия. Кроме того, AQ-SGD можно комбинировать с самыми современными методами градиентного сжатия, такими как QuantizedAdam, для достижения сквозного ускорения на 10%.
Резюме проекта
Совместная конфигурация команды очень всеобъемлющая, члены имеют очень сильный академический опыт, от разработки крупномасштабных моделей, облачных вычислений до оптимизации оборудования, поддерживаются отраслевыми экспертами. И «Вместе» продемонстрировали долгосрочную и терпеливую позицию в планировании пути, от разработки больших моделей с открытым исходным кодом до тестирования простаивающих вычислительных мощностей (таких как Mac) в сети распределенных вычислительных мощностей и рассуждений с моделями, а затем до распределенных вычислительных мощностей в больших масштабах. Макет на обучение модели. — Такое ощущение скопления и тонких волос :)
Но до сих пор я не видел слишком много результатов исследований «Вместе» в стимулирующем слое, я думаю, что это так же важно, как исследования и разработки технологий, и это ключевой фактор для обеспечения развития децентрализованной вычислительной сети.
2.Gensyn.ai
Из технического пути «Вместе» мы можем примерно понять процесс внедрения децентрализованной сети вычислительных мощностей в модели обучения и рассуждений, а также соответствующие приоритеты исследований и разработок.
Другим важным моментом, который нельзя игнорировать, является разработка алгоритма уровня стимулирования/консенсуса сети вычислительной мощности.Например, отличная сеть должна иметь:
Убедитесь, что преимущества достаточно привлекательны;
Убедитесь, что каждый майнер получает те преимущества, которых он заслуживает, включая защиту от мошенничества и большую оплату за дополнительную работу;
Убедитесь, что задачи напрямую и разумно запланированы и распределены по разным узлам, и не будет большого количества простаивающих узлов или переполненности некоторых узлов;
Алгоритм поощрения прост и эффективен и не вызовет слишком большой нагрузки на систему и задержек;
……
Посмотрите, как это делает Gensyn.ai:
Стать узлом
В первую очередь решатели в сети вычислительных мощностей соревнуются за право обрабатывать задачи, выставленные пользователями через ставки, и в соответствии с масштабом задачи и риском быть уличенным в мошенничестве решателю необходимо внести в залог определенную сумму.
проверять
Решатель генерирует несколько контрольных точек при обновлении параметров (для обеспечения прозрачности и отслеживаемости работы) и периодически генерирует криптографические доказательства (доказательство выполнения работы) о задачах;
Когда Решатель завершит работу и сгенерирует часть результатов расчета, протокол выберет верификатор, а верификатор также заложит определенную сумму (чтобы убедиться, что верификатор честно выполняет проверку), и решит, какая часть расчета результаты должны быть проверены в соответствии с доказательствами, приведенными выше.
Если решатель и верификатор расходятся
Через древовидную структуру данных Меркла определяется точное место, где результаты расчетов различаются. Вся операция проверки будет по цепочке, а мошенники будут вычтены из залоговой суммы.
Резюме проекта
Дизайн алгоритма стимулирования и проверки делает так, что Gensyn.ai не нужно воспроизводить все результаты всей вычислительной задачи в процессе проверки, а нужно только копировать и проверять часть результатов в соответствии с предоставленным доказательством, что значительно улучшает оперативность проверки. При этом узлам необходимо хранить только часть результатов вычислений, что также снижает потребление дискового пространства и вычислительных ресурсов. Кроме того, потенциальные мошеннические узлы не могут предсказать, какие части будут выбраны для проверки, так что это также снижает риск мошенничества;
Этот метод проверки различий и обнаружения мошенников также позволяет быстро находить ошибки в процессе расчета, не сравнивая все результаты расчета (начиная с корневого узла дерева Меркла и проходя пошагово вниз) Очень эффективен для крупномасштабных вычислительных задач.
Короче говоря, цель дизайна уровня стимулирования / проверки Gensyn.ai: лаконичность и эффективность. Однако в настоящее время он ограничен теоретическим уровнем, и конкретная реализация может столкнуться со следующими проблемами:
Об экономической модели, как установить соответствующие параметры, чтобы она могла эффективно предотвращать мошенничество, не создавая чрезмерно высокий порог для участников.
С точки зрения технической реализации, как сформулировать эффективное периодическое доказательство рассуждений о шифровании, также является сложной проблемой, требующей передовых знаний в области криптографии.
Что касается распределения задач, то, как сеть вычислительных мощностей выбирает и распределяет задачи между различными решателями, также нуждается в поддержке разумного алгоритма планирования. к механизму ставок, например, узлы с высокой вычислительной мощностью могут справляться с более масштабными задачами, но могут не участвовать в торгах (это включает в себя стимул к доступности узла), узлы с низкой вычислительной мощностью могут предлагать самые высокие ставки, но не подходят для обработки некоторых сложных крупномасштабных задач масштабные вычислительные задачи.
4. Думая о будущем
Вопрос о том, кому нужна децентрализованная сеть вычислительных мощностей, не проверен. Применение простаивающих вычислительных мощностей для обучения крупномасштабных моделей, требующих огромных ресурсов вычислительной мощности, очевидно, является наиболее разумным и наиболее творческим пространством. Но на самом деле такие узкие места, как общение и конфиденциальность, должны заставить нас переосмыслить:
Есть ли надежда на децентрализованное обучение больших моделей?
Если вы выпрыгнете из этого консенсуса, «наиболее разумный сценарий посадки», применение децентрализованных вычислительных мощностей для обучения небольших моделей ИИ также является большим сценарием. С технической точки зрения текущие ограничивающие факторы были решены из-за размера и структуры модели, В то же время, с точки зрения рынка, мы всегда чувствовали, что обучение больших моделей будет огромным с теперь в будущее, но рынок для небольших моделей ИИ еще не привлекателен?
Я так не думаю. **По сравнению с большими моделями, маленькие модели ИИ проще в развертывании и управлении, они более эффективны с точки зрения скорости обработки и использования памяти.В большом количестве сценариев приложений пользователям или компаниям не нужны более общие возможности рассуждений большие языковые модели, но он касается только очень мелкозернистой цели прогнозирования. Таким образом, в большинстве сценариев небольшие модели ИИ по-прежнему являются более жизнеспособным вариантом, и их не следует преждевременно упускать из виду в потоке больших моделей. **
Посмотреть Оригинал
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
Какая польза от Web3 при беспрецедентном спросе на вычислительную мощность ИИ?
Важный контент:
1. Распределенная вычислительная мощность — обучение на больших моделях
Мы обсуждаем применение распределенных вычислительных мощностей в обучении и в целом фокусируемся на обучении больших языковых моделей.Основная причина в том, что обучение малых моделей не требует больших вычислительных мощностей.Для того, чтобы сделать распределенную конфиденциальность данных и кучу проектов Проблема нерентабельна, лучше решать ее напрямую и централизованно. Большая языковая модель имеет огромный спрос на вычислительную мощность, и сейчас она находится в начальной стадии вспышки.С 2012 по 2018 год вычислительная потребность ИИ будет удваиваться примерно каждые 4 месяца.Судя по тому, что следующие 5-8 лет будут по-прежнему будет огромный дополнительный спрос.
Хотя существуют огромные возможности, необходимо также четко видеть проблемы. Все знают, что сцена огромна, но где конкретные проблемы? Кто может ориентироваться на эти проблемы, а не вслепую входить в игру, является основой оценки отличных проектов этого трека.
(NVIDIA NeMo Megatron Framework)
1. Общий тренировочный процесс
В качестве примера возьмем обучение большой модели со 175 миллиардами параметров. Из-за огромного размера модели ее необходимо обучать параллельно на многих GPU-устройствах. Предположим, есть централизованный компьютерный зал со 100 графическими процессорами и каждое устройство имеет 32 ГБ памяти.
Этот процесс включает передачу и синхронизацию большого объема данных, что может стать узким местом для эффективности обучения. Таким образом, оптимизация пропускной способности и задержки сети, а также использование эффективных стратегий параллельной обработки и синхронизации очень важны для обучения крупномасштабных моделей.
2. Узкое место коммуникационных накладных расходов:
Следует отметить, что коммуникационное узкое место также является причиной того, что текущая сеть распределенных вычислительных мощностей не может выполнять обучение большой языковой модели.
Каждому узлу необходимо часто обмениваться информацией для совместной работы, что создает коммуникационные издержки. Для больших языковых моделей эта проблема особенно серьезна из-за большого количества параметров модели. Накладные расходы на связь делятся на следующие аспекты:
Хотя существуют некоторые методы снижения коммуникационных издержек, такие как сжатие параметров и градиентов, эффективные параллельные стратегии и т. д., эти методы могут создавать дополнительную вычислительную нагрузку или негативно влиять на эффект обучения модели. Кроме того, эти методы не могут полностью решить проблему коммуникационных издержек, особенно в случае плохого состояния сети или больших расстояний между вычислительными узлами.
В качестве примера:
Децентрализованная сеть распределенных вычислительных мощностей
Модель GPT-3 имеет 175 миллиардов параметров, и если мы представим эти параметры с помощью чисел с плавающей запятой одинарной точности (4 байта на параметр), то для хранения этих параметров потребуется ~700 ГБ памяти. При распределенном обучении эти параметры необходимо часто передавать и обновлять между вычислительными узлами.
Предполагая, что имеется 100 вычислительных узлов, каждый узел должен обновлять все параметры на каждом шаге, а затем каждый шаг должен передавать около 70 ТБ (700 ГБ*100) данных. Если предположить, что шаг занимает 1 с (очень оптимистичное предположение), то каждую секунду нужно передавать 70 ТБ данных. Этот спрос на пропускную способность уже намного превышает спрос на большинство сетей, а также является вопросом осуществимости.
В действительности из-за задержек связи и перегрузки сети время передачи данных может быть намного больше 1 с. Это означает, что вычислительным узлам может потребоваться потратить много времени на ожидание передачи данных вместо выполнения реальных вычислений. Это значительно снизит эффективность обучения, и это снижение эффективности не может быть решено ожиданием, а различием между возможным и невозможным, которое сделает весь процесс обучения неосуществимым.
Централизованный компьютерный зал
**Даже в среде централизованного компьютерного зала обучение больших моделей по-прежнему требует серьезной оптимизации связи. **
В среде централизованного компьютерного зала высокопроизводительные вычислительные устройства используются как кластер, соединенный через высокоскоростную сеть для совместного использования вычислительных задач. Однако даже при обучении модели с чрезвычайно большим количеством параметров в такой высокоскоростной сетевой среде коммуникационные издержки по-прежнему являются узким местом, поскольку параметры и градиенты модели необходимо часто передавать и обновлять между различными вычислительными устройствами. .
Как упоминалось в начале, предположим, что имеется 100 вычислительных узлов, и каждый сервер имеет пропускную способность сети 25 Гбит/с. Если каждому серверу необходимо обновить все параметры на каждом шаге обучения, то каждый шаг обучения должен передавать около 700 ГБ данных, и это занимает ~ 224 секунды. Используя преимущества централизованного компьютерного зала, разработчики могут оптимизировать топологию сети внутри центра обработки данных и использовать такие технологии, как параллелизм моделей, чтобы значительно сократить это время.
Напротив, если такое же обучение выполняется в распределенной среде, предполагая, что по всему миру все еще есть 100 вычислительных узлов, средняя пропускная способность сети каждого узла составляет всего 1 Гбит/с. В этом случае для передачи тех же 700 ГБ данных требуется ~5600 секунд, что намного дольше, чем в централизованном компьютерном зале. Кроме того, из-за задержек и перегрузок сети фактическое требуемое время может быть больше.
Однако по сравнению с ситуацией в сети с распределенной вычислительной мощностью относительно легко оптимизировать коммуникационные издержки в среде централизованного компьютерного зала. Потому что в среде централизованного компьютерного зала вычислительные устройства обычно подключены к одной и той же высокоскоростной сети, а пропускная способность и задержка сети относительно хорошие. В сети с распределенной вычислительной мощностью вычислительные узлы могут быть распределены по всему миру, а сетевые условия могут быть относительно плохими, что делает проблему накладных расходов на связь более серьезной.
В процессе обучения GPT-3 OpenAI использует модель параллельного фреймворка под названием Megatron для решения проблемы коммуникационных накладных расходов. Megatron разделяет параметры модели и обрабатывает их параллельно между несколькими графическими процессорами, и каждое устройство отвечает только за хранение и обновление части параметров, тем самым уменьшая количество параметров, которые необходимо обрабатывать каждому устройству, и сокращая коммуникационные издержки. При этом во время обучения также используется высокоскоростная сеть межсоединений, а длина пути связи сокращается за счет оптимизации топологии сети.
3. Почему сеть распределенных вычислительных мощностей не может выполнить эти оптимизации
Это можно сделать, но по сравнению с централизованным компьютерным залом эффект от этих оптимизаций очень ограничен.
** Оптимизация топологии сети: ** В централизованном компьютерном зале можно напрямую управлять сетевым оборудованием и компоновкой, поэтому топологию сети можно разработать и оптимизировать в соответствии с потребностями. Однако в распределенной среде вычислительные узлы распределены в разных географических точках, даже один в Китае и один в США, и нет возможности напрямую контролировать сетевое соединение между ними. Хотя для оптимизации пути передачи данных можно использовать программное обеспечение, оно не так эффективно, как непосредственная оптимизация аппаратной сети. В то же время из-за различий в географическом расположении задержки и пропускная способность сети также сильно различаются, что еще больше ограничивает эффект от оптимизации топологии сети.
** Параллелизм модели: ** Параллелизм модели — это технология, которая разделяет параметры модели на несколько вычислительных узлов и повышает скорость обучения за счет параллельной обработки. Однако этот метод обычно требует частой передачи данных между узлами, поэтому он предъявляет высокие требования к пропускной способности сети и задержке. В централизованном компьютерном зале из-за высокой пропускной способности сети и низкой задержки модельный параллелизм может быть очень эффективным. Однако в распределенной среде параллелизм моделей сильно ограничен из-за плохого состояния сети.
4. Проблемы безопасности данных и конфиденциальности
Почти все ссылки, связанные с обработкой и передачей данных, могут повлиять на безопасность и конфиденциальность данных:
Какие существуют решения для проблем с конфиденциальностью данных?
Краткое содержание
Каждый из вышеперечисленных методов имеет свои применимые сценарии и ограничения, и ни один из методов не может полностью решить проблему конфиденциальности данных при обучении большой модели сети с распределенной вычислительной мощностью.
Может ли ZK, на которую возлагаются большие надежды, решить проблему конфиденциальности данных при обучении больших моделей?
** Теоретически ZKP можно использовать для обеспечения конфиденциальности данных в распределенных вычислениях, позволяя узлу доказать, что он выполнил вычисления в соответствии с правилами, но не требует раскрытия фактических входных и выходных данных. **
Но на самом деле в сценарии использования ZKP для обучения больших моделей сетей с распределенной вычислительной мощностью возникают следующие узкие места:
** Накладные расходы на вычисления и связь: ** Построение и проверка доказательств с нулевым разглашением требует много вычислительных ресурсов. Кроме того, коммуникационные издержки ZKP также высоки из-за необходимости передачи самого доказательства. Эти накладные расходы могут стать особенно значительными в случае обучения больших моделей. Например, если для вычисления каждого мини-пакета требуется генерация доказательства, это может значительно увеличить общее время и стоимость обучения.
**Сложность протокола ZK: **Разработка и реализация протокола ZKP, подходящего для обучения больших моделей, будет очень сложной. Этот протокол должен иметь возможность обрабатывать крупномасштабные данные и сложные вычисления, а также обрабатывать возможные аномальные ошибки.
** Аппаратная и программная совместимость: ** Для использования ZKP требуется специальная аппаратная и программная поддержка, которая может быть недоступна на всех распределенных вычислительных устройствах.
Краткое содержание
Чтобы использовать ZKP для крупномасштабной распределенной вычислительной сети, обучающей большие модели, потребуется несколько лет исследований и разработок, а также требуется больше энергии и ресурсов академического сообщества в этом направлении.
2. Распределенная вычислительная мощность — обоснование модели
Другим относительно большим сценарием распределенной вычислительной мощности является рассуждение модели.Согласно нашему мнению о пути развития больших моделей, потребность в обучении моделей будет постепенно замедляться по мере того, как большие модели совершенствуются после прохождения высшей точки.Соответственно, требования к рассуждению будут увеличиваться в геометрической прогрессии. со зрелостью крупных моделей и AIGC.
По сравнению с задачами обучения задачи логического вывода обычно имеют меньшую вычислительную сложность и более слабое взаимодействие с данными и больше подходят для распределенных сред.
(Вывод Power LLM с NVIDIA Triton)
1. Вызов
Задержка связи:
В распределенной среде связь между узлами имеет важное значение. В децентрализованной сети с распределенной вычислительной мощностью узлы могут быть разбросаны по всему миру, поэтому сетевая задержка может стать проблемой, особенно для логических задач, требующих ответа в реальном времени.
Развертывание и обновление модели:
Модель необходимо развернуть на каждом узле. Если модель обновляется, каждый узел должен обновить свою модель, что требует большой пропускной способности сети и времени.
Конфиденциальность данных:
Хотя для задач логического вывода обычно требуются только входные данные и модели и не требуется возвращать большое количество промежуточных данных и параметров, входные данные могут по-прежнему содержать конфиденциальную информацию, например личную информацию пользователей.
Безопасность модели:
В децентрализованной сети модель необходимо развернуть на недоверенных узлах, что приведет к утечке модели и приведет к проблеме прав собственности на модель и злоупотреблений. Это также может вызвать проблемы с безопасностью и конфиденциальностью. Если модель используется для обработки конфиденциальных данных, узлы могут вывести конфиденциальную информацию, анализируя поведение модели.
КК:
Каждый узел в децентрализованной сети с распределенной вычислительной мощностью может иметь разные вычислительные возможности и ресурсы, что может затруднить обеспечение производительности и качества задач логического вывода.
2. Осуществимость
Вычислительная сложность:
На этапе обучения модель должна многократно повторяться.В процессе обучения необходимо рассчитать прямое и обратное распространение каждого слоя, включая расчет функции активации, расчет функции потерь, расчет градиент и обновление веса. Поэтому вычислительная сложность обучения модели высока.
На этапе вывода для вычисления прогноза требуется только один прямой проход. Например, в GPT-3 необходимо преобразовать входной текст в вектор, а затем выполнить прямое распространение через каждый слой модели (обычно слой Transformer), и, наконец, получить выходное распределение вероятностей, и сгенерировать следующий слово согласно этому распределению. В GAN модель должна генерировать изображение на основе входного вектора шума. Эти операции включают только прямое распространение модели, не требуют вычисления градиентов или обновления параметров и имеют низкую вычислительную сложность.
Интерактивность данных:
На этапе вывода модель обычно обрабатывает один вход, а не большой пакет данных во время обучения. Результат каждого вывода зависит только от текущего ввода, а не от другого ввода или вывода, поэтому нет необходимости в большом объеме взаимодействия данных, а коммуникационное давление меньше.
Взяв в качестве примера модель генеративного изображения, предполагая, что мы используем GAN для создания изображений, нам нужно только ввести вектор шума в модель, а затем модель сгенерирует соответствующее изображение. В этом процессе каждый вход будет генерировать только один выход, и между выходами нет никакой зависимости, поэтому нет необходимости во взаимодействии с данными.
Взяв в качестве примера GPT-3, для каждого поколения следующего слова требуется только текущий ввод текста и состояние модели, и ему не нужно взаимодействовать с другими входами или выходами, поэтому требование интерактивности данных также слабое.
Краткое содержание
** Будь то большая языковая модель или модель генеративного изображения, вычислительная сложность и взаимодействие данных задач рассуждения относительно низки, и это больше подходит для децентрализованных сетей с распределенной вычислительной мощностью. Это то, что мы видим сейчас. Большинство проектов работает в одном направлении. **
3. Проект
Технический порог и техническая широта децентрализованной сети с распределенной вычислительной мощностью очень высоки, и она также требует поддержки аппаратных ресурсов, поэтому сейчас мы не видели слишком много попыток. Возьмите Вместе и Gensyn.ai в качестве примера:
1.Вместе
Компания Together фокусируется на открытом исходном коде больших моделей и привержена децентрализованным решениям для вычислительной мощности ИИ, надеясь, что любой сможет получить доступ к ИИ и использовать его где угодно. Вместе только что завершили посевной раунд на 20 миллионов долларов США под руководством Lux Capital.
Вместе были соучредителями Крис, Перси и Се. Первоначальное намерение состояло в том, что крупномасштабное обучение модели требует большого количества высокопроизводительных кластеров графических процессоров и больших расходов, и эти ресурсы и возможности обучения модели также были сосредоточены в нескольких крупные компании.
С моей точки зрения, более разумный предпринимательский план для распределенных вычислительных мощностей таков:
Шаг 1. Модель с открытым исходным кодом
Для реализации рассуждения модели в децентрализованной сети с распределенными вычислительными мощностями предварительным условием является то, что узлы должны быть в состоянии получить модель по низкой цене, то есть модель, использующая децентрализованную сеть вычислительных мощностей, должна быть с открытым исходным кодом (если модель необходимо лицензировать в соответствующем разделе. Если используется ниже, это увеличит сложность и стоимость реализации). Например, chatgpt как модель с закрытым исходным кодом не подходит для выполнения в децентрализованной сети вычислительных мощностей.
Таким образом, можно предположить, что невидимый барьер компании, предоставляющей децентрализованную сеть вычислительных мощностей, должен иметь мощные возможности крупномасштабной разработки и обслуживания моделей. Самостоятельно разработанная мощная базовая модель с открытым исходным кодом может в определенной степени избавиться от зависимости от сторонней модели с открытым исходным кодом и решить самые основные проблемы децентрализованной вычислительной сети. В то же время это больше способствует доказательству того, что вычислительная сеть может эффективно проводить обучение и анализ больших моделей.
И «Вместе» сделали то же самое. Недавно выпущенная RedPajama на основе LLaMA была запущена совместными командами, включая Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM и Hazy Research, Цель состоит в том, чтобы разработать серию больших языковых моделей с полностью открытым исходным кодом.
Шаг 2. Распределенная вычислительная мощность основывается на моделировании
Как упоминалось в двух предыдущих разделах, по сравнению с обучением модели, вывод модели имеет меньшую вычислительную сложность и взаимодействие с данными и больше подходит для децентрализованной распределенной среды.
На основе модели с открытым исходным кодом группа исследований и разработок Together внесла ряд обновлений в модель RedPajama-INCITE-3B, например, используя LoRA для недорогой тонкой настройки, чтобы модель работала на ЦП (особенно на MacBook). Pro с процессором M2 Pro) Работает на модели более шелковисто. В то же время, хотя масштаб этой модели невелик, ее возможности превосходят другие модели того же масштаба, и она нашла практическое применение в правовых, социальных и других сценариях.
Шаг 3. Распределенная вычислительная мощность используется для обучения модели
В среднесрочной и долгосрочной перспективе, несмотря на серьезные проблемы и технические узкие места, наиболее привлекательной должна быть потребность в вычислительной мощности для обучения больших моделей ИИ. Вместе начали выкладывать работу по преодолению коммуникативного узкого места в децентрализованном обучении в начале его становления. Они также опубликовали соответствующий документ о NeurIPS 2022: Преодоление коммуникационных узких мест для децентрализованного обучения. В основном можно выделить следующие направления:
При обучении в децентрализованной среде важно назначать коммуникационные задачи устройствам с более быстрым соединением, поскольку соединения между узлами имеют разную задержку и пропускную способность. Вместе строит модель для описания стоимости конкретной стратегии планирования и лучше оптимизирует стратегию планирования, чтобы минимизировать затраты на связь и максимизировать пропускную способность обучения. Команда «Вместе» также обнаружила, что, несмотря на то, что сеть была в 100 раз медленнее, пропускная способность сквозного обучения была всего в 1,7–2,3 раза ниже. Поэтому очень интересно наверстать разрыв между распределенными сетями и централизованными кластерами за счет оптимизации планирования. **
Вместе предлагает сжатие связи для прямых активаций и обратных градиентов, а также вводит алгоритм AQ-SGD, который обеспечивает строгие гарантии сходимости стохастического градиентного спуска. AQ-SGD может точно настраивать большие базовые модели в медленных сетях (например, 500 Мбит/с), что всего на 31% медленнее, чем сквозное обучение в централизованных вычислительных сетях (например, 10 Гбит/с) без сжатия. Кроме того, AQ-SGD можно комбинировать с самыми современными методами градиентного сжатия, такими как QuantizedAdam, для достижения сквозного ускорения на 10%.
Совместная конфигурация команды очень всеобъемлющая, члены имеют очень сильный академический опыт, от разработки крупномасштабных моделей, облачных вычислений до оптимизации оборудования, поддерживаются отраслевыми экспертами. И «Вместе» продемонстрировали долгосрочную и терпеливую позицию в планировании пути, от разработки больших моделей с открытым исходным кодом до тестирования простаивающих вычислительных мощностей (таких как Mac) в сети распределенных вычислительных мощностей и рассуждений с моделями, а затем до распределенных вычислительных мощностей в больших масштабах. Макет на обучение модели. — Такое ощущение скопления и тонких волос :)
Но до сих пор я не видел слишком много результатов исследований «Вместе» в стимулирующем слое, я думаю, что это так же важно, как исследования и разработки технологий, и это ключевой фактор для обеспечения развития децентрализованной вычислительной сети.
2.Gensyn.ai
Из технического пути «Вместе» мы можем примерно понять процесс внедрения децентрализованной сети вычислительных мощностей в модели обучения и рассуждений, а также соответствующие приоритеты исследований и разработок.
Другим важным моментом, который нельзя игнорировать, является разработка алгоритма уровня стимулирования/консенсуса сети вычислительной мощности.Например, отличная сеть должна иметь:
……
Посмотрите, как это делает Gensyn.ai:
В первую очередь решатели в сети вычислительных мощностей соревнуются за право обрабатывать задачи, выставленные пользователями через ставки, и в соответствии с масштабом задачи и риском быть уличенным в мошенничестве решателю необходимо внести в залог определенную сумму.
Решатель генерирует несколько контрольных точек при обновлении параметров (для обеспечения прозрачности и отслеживаемости работы) и периодически генерирует криптографические доказательства (доказательство выполнения работы) о задачах;
Когда Решатель завершит работу и сгенерирует часть результатов расчета, протокол выберет верификатор, а верификатор также заложит определенную сумму (чтобы убедиться, что верификатор честно выполняет проверку), и решит, какая часть расчета результаты должны быть проверены в соответствии с доказательствами, приведенными выше.
Через древовидную структуру данных Меркла определяется точное место, где результаты расчетов различаются. Вся операция проверки будет по цепочке, а мошенники будут вычтены из залоговой суммы.
Резюме проекта
Дизайн алгоритма стимулирования и проверки делает так, что Gensyn.ai не нужно воспроизводить все результаты всей вычислительной задачи в процессе проверки, а нужно только копировать и проверять часть результатов в соответствии с предоставленным доказательством, что значительно улучшает оперативность проверки. При этом узлам необходимо хранить только часть результатов вычислений, что также снижает потребление дискового пространства и вычислительных ресурсов. Кроме того, потенциальные мошеннические узлы не могут предсказать, какие части будут выбраны для проверки, так что это также снижает риск мошенничества;
Этот метод проверки различий и обнаружения мошенников также позволяет быстро находить ошибки в процессе расчета, не сравнивая все результаты расчета (начиная с корневого узла дерева Меркла и проходя пошагово вниз) Очень эффективен для крупномасштабных вычислительных задач.
Короче говоря, цель дизайна уровня стимулирования / проверки Gensyn.ai: лаконичность и эффективность. Однако в настоящее время он ограничен теоретическим уровнем, и конкретная реализация может столкнуться со следующими проблемами:
Об экономической модели, как установить соответствующие параметры, чтобы она могла эффективно предотвращать мошенничество, не создавая чрезмерно высокий порог для участников.
С точки зрения технической реализации, как сформулировать эффективное периодическое доказательство рассуждений о шифровании, также является сложной проблемой, требующей передовых знаний в области криптографии.
Что касается распределения задач, то, как сеть вычислительных мощностей выбирает и распределяет задачи между различными решателями, также нуждается в поддержке разумного алгоритма планирования. к механизму ставок, например, узлы с высокой вычислительной мощностью могут справляться с более масштабными задачами, но могут не участвовать в торгах (это включает в себя стимул к доступности узла), узлы с низкой вычислительной мощностью могут предлагать самые высокие ставки, но не подходят для обработки некоторых сложных крупномасштабных задач масштабные вычислительные задачи.
4. Думая о будущем
Вопрос о том, кому нужна децентрализованная сеть вычислительных мощностей, не проверен. Применение простаивающих вычислительных мощностей для обучения крупномасштабных моделей, требующих огромных ресурсов вычислительной мощности, очевидно, является наиболее разумным и наиболее творческим пространством. Но на самом деле такие узкие места, как общение и конфиденциальность, должны заставить нас переосмыслить:
Есть ли надежда на децентрализованное обучение больших моделей?
Если вы выпрыгнете из этого консенсуса, «наиболее разумный сценарий посадки», применение децентрализованных вычислительных мощностей для обучения небольших моделей ИИ также является большим сценарием. С технической точки зрения текущие ограничивающие факторы были решены из-за размера и структуры модели, В то же время, с точки зрения рынка, мы всегда чувствовали, что обучение больших моделей будет огромным с теперь в будущее, но рынок для небольших моделей ИИ еще не привлекателен?
Я так не думаю. **По сравнению с большими моделями, маленькие модели ИИ проще в развертывании и управлении, они более эффективны с точки зрения скорости обработки и использования памяти.В большом количестве сценариев приложений пользователям или компаниям не нужны более общие возможности рассуждений большие языковые модели, но он касается только очень мелкозернистой цели прогнозирования. Таким образом, в большинстве сценариев небольшие модели ИИ по-прежнему являются более жизнеспособным вариантом, и их не следует преждевременно упускать из виду в потоке больших моделей. **