¿Cuál es el uso de Web3 en la demanda sin precedentes de potencia informática de IA?

Question

**Contenido importante:*** En la actualidad, hay dos direcciones principales para la combinación de AI + Crypto: **poder de cómputo distribuido y ZKML. **Este artículo analizará y reflexionará sobre la red de potencia informática distribuida descentralizada.* **Bajo la tendencia de desarrollo de modelos a gran escala de IA, los recursos de potencia informática serán el gran campo de batalla en la próxima década, y también lo más importante para la sociedad humana en el futuro**, y no solo permanecerá en el comercio competencia, pero también **se convertirá en un gran país Los recursos estratégicos del juego. **En el futuro, la inversión en infraestructura informática de alto rendimiento y las reservas de potencia informática aumentarán exponencialmente.* **La red de poder de computación distribuida descentralizada tiene la mayor demanda de capacitación de modelos grandes de IA, pero también enfrenta los mayores desafíos y cuellos de botella técnicos. ** Incluyendo la necesidad de problemas complejos de sincronización de datos y optimización de red. Además, la privacidad y la seguridad de los datos también son limitaciones importantes. Aunque algunas técnicas existentes pueden proporcionar soluciones preliminares, todavía no son aplicables en tareas de entrenamiento distribuidas a gran escala debido a la enorme sobrecarga computacional y de comunicación.* **La red de potencia informática distribuida descentralizada tiene más posibilidades de aterrizar en el razonamiento del modelo y puede predecir que el futuro espacio incremental también es lo suficientemente grande. ** Pero también enfrenta desafíos como el retraso en la comunicación, la privacidad de los datos y la seguridad del modelo. En comparación con el entrenamiento de modelos, la inferencia tiene menor complejidad computacional e interacción de datos, y es más adecuada para entornos distribuidos.* A través de los casos de dos empresas emergentes, Together y Gensyn.ai, desde las perspectivas de optimización de tecnología y diseño de capas de incentivos, se ilustran la dirección general de la investigación y las ideas específicas de la red de potencia informática distribuida descentralizada.### 1. Potencia informática distribuida: formación de modelos grandesEstamos discutiendo la aplicación del poder de cómputo distribuido en el entrenamiento, y generalmente nos enfocamos en el entrenamiento de modelos de lenguaje grandes. La razón principal es que el entrenamiento de modelos pequeños no requiere mucho poder de cómputo. Para hacer privacidad de datos distribuidos y un montón de proyectos El problema no es rentable, es mejor resolverlo directa y centralmente. El modelo de lenguaje grande tiene una gran demanda de poder de cómputo, y ahora se encuentra en la etapa inicial del brote. De 2012 a 2018, la demanda de cómputo de IA se duplicará aproximadamente cada 4 meses. Juzgando que los próximos 5 a 8 años serán seguirá siendo una enorme demanda incremental.Si bien existen grandes oportunidades, los problemas también deben verse con claridad. Todos saben que la escena es enorme, pero ¿dónde están los desafíos específicos? Quién puede abordar estos problemas en lugar de entrar ciegamente en el juego es el núcleo para juzgar los excelentes proyectos de esta pista.![La demanda de poder de cómputo de IA no tiene precedentes, ¿cuál es el uso de Web3? ](https://img.gateio.im/social/moments-40baef27dd-d42f77bb83-dd1a6f-62a40f)(Marco de NVIDIA NeMo Megatron)#### 1. Proceso general de formaciónTome como ejemplo el entrenamiento de un modelo grande con 175 mil millones de parámetros. Debido al gran tamaño del modelo, debe entrenarse en paralelo en muchos dispositivos GPU. Supongamos que hay una sala de computadoras centralizada con 100 GPU y cada dispositivo tiene 32 GB de memoria.* **Preparación de datos:** Primero, se requiere un gran conjunto de datos, que contiene varios datos, como información de Internet, noticias, libros, etc. Estos datos deben procesarse previamente antes del entrenamiento, incluida la limpieza de texto, tokenización, construcción de vocabulario, etc.* **Segmentación de datos: **Los datos procesados se dividirán en varios lotes para el procesamiento paralelo en varias GPU. Supongamos que el tamaño del lote seleccionado es 512, es decir, cada lote contiene 512 secuencias de texto. Luego, dividimos todo el conjunto de datos en lotes, formando una cola de lotes.* **Transferencia de datos entre dispositivos:** Al comienzo de cada paso de entrenamiento, la CPU toma un lote de la cola de lotes y luego envía los datos de este lote a la GPU a través del bus PCIe. Suponiendo que la longitud media de cada secuencia de texto es de 1024 tokens, el tamaño de datos de cada lote es de aproximadamente 512 \* 1024 \* 4B = 2 MB (suponiendo que cada token esté representado por un número de punto flotante de precisión simple de 4 bytes). Este proceso de transferencia de datos generalmente solo toma unos pocos milisegundos.* **Entrenamiento paralelo: ** Después de que cada dispositivo GPU recibe los datos, comienza a realizar cálculos de pase hacia adelante y hacia atrás, y calcula el gradiente de cada parámetro. Debido a la gran escala del modelo, la memoria de una sola GPU no puede almacenar todos los parámetros, por lo que utilizamos la tecnología de modelos paralelos para distribuir los parámetros del modelo en varias GPU.* ** Agregación de degradado y actualización de parámetros: ** Después de completar el cálculo de retropropagación, cada GPU obtiene el degradado de una parte de los parámetros. Luego, estos gradientes deben agregarse en todos los dispositivos de GPU para calcular el gradiente global. Esto requiere la transmisión de datos a través de la red. Suponiendo que se utilice una red de 25 Gbps, se tarda unos 224 segundos en transmitir 700 GB de datos (suponiendo que cada parámetro utilice números de punto flotante de precisión simple, entonces 175 000 millones de parámetros equivalen a unos 700 GB). Luego, cada GPU actualiza sus parámetros almacenados de acuerdo con el gradiente global.* **Sincronización: **Después de actualizar los parámetros, todos los dispositivos de GPU deben sincronizarse para garantizar que todos usen parámetros de modelo consistentes para el siguiente paso de entrenamiento. Esto también requiere la transferencia de datos a través de la red.* **Repita los pasos de entrenamiento:** Repita los pasos anteriores hasta que se complete el entrenamiento de todos los lotes o se alcance el número predeterminado de rondas de entrenamiento (época).Este proceso implica una gran cantidad de transferencia y sincronización de datos, lo que puede convertirse en un cuello de botella para la eficiencia del entrenamiento. Por lo tanto, la optimización del ancho de banda y la latencia de la red, y el uso de estrategias eficientes de sincronización y paralelo son muy importantes para el entrenamiento de modelos a gran escala.#### 2. El cuello de botella de la sobrecarga de comunicación:Cabe señalar que el cuello de botella de la comunicación también es la razón por la cual la red de potencia de computación distribuida actual no puede realizar un entrenamiento de modelo de lenguaje grande.Cada nodo necesita intercambiar información con frecuencia para trabajar juntos, lo que crea una sobrecarga de comunicación. Para modelos de lenguaje grande, este problema es especialmente serio debido a la gran cantidad de parámetros del modelo. La sobrecarga de comunicación se divide en estos aspectos:* **Transmisión de datos: **Durante el entrenamiento, los nodos necesitan intercambiar con frecuencia los parámetros del modelo y la información de gradiente. Esto requiere la transmisión de una gran cantidad de datos en la red, consumiendo una gran cantidad de ancho de banda de la red. Si las condiciones de la red son malas o la distancia entre los nodos informáticos es grande, la demora en la transmisión de datos será alta, lo que aumentará aún más la sobrecarga de comunicación.* **Problema de sincronización: **Los nodos deben trabajar juntos durante el entrenamiento para garantizar el correcto progreso del entrenamiento. Esto requiere frecuentes operaciones de sincronización entre nodos, como actualizar los parámetros del modelo, calcular gradientes globales, etc. Estas operaciones sincrónicas deben transmitir una gran cantidad de datos en la red y deben esperar a que todos los nodos completen la operación, lo que provocará una gran sobrecarga de comunicación y tiempo de espera.* **Acumulación y actualización de gradientes: ** Durante el proceso de entrenamiento, cada nodo necesita calcular su propio gradiente y enviarlo a otros nodos para su acumulación y actualización. Esto requiere la transmisión de una gran cantidad de datos de gradiente en la red y la necesidad de esperar a que todos los nodos completen el cálculo y la transmisión de gradientes, que también es la razón de una gran cantidad de sobrecarga de comunicación.* **Consistencia de los datos: **Es necesario asegurar que los parámetros del modelo de cada nodo sean consistentes. Esto requiere sumas de verificación de datos frecuentes y operaciones de sincronización entre nodos, lo que da como resultado una gran cantidad de sobrecarga de comunicación.Aunque existen algunos métodos para reducir la sobrecarga de comunicación, como la compresión de parámetros y gradientes, estrategias paralelas eficientes, etc., estos métodos pueden introducir una carga computacional adicional o afectar negativamente el efecto de entrenamiento del modelo. Además, estos métodos no pueden resolver por completo el problema de la sobrecarga de comunicación, especialmente en el caso de malas condiciones de la red o grandes distancias entre los nodos informáticos.**Como ejemplo:**#### Red de energía informática distribuida descentralizadaEl modelo GPT-3 tiene 175 mil millones de parámetros, y si representamos estos parámetros usando números de punto flotante de precisión simple (4 bytes por parámetro), almacenar estos parámetros requiere ~700 GB de memoria. En el entrenamiento distribuido, estos parámetros deben transmitirse y actualizarse con frecuencia entre los nodos informáticos.Suponiendo que hay 100 nodos informáticos, cada nodo debe actualizar todos los parámetros en cada paso, luego cada paso debe transferir aproximadamente 70 TB (700 GB\*100) de datos. Si asumimos que un paso toma 1s (suposición muy optimista), entonces se deben transferir 70 TB de datos cada segundo. Esta demanda de ancho de banda ya supera con creces la de la mayoría de las redes y también es una cuestión de viabilidad.En realidad, debido a los retrasos en la comunicación y la congestión de la red, el tiempo de transmisión de datos puede ser mucho mayor que 1 segundo. Esto significa que los nodos informáticos pueden necesitar pasar mucho tiempo esperando la transmisión de datos en lugar de realizar cálculos reales. Esto reducirá mucho la eficiencia de la formación, y esta reducción de la eficiencia no se resuelve esperando, sino la diferencia entre lo factible y lo inviable, que hará inviable todo el proceso de formación.#### Sala de informática centralizada**Incluso en un entorno de sala de computadoras centralizada, el entrenamiento de modelos grandes aún requiere una gran optimización de la comunicación. **En un entorno de sala de informática centralizada, los dispositivos informáticos de alto rendimiento se utilizan como un clúster, conectados a través de una red de alta velocidad para compartir tareas informáticas. Sin embargo, incluso cuando se entrena un modelo con una cantidad extremadamente grande de parámetros en un entorno de red de alta velocidad, la sobrecarga de comunicación sigue siendo un cuello de botella, porque los parámetros y gradientes del modelo deben transmitirse y actualizarse con frecuencia entre varios dispositivos informáticos. .Como se mencionó al principio, suponga que hay 100 nodos informáticos y cada servidor tiene un ancho de banda de red de 25 Gbps. Si cada servidor necesita actualizar todos los parámetros en cada paso de entrenamiento, entonces cada paso de entrenamiento necesita transferir alrededor de 700 GB de datos y toma ~224 segundos. Al aprovechar la sala de computadoras centralizada, los desarrolladores pueden optimizar la topología de la red dentro del centro de datos y usar tecnologías como el paralelismo de modelos para reducir significativamente este tiempo.Por el contrario, si el mismo entrenamiento se realiza en un entorno distribuido, suponiendo que todavía hay 100 nodos de computación distribuidos por todo el mundo, el ancho de banda de red promedio de cada nodo es de solo 1 Gbps. En este caso, se necesitan ~5600 segundos para transferir los mismos 700 GB de datos, que es mucho más que en la sala de computadoras centralizada. Además, debido a los retrasos y la congestión de la red, el tiempo real requerido puede ser mayor.Sin embargo, en comparación con la situación en una red de potencia informática distribuida, es relativamente fácil optimizar la sobrecarga de comunicación en un entorno de sala de ordenadores centralizado. Porque en un entorno de sala de computadoras centralizado, los dispositivos informáticos generalmente están conectados a la misma red de alta velocidad, y el ancho de banda y la demora de la red son relativamente buenos. En una red de potencia informática distribuida, los nodos informáticos pueden estar distribuidos por todo el mundo y las condiciones de la red pueden ser relativamente deficientes, lo que hace que el problema de la sobrecarga de comunicaciones sea más grave.En el proceso de entrenamiento de GPT-3, OpenAI utiliza un marco paralelo modelo llamado Megatron para resolver el problema de la sobrecarga de comunicación. Megatron divide los parámetros del modelo y los procesa en paralelo entre múltiples GPU, y cada dispositivo solo es responsable de almacenar y actualizar una parte de los parámetros, reduciendo así la cantidad de parámetros que cada dispositivo necesita procesar y reduciendo la sobrecarga de comunicación. Al mismo tiempo, también se utiliza una red de interconexión de alta velocidad durante el entrenamiento y la longitud de la ruta de comunicación se reduce al optimizar la topología de la red.![La demanda de poder de cómputo de IA no tiene precedentes, ¿cuál es el uso de Web3? ](https://img.gateio.im/social/moments-40baef27dd-3b094d8e77-dd1a6f-62a40f)### 3. ¿Por qué la red de potencia informática distribuida no puede realizar estas optimizaciones?Se puede hacer, pero en comparación con la sala de computadoras centralizada, el efecto de estas optimizaciones es muy limitado.**Optimización de la topología de la red:** En la sala de cómputo centralizada, el hardware y el diseño de la red se pueden controlar directamente, por lo que la topología de la red se puede diseñar y optimizar de acuerdo con las necesidades. Sin embargo, en un entorno distribuido, los nodos informáticos se distribuyen en distintas ubicaciones geográficas, incluso uno en China y otro en Estados Unidos, y no hay forma de controlar directamente la conexión de red entre ellos. Aunque se puede usar software para optimizar la ruta de transmisión de datos, no es tan efectivo como optimizar directamente la red de hardware. Al mismo tiempo, debido a las diferencias en las ubicaciones geográficas, los retrasos de la red y los anchos de banda también varían mucho, lo que limita aún más el efecto de la optimización de la topología de la red.**Paralelismo del modelo:**El paralelismo del modelo es una tecnología que divide los parámetros del modelo en varios nodos informáticos y mejora la velocidad de entrenamiento a través del procesamiento en paralelo. Sin embargo, este método generalmente necesita transmitir datos entre nodos con frecuencia, por lo que tiene requisitos altos de latencia y ancho de banda de la red. En una sala de computadoras centralizada, debido al alto ancho de banda de la red y la baja latencia, el paralelismo de modelos puede ser muy efectivo. Sin embargo, en un entorno distribuido, el paralelismo del modelo está muy limitado debido a las malas condiciones de la red.### 4. Desafíos de privacidad y seguridad de datosCasi todos los enlaces que involucran el procesamiento y la transmisión de datos pueden afectar la seguridad y privacidad de los datos:* **Distribución de datos: **Los datos de entrenamiento deben distribuirse a cada nodo que participa en el cálculo. Los datos en este enlace pueden usarse/filtrarse de manera malintencionada en nodos distribuidos.* **Entrenamiento del modelo: **Durante el proceso de entrenamiento, cada nodo usará sus datos asignados para el cálculo y luego generará la actualización o el gradiente de los parámetros del modelo. Durante este proceso, si se roba el proceso de cálculo del nodo o se analiza maliciosamente el resultado, también se pueden filtrar datos.* **Agregación de parámetros y gradientes:** Las salidas de los nodos individuales deben agregarse para actualizar el modelo global, y la comunicación durante el proceso de agregación también puede filtrar información sobre los datos de entrenamiento.### ¿Qué soluciones existen para los problemas de privacidad de datos?* **Cómputo seguro de múltiples partes:**SMC se ha aplicado con éxito en algunas tareas informáticas específicas a pequeña escala. Sin embargo, en tareas de entrenamiento distribuidas a gran escala, debido a su gran sobrecarga computacional y de comunicación, aún no se ha utilizado ampliamente.* **Privacidad diferencial: ** Aplicado en determinadas tareas de recopilación y análisis de datos, como estadísticas de usuarios de Chrome, etc. Pero en tareas de aprendizaje profundo a gran escala, DP tendrá un impacto en la precisión del modelo. Al mismo tiempo, también es un desafío diseñar un mecanismo apropiado de generación y adición de ruido.* **Aprendizaje federal: **Aplicado en algunas tareas de entrenamiento de modelos de dispositivos perimetrales, como predicción de vocabulario para teclados Android, etc. Sin embargo, en tareas de entrenamiento distribuidas a gran escala, FL se enfrenta a problemas como una alta sobrecarga de comunicación y una coordinación compleja.* **Cifrado homomórfico:** se ha aplicado con éxito en algunas tareas con menor complejidad computacional. Sin embargo, en tareas de entrenamiento distribuidas a gran escala, debido a su alta sobrecarga computacional, aún no ha sido ampliamente utilizado.**Resumen**Cada uno de los métodos anteriores tiene sus escenarios y limitaciones aplicables, y ninguno de los métodos puede resolver por completo el problema de la privacidad de los datos en el entrenamiento de modelos grandes de la red de potencia informática distribuida.¿Puede ZK, que tiene grandes esperanzas, resolver el problema de la privacidad de datos en el entrenamiento de modelos grandes?**En teoría, ZKP se puede usar para garantizar la privacidad de los datos en la computación distribuida, lo que permite que un nodo demuestre que ha realizado cálculos de acuerdo con las regulaciones, pero no necesita revelar los datos reales de entrada y salida. **Pero, de hecho, los siguientes **cuellos de botella** se enfrentan en el escenario de usar ZKP para modelos grandes de entrenamiento de red de potencia informática distribuida a gran escala:** Aumento de los gastos generales de computación y comunicación: ** Construir y verificar pruebas de conocimiento cero requiere una gran cantidad de recursos informáticos. Además, la sobrecarga de comunicación de ZKP también es alta, debido a la necesidad de transmitir la prueba en sí. Estos gastos generales pueden volverse especialmente significativos en el caso del entrenamiento de modelos grandes. Por ejemplo, si el cálculo de cada minilote requiere la generación de una prueba, esto puede aumentar significativamente el tiempo y el costo total del entrenamiento.**Complejidad del protocolo ZK: **Diseñar e implementar un protocolo ZKP adecuado para el entrenamiento de modelos grandes será muy complicado. Este protocolo debe poder manejar datos a gran escala y cálculos complejos, y debe poder manejar posibles errores anormales.**Compatibilidad de hardware y software: **El uso de ZKP requiere soporte específico de hardware y software, que puede no estar disponible en todos los dispositivos informáticos distribuidos.### ResumenPara utilizar ZKP para la formación de grandes modelos de red de potencia informática distribuida a gran escala, llevará varios años de investigación y desarrollo, y también requiere más energía y recursos de la comunidad académica en esta dirección.### 2. Potencia informática distribuida: razonamiento modeloOtro escenario relativamente grande de poder de cómputo distribuido es el razonamiento de modelos. De acuerdo con nuestro juicio sobre la ruta de desarrollo de modelos grandes, la demanda de entrenamiento de modelos se ralentizará gradualmente a medida que los modelos grandes maduren después de pasar un punto alto. Los requisitos de razonamiento aumentarán exponencialmente en consecuencia. con la madurez de los modelos grandes y AIGC.En comparación con las tareas de entrenamiento, las tareas de inferencia suelen tener una menor complejidad computacional y una interacción de datos más débil, y son más adecuadas para entornos distribuidos.![La demanda de poder de cómputo de IA no tiene precedentes, ¿cuál es el uso de Web3? ](https://img.gateio.im/social/moments-40baef27dd-b51ef145fc-dd1a6f-62a40f)(Power LLM inferencia con NVIDIA Triton)#### 1. Desafío**Retraso en la comunicación:**En un entorno distribuido, la comunicación entre nodos es fundamental. En una red de potencia informática distribuida descentralizada, los nodos pueden estar repartidos por todo el mundo, por lo que la latencia de la red puede ser un problema, especialmente para tareas de razonamiento que requieren una respuesta en tiempo real.**Implementación y actualización del modelo:**El modelo debe implementarse en cada nodo. Si se actualiza el modelo, cada nodo necesita actualizar su modelo, lo que consume mucho ancho de banda y tiempo de la red.**Privacidad de datos:**Aunque las tareas de inferencia generalmente solo requieren datos y modelos de entrada, y no necesitan devolver una gran cantidad de datos y parámetros intermedios, los datos de entrada aún pueden contener información confidencial, como la información personal de los usuarios.**Seguridad del modelo:**En una red descentralizada, el modelo debe implementarse en nodos no confiables, lo que provocará la fuga del modelo y generará el problema de los derechos de propiedad y el abuso del modelo. Esto también puede generar problemas de seguridad y privacidad, si se usa un modelo para procesar datos confidenciales, los nodos pueden inferir información confidencial al analizar el comportamiento del modelo.**Control de calidad:**Cada nodo en una red de potencia informática distribuida descentralizada puede tener diferentes capacidades y recursos informáticos, lo que puede dificultar la garantía del rendimiento y la calidad de las tareas de inferencia.#### 2. Viabilidad**Complejidad computacional:**En la fase de entrenamiento, el modelo necesita iterar repetidamente. Durante el proceso de entrenamiento, es necesario calcular la propagación hacia adelante y hacia atrás para cada capa, incluido el cálculo de la función de activación, el cálculo de la función de pérdida, el cálculo del gradiente y la actualización del peso. . Por lo tanto, la complejidad computacional del entrenamiento de modelos es alta.En la fase de inferencia, solo se requiere un paso hacia adelante para calcular la predicción. Por ejemplo, en GPT-3, es necesario convertir el texto de entrada en un vector y luego realizar la propagación hacia adelante a través de cada capa del modelo (generalmente la capa del Transformador), y finalmente obtener la distribución de probabilidad de salida y generar la siguiente palabra de acuerdo con esta distribución. En GAN, el modelo necesita generar una imagen basada en el vector de ruido de entrada. Estas operaciones solo involucran la propagación hacia adelante del modelo, no necesitan calcular gradientes o actualizar parámetros y tienen una baja complejidad computacional.**Interactividad de datos:**Durante la fase de inferencia, el modelo generalmente procesa una sola entrada en lugar del gran lote de datos durante el entrenamiento. El resultado de cada inferencia solo depende de la entrada actual, no de otra entrada o salida, por lo que no hay necesidad de una gran cantidad de interacción de datos y la presión de comunicación es menor.Tomando el modelo de imagen generativa como ejemplo, suponiendo que usamos GAN para generar imágenes, solo necesitamos ingresar un vector de ruido al modelo, y luego el modelo generará una imagen correspondiente. En este proceso, cada entrada solo generará una salida y no hay dependencia entre las salidas, por lo que no hay necesidad de interacción de datos.Tomando GPT-3 como ejemplo, cada generación de la siguiente palabra solo requiere la entrada de texto actual y el estado del modelo, y no necesita interactuar con otras entradas o salidas, por lo que el requisito de interactividad de datos también es débil.#### Resumen**Ya sea que se trate de un modelo de lenguaje grande o un modelo de imagen generativa, la complejidad computacional y la interacción de datos de las tareas de razonamiento son relativamente bajas, y es más adecuado para redes de potencia de cómputo distribuidas descentralizadas. Esto es lo que vemos ahora. La mayoría de los proyectos son trabajando en una dirección. **### 3. ProyectoEl umbral técnico y la amplitud técnica de una red de potencia informática distribuida descentralizada son muy altos, y también requiere el apoyo de recursos de hardware, por lo que no hemos visto demasiados intentos ahora. Tome Together y Gensyn.ai como ejemplos:#### 1.JuntosTogether es una empresa que se enfoca en el código abierto de modelos grandes y está comprometida con las soluciones de poder de cómputo de IA descentralizadas. Espera que cualquiera pueda acceder y usar IA en cualquier lugar. Juntos acaban de completar una ronda semilla de 20 millones de USD liderada por Lux Capital.Juntos fue cofundado por Chris, Percy y Ce. La intención original era que el entrenamiento de modelos a gran escala requiriera una gran cantidad de clústeres de GPU de alta gama y gastos costosos, y estos recursos y capacidades de entrenamiento de modelos también se concentraron en unos pocos grandes compañias.Desde mi punto de vista, un plan empresarial más razonable para el poder de cómputo distribuido es:**Paso 1. Modelo de código abierto**Para implementar el razonamiento de modelos en una red de potencia de cómputo distribuida descentralizada, el requisito previo es que los nodos deben poder obtener el modelo a bajo costo, es decir, el modelo que utiliza la red de potencia de cómputo descentralizada debe ser de código abierto (si el modelo necesita ser licenciado en el correspondiente Si se usa a continuación, aumentará la complejidad y el costo de la implementación). Por ejemplo, chatgpt, como modelo de código no abierto, no es adecuado para su ejecución en una red de potencia informática descentralizada.Por lo tanto, se puede especular que la barrera invisible de una empresa que proporciona una red de potencia informática descentralizada debe tener capacidades sólidas de desarrollo y mantenimiento de modelos a gran escala. Un poderoso modelo base desarrollado por sí mismo y de código abierto puede deshacerse de la dependencia del modelo de código abierto de terceros hasta cierto punto y resolver los problemas más básicos de la red de potencia informática descentralizada. Al mismo tiempo, es más propicio para demostrar que la red de potencia informática puede llevar a cabo de manera efectiva el entrenamiento y el razonamiento de modelos grandes.Y Juntos hizo lo mismo. El RedPajama basado en LLaMA lanzado recientemente fue lanzado conjuntamente por equipos que incluyen a Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM y Hazy Research. El objetivo es desarrollar una serie de modelos de lenguaje grande de código abierto.**Paso 2. El poder de cómputo distribuido aterrizó en el razonamiento del modelo**Como se mencionó en las dos secciones anteriores, en comparación con el entrenamiento de modelos, la inferencia de modelos tiene menor complejidad computacional e interacción de datos, y es más adecuada para un entorno distribuido descentralizado.Sobre la base del modelo de código abierto, el equipo de I+D de Together ha realizado una serie de actualizaciones en el modelo RedPajama-INCITE-3B, como el uso de LoRA para lograr un ajuste fino de bajo coste, haciendo que el modelo se ejecute en la CPU (especialmente en MacBook Pro con procesador M2 Pro) Funciona en el modelo más sedoso. Al mismo tiempo, aunque la escala de este modelo es pequeña, su capacidad supera a otros modelos de la misma escala y se ha aplicado prácticamente en escenarios legales, sociales y otros.**Paso 3. El poder de la computación distribuida aterrizó en el entrenamiento del modelo**![La demanda de poder de cómputo de IA no tiene precedentes, ¿cuál es el uso de Web3? ](https://img.gateio.im/social/moments-40baef27dd-5dd0ba1e52-dd1a6f-62a40f)A medio y largo plazo, aunque con grandes retos y cuellos de botella técnicos, debe ser el más atractivo para acometer la demanda de potencia de cálculo para la formación de grandes modelos de IA. Juntos comenzaron a diseñar el trabajo sobre cómo superar el cuello de botella de comunicación en la formación descentralizada al comienzo de su establecimiento. También publicaron un artículo relacionado sobre NeurIPS 2022: Superación de los cuellos de botella de comunicación para la capacitación descentralizada. Principalmente podemos resumir las siguientes direcciones:* **Optimización de la programación**Cuando se entrena en un entorno descentralizado, es importante asignar tareas de comunicación intensiva a dispositivos con conexiones más rápidas porque las conexiones entre nodos tienen diferentes latencias y anchos de banda. Together construye un modelo para describir el costo de una estrategia de programación específica y optimiza mejor la estrategia de programación para minimizar los costos de comunicación y maximizar el rendimiento de la capacitación. El equipo de Together también descubrió que, aunque la red era 100 veces más lenta, el rendimiento de la capacitación de extremo a extremo era solo de 1,7 a 2,3 veces más lento. Por lo tanto, es muy interesante recuperar la brecha entre las redes distribuidas y los clústeres centralizados mediante la optimización de la programación. *** **Optimización de la compresión de comunicaciones**Together propone la compresión de comunicación para activaciones directas y gradientes inversos, e introduce el algoritmo AQ-SGD, que proporciona garantías estrictas para la convergencia de descenso de gradiente estocástico. AQ-SGD puede ajustar con precisión modelos de base grandes en redes lentas (p. ej., 500 Mbps), solo un 31 % más lento que el rendimiento de entrenamiento de extremo a extremo en redes informáticas centralizadas (p. ej., 10 Gbps) sin compresión. Además, AQ-SGD se puede combinar con técnicas de compresión de gradiente de última generación, como QuantizedAdam, para lograr un 10 % de aceleración de extremo a extremo.* **Resumen del proyecto**La configuración del equipo en conjunto es muy completa, los miembros tienen una formación académica muy sólida, desde el desarrollo de modelos a gran escala, la computación en la nube hasta la optimización de hardware cuentan con el apoyo de expertos de la industria. Y Together mostró una postura paciente y a largo plazo en la planificación de rutas, desde el desarrollo de grandes modelos de código abierto hasta la prueba de la potencia informática inactiva (como mac) en la red de potencia informática distribuida y el razonamiento con modelos, y luego a la potencia informática distribuida en grandes Diseño en entrenamiento de modelos. — Existe ese tipo de acumulación y sensación de cabello fino :)Pero hasta ahora, no he visto demasiados resultados de investigación de Together en la capa de incentivos.Creo que esto es tan importante como la investigación y el desarrollo de tecnología, y es un factor clave para garantizar el desarrollo de una red de potencia informática descentralizada.#### 2.Gensyn.aiDesde la ruta técnica de Together, podemos comprender aproximadamente el proceso de implementación de la red de potencia informática descentralizada en el entrenamiento y el razonamiento del modelo, así como las prioridades de investigación y desarrollo correspondientes.Otro punto importante que no se puede ignorar es el diseño de la capa de incentivos/algoritmo de consenso de la red de potencia de cómputo, por ejemplo, una red excelente debe tener:* Asegúrese de que los beneficios sean lo suficientemente atractivos;* Garantizar que cada minero obtenga los beneficios que se merece, incluida la lucha contra las trampas y más paga por más trabajo;* Asegúrese de que las tareas se programen y asignen de manera directa y razonable en diferentes nodos, y que no haya una gran cantidad de nodos inactivos o superpoblación de algunos nodos;* El algoritmo de incentivos es simple y eficiente, y no causará demasiada carga ni retrasos en el sistema;……Vea cómo lo hace Gensyn.ai:* **Conviértete en un Nodo**En primer lugar, los solucionadores en la red de potencia informática compiten por el derecho a procesar las tareas enviadas por los usuarios a través de ofertas y, de acuerdo con la escala de la tarea y el riesgo de que se descubra que está haciendo trampa, el solucionador debe hipotecar una cierta cantidad.* **verificar**Solver genera múltiples puntos de control mientras actualiza los parámetros (para garantizar la transparencia y la trazabilidad del trabajo), y genera periódicamente pruebas de razonamiento criptográfico (prueba del progreso del trabajo) sobre las tareas;Cuando el solucionador complete el trabajo y genere una parte de los resultados del cálculo, el protocolo seleccionará un verificador y el verificador también prometerá una cierta cantidad (para garantizar que el verificador realice la verificación honestamente) y decidirá qué parte del cálculo los resultados deben verificarse de acuerdo con las pruebas proporcionadas anteriormente.* **Si el solucionador y el verificador divergen**A través de la estructura de datos basada en el árbol de Merkle, se localiza la ubicación exacta donde difieren los resultados del cálculo. Toda la operación de verificación estará en la cadena y los tramposos se deducirán de la cantidad prometida.**Resumen del proyecto**El diseño del algoritmo de incentivo y verificación hace que Gensyn.ai no necesite reproducir todos los resultados de toda la tarea informática durante el proceso de verificación, sino que solo necesite copiar y verificar una parte de los resultados de acuerdo con la prueba proporcionada, lo que mejora enormemente la eficacia de la verificación. Al mismo tiempo, los nodos solo necesitan almacenar parte de los resultados de los cálculos, lo que también reduce el consumo de espacio de almacenamiento y recursos informáticos. Además, los posibles nodos de trampas no pueden predecir qué partes se seleccionarán para la verificación, por lo que esto también reduce el riesgo de trampas;Este método de verificación de diferencias y descubrimiento de tramposos también puede encontrar rápidamente errores en el proceso de cálculo sin comparar todos los resultados del cálculo (comenzando desde el nodo raíz del árbol de Merkle y recorriendo paso a paso). Muy efectivo para tareas informáticas a gran escala.En resumen, el objetivo de diseño de la capa de incentivos/verificación de Gensyn.ai es: conciso y eficiente. Sin embargo, actualmente se limita al nivel teórico y la implementación específica puede enfrentar los siguientes **desafíos:****Sobre el modelo económico**, cómo establecer los parámetros adecuados para que pueda prevenir el fraude de manera efectiva sin crear un umbral demasiado alto para los participantes.**En términos de implementación técnica,** cómo formular una prueba de razonamiento de encriptación periódica efectiva también es un tema complejo que requiere conocimientos criptográficos avanzados.**En términos de asignación de tareas**, la forma en que la red de poder de cómputo selecciona y asigna tareas a diferentes solucionadores también necesita el apoyo de un algoritmo de programación razonable. Obviamente, es cuestionable en términos de eficiencia y factibilidad para asignar tareas solo de acuerdo con al mecanismo de oferta, por ejemplo, los nodos con una gran potencia de cálculo pueden manejar tareas de mayor escala, pero es posible que no participen en las ofertas (esto implica el incentivo para la disponibilidad del nodo), los nodos con poca potencia de cálculo pueden ofertar más alto, pero no son adecuados para procesar algunas tareas complejas a gran escala tareas informáticas a gran escala.### 4. Pensar en el futuroLa cuestión de quién necesita una red de potencia informática descentralizada no se ha verificado. La aplicación de la potencia informática inactiva al entrenamiento de modelos a gran escala que requiere enormes recursos de potencia informática es obviamente el espacio más sensato y más imaginativo. Pero, de hecho, cuellos de botella como la comunicación y la privacidad nos tienen que hacer replantearnos:¿Hay realmente esperanza para el entrenamiento descentralizado de modelos grandes?Si salta de este consenso, "el escenario de aterrizaje más razonable", la aplicación de la potencia informática descentralizada para el entrenamiento de pequeños modelos de IA también es un gran escenario. Desde un punto de vista técnico, se han resuelto las limitaciones actuales debido al tamaño y la estructura del modelo, al mismo tiempo, desde el punto de vista del mercado, siempre hemos sentido que el entrenamiento de modelos grandes será enorme desde ahora hacia el futuro, pero el mercado de pequeños modelos de IA ¿Ya no es atractivo?No me parece. **En comparación con los modelos grandes, los modelos pequeños de IA son más fáciles de implementar y administrar, y son más eficientes en términos de velocidad de procesamiento y uso de memoria. En una gran cantidad de escenarios de aplicaciones, los usuarios o las empresas no necesitan las capacidades de razonamiento más generales de grandes modelos de lenguaje, pero solo se preocupa por un objetivo de predicción muy detallado. Por lo tanto, en la mayoría de los escenarios, los modelos pequeños de IA siguen siendo la opción más viable y no deben pasarse por alto prematuramente en la marea de modelos fomo grandes. **