Título original: "Detrás del modelo "Jiang Ziya", la evolución de un equipo profesional de IA"
Desde que los científicos desarrollaron el primer programa de IA "damas" en 1956, la IA se ha desarrollado durante casi 70 años. Durante este período, ha habido varios flujos y reflujos, pero un hilo principal lo atraviesa: el "modelado": la proporción de "modelo" en la IA es cada vez mayor. Esta tendencia alcanzó su punto máximo después de la aparición del gran modelo de lenguaje ChatGPT.
"Creemos firmemente que el futuro de la IA es el mundo de los modelos, y no podemos dejar de enfatizar los modelos".
El 22 de julio, en la conferencia AGI Playground organizada por Geek Park, dijo Zhang Jiaxing, científico presidente de computación cognitiva y lenguaje natural en el Instituto de Investigación IDEA (Economía Digital del Área de la Gran Bahía de Guangdong-Hong Kong-Macao).
En 2021, Zhang Jiaxing dirigió el equipo CCNL Fengshenbang del Instituto de Investigación IDEA para crear el sistema de modelo de preentrenamiento de código abierto más grande de China "Fengshenbang", que es el "precursor" del modelo. Fueron testigos del "cambio de paradigma" provocado por los modelos grandes.
Zhang Jiaxing cree que esta transferencia incluye dos palabras clave, "desaparecer" y "formar". "Desaparición" significa que Con la llegada del modelo grande de uso general de ChatGPT, los tipos específicos de modelos que solían hacer extracción de información, preguntas y respuestas y salida de texto están desapareciendo. "Formación" significa que la capacidad de probar la ingeniería detrás del modelo grande formará un nuevo nicho ecológico** desde el nacimiento del modelo hasta el ajuste y el aterrizaje.
IDEA Research Institute CCNL también se está instalando en el nuevo nicho ecológico.
Además de desarrollar un modelo de capacidad total, en la actualidad, el equipo de Fengshenbang ha generado un gran modelo de propósito general de "Jiang Ziya" (Ziya) basado en LLaMa, que se ha aplicado a escenarios como humanos digitales y redacción publicitaria. Hace aproximadamente un mes, también entrenaron una serie de modelos expertos, como modelos multimodales, modelos de código, modelos de escritura, modelos de diálogo, etc. Este último puede ayudar a los usuarios a escribir artículos, redacción de nuevos medios, guiones de transmisión en vivo, carteles promocionales e incluso novelas en línea.
Zhang Jiaxing cree que en este enorme ecosistema, los empresarios pueden pensar dónde ocupar el nicho ecológico en función de sus propias fortalezas. “Cualquiera que esté interesado en ingresar al campo de los modelos grandes puede encontrar su lugar en él”, dijo.
El siguiente es el texto completo del discurso de Zhang Jiaxing en la Conferencia AGI Playground, editado por Geek Park:
En la conferencia AGI Playground organizada por Geek Park, Zhang Jiaxing pronunció un discurso
01. Era de modelos grandes: nuevo paradigma y nueva ecología
Este año, cuando hablamos de modelos grandes y AGI, siempre tomamos los modelos grandes como algo natural en IA. En el futuro, incluso si retrocedemos hasta 1997, una cosa muy importante es que "Deep Blue" derrotó a "Kasparov". Incluso ese sistema de IA no tiene un modelo de aprendizaje profundo.
Todo el proceso de desarrollo de la IA comenzó en 1956 y han pasado 70 años. Aunque la IA ha experimentado varios flujos y reflujos, podemos encontrar que el desarrollo de la IA ha estado avanzando a lo largo de una línea, que es el proceso de modelado de la IA: la proporción de modelos en la IA es cada vez más fuerte. Hoy creemos firmemente que en el futuro la IA estará dominada por modelos, y no podemos dejar de enfatizar los modelos.
Imagen: Zhang Jiaxing habla sobre el proceso de "modelado" de la IA
Todos decimos que el modelo grande esta vez es un cambio en el "paradigma técnico", que se puede resumir en dos palabras clave, "desaparecer" y "formar".
"Desaparecer" se refiere a la desaparición del tipo. Hace medio año, todo el campo de la IA se inundó con diferentes tipos de estructuras y tareas de IA. Por ejemplo, en términos de estructura, hay varias estructuras modelo como BERT y T5. Por ejemplo, en cuanto a tareas, hay varias tareas como clasificación, extracción de información, redacción de resúmenes y preguntas y respuestas. Sin embargo, con la llegada de la era de los grandes modelos de propósito general, esta diversidad está desapareciendo.
En este momento, la única estructura del modelo es GPT y las únicas tareas son la entrada y salida de texto. Entonces, los conceptos anteriores de IA, como el análisis de oraciones, las palabras clave y otros conceptos, se han desvanecido gradualmente de nuestro campo de visión. Además, el uso de modelos hoy ya no está a discreción del proveedor de la tecnología, sino a discreción del cliente que la usa.
Y "formación" se refiere a la formación de la cadena productiva. La construcción de un modelo requiere una gran inversión de recursos, y casi nadie puede completar esta tarea de principio a fin solo. Requiere un gran equipo y mucha potencia informática detrás para pulirlo. Desde la concepción inicial del modelo, hasta la puesta a punto de varias etapas en el medio, y hasta la práctica de aterrizaje final, esto constituye una cadena de producción completa.
A partir de la "desaparición" y la "formación", podemos ver el "cambio de paradigma" del gran modelo. A veces, el progreso tecnológico es implacable, independiente de la voluntad individual, y los nuevos paradigmas tecnológicos reemplazarán a los viejos paradigmas tecnológicos.
Entonces, ¿cuál es el valor de los grandes modelos como este nuevo paradigma tecnológico? En mi opinión, trae cuatro valores completamente nuevos:
1 comprensión completamente nueva
En términos de comprensión del lenguaje natural, el gran modelo actual supera con creces a todos los modelos anteriores. Parece entender realmente el significado de cada una de nuestras palabras. Si bien las respuestas pueden no ser del todo precisas, emerge un nuevo nivel de comprensión.
2 herramientas nuevas
No es solo una herramienta para mejorar la eficiencia, sino que también puede liberar a las personas del trabajo pesado. También es una herramienta creativa que puede crear cosas que los humanos no pueden crear. Por ejemplo, el modelo de difusión del año pasado demostró las capacidades del gráfico de Vinsen.
3 nueva interfaz
En el pasado, teníamos que escribir programas para acceder a datos y API, pero ahora, parece que ya no necesitamos escribir códigos engorrosos, solo necesitamos describir en lenguaje natural, y el modelo grande puede generar códigos automáticamente.
4 MOTORES NUEVOS
El modelo grande no es solo un punto único de capacidad, puede usarse como un motor para impulsar la recuperación de información, la generación de diálogos e incluso la creación de historias.
El modelo grande también trae una nueva ecología, que es cómo integrarse con la industria e implementarla.
Creemos que los grandes modelos no son solo API simples o modelos inmutables. Hacemos hincapié en que después de que la empresa upstream produzca el modelo, los clientes downstream deben realizar más capacitación y correr la última milla. De esta forma, el modelo puede integrarse en el escenario propio de cada cliente. A medida que el modelo funciona mejor, se recopilan más datos, lo que a su vez fortalece el modelo. Esto realmente puede promover el desarrollo de toda la industria.
En esta nueva ecología, la empresa que está más arriba es la que hace el modelo base, y hay muchos equipos debajo del modelo base, que se centrarán en modelos de capacidades o campos específicos. Para continuar, es cooperar con las empresas de soluciones, los fabricantes de la nube y los fabricantes de hardware para crear una variedad de productos y, finalmente, servir a las empresas y gobiernos de aterrizaje.
Imagen: La nueva ecología del modelo grande descrita por Zhang Jiaxing
Desde el modelo base hasta la implementación real, esto involucra muchos vínculos y vínculos, y también dio origen a muchos nichos ecológicos nuevos. Creo que todos pueden combinar sus propias fortalezas y pensar dónde quieren ocupar en este ecosistema. De hecho, cualquiera que esté dispuesto a dedicarse al campo de las maquetas a gran escala puede encontrar su sitio en él.
02. ** Detrás del gran modelo de "Jiang Ziya"**
Somos un equipo desde hace dos años, y está claro por nuestra experiencia que este cambio de paradigma nos ha afectado.
Hasta finales del año pasado, estábamos desarrollando una gran cantidad de modelos de código abierto, haciendo diferentes estructuras de modelos y tipos de tareas. En solo un año, tenemos 98 modelos de código abierto, estableciendo un récord en el campo chino.
Sin embargo, a fines del año pasado, el modelo de Wen Shengtu apareció repentinamente como un producto de moda. Así que comenzamos a girar e hicimos el primer modelo de difusión estable de código abierto en chino, al que llamamos modelo "Taiyi". Esperamos estar al día con los cambios de paradigma tecnológico para modelos grandes.
En la era actual de modelos grandes de propósito general, nuestro equipo está trabajando horas extras para entrenar los mejores modelos grandes de base de código abierto para chino. Esto se conoce como LLaMA2. Entrenamos tokens 20B. En comparación con el modelo "ziya-LLaMA-13B" previamente entrenado, la velocidad de entrenamiento aumentó en un 38%, lo que resolvió por completo el problema del "vuelo de entrenamiento" inestable (entrenamiento anormal) durante el proceso de entrenamiento.
Figura: Después de entrenar el token 20B, LLaMA2 resuelve el problema inestable del "vuelo de entrenamiento" durante el proceso de entrenamiento
Después de que entrenemos este modelo, será completamente de código abierto y no habrá restricciones en las aplicaciones comerciales. Al mismo tiempo, prometemos continuar entrenando este modelo, con la esperanza de proporcionar la mejor base de modelos de código abierto y comercialmente disponible para toda la gran comunidad de modelos.
Bajo el paradigma tecnológico actual, la introducción de ChatGPT este año ha entusiasmado a muchas personas, diciendo que el modelo grande de uso general interrumpirá todos los ámbitos de la vida. Sin embargo, con el paso del tiempo, nos calmamos y descubrimos que el modelo grande es en realidad solo una purificación y optimización de la escena existente. Por lo tanto, reconocemos que aún existen muchas posibilidades y oportunidades para la aplicación de modelos grandes en industrias, dominios y capacidades verticales.
Entonces, hace aproximadamente un mes, nuestro equipo produjo una serie de modelos expertos, como modelos multimodales, modelos de código, modelos de escritura, modelos de diálogo, etc. Muchos de ellos ya se han estrenado y están al mejor nivel en la materia.
Recientemente hemos abierto el modelo de colaboración chino, llamado "escritura Ziya". Esperamos que este modelo pueda convertirse en un asistente listo para usar para brindar apoyo a empresas e individuos para mejorar la eficiencia. Por ejemplo, el personal del gobierno puede pedirle a Ziya que escriba para ayudar a escribir un informe de desastre, o escribir el discurso de un líder en la ceremonia de apertura, porque se ajusta muy bien al estilo del informe de políticas.
Además, también puede liberar a los creadores, operadores y comercializadores de la comunidad china para ayudar a escribir varios tipos de artículos, redacción de textos publicitarios, artículos blandos e incluso crear excelentes historias cortas, o incluso una antigua novela web de fantasía. Podemos ver que tiene un muy buen desempeño en términos de lógica de estructura de capítulos y argumento.
También desarrollamos un paquete de recuperación que usaba solo 100 millones de parámetros. Funciona mejor que algunas soluciones actuales tanto en el ámbito legal como financiero, incluso mejor que los mejores modelos vectoriales que actualmente son de código abierto. Nuestro conjunto de herramientas también puede ser una pequeña ayuda en la industria financiera, ayudando a investigadores y analistas.
¿Por qué podemos producir tantos modelos de alta calidad?
Detrás están nuestras muchas acumulaciones, incluido un sistema de entrenamiento de tres etapas (preentrenamiento PT, ajuste fino supervisado SFT, aprendizaje de retroalimentación humana RLHF), que incluye una gran cantidad de datos de alta calidad acumulados, algunos algoritmos de desarrollo propio y su precipitación en nuestro sistema de entrenamiento.
Cada uno de nuestros modelos admite versiones comerciales y de código abierto, y autorizamos a nuestros socios a realizar capacitaciones y ajustes, lo que les permite realizar capacitaciones privadas en sus propios escenarios.
De lo pequeño a lo grande, los cambios de uno de nuestros equipos también reflejan los cambios en el paradigma técnico actual en el campo de los modelos grandes.
03, preguntas in situ
Figura: El equipo de IDEA acepta preguntas in situ
**P: ¿Cómo ve la futura arquitectura de inferencia de hardware? ¿El futuro hardware estará "integrado con capacitación y promoción" durante mucho tiempo, o habrá oportunidades para chips de razonamiento dedicados? **
Zhang Jiaxing: Originalmente, solíamos tener dos tipos de chips para entrenamiento y razonamiento, pero el chip de razonamiento actual obviamente no puede adaptarse al modelo grande actual.
Entonces, en la actualidad, básicamente en términos de limitaciones de hardware, hay más "integración de entrenamiento y empuje". Y la gran ventaja de integrar entrenamiento y empuje es que puede reutilizar el poder de cómputo. Es posible que nuestro razonamiento no siempre esté a plena carga, por lo que podemos aprovechar al máximo el tiempo mínimo para el entrenamiento, que también se considera desde la perspectiva del tiempo económico.
En el futuro, las fichas de razonamiento seguirán teniendo su significado. En algunos escenarios, como terminales móviles, computación perimetral o dispositivos montados en vehículos, aún se requieren chips de inferencia personalizados especiales. Incluso en la nube y los servidores, si el chip de inferencia se puede optimizar más hacia el bajo consumo de energía u otros aspectos, entonces todavía tiene sentido. Creo que todavía debería haber chips dedicados para cosas especializadas en el futuro.
**P: Para algunas aplicaciones verticales, ¿desde qué ángulos debemos recopilar datos? ¿Cómo construir un conjunto de datos de alta calidad? **
Zhang Jiaxing: De hecho, todos nuestros datos también se recopilan gradualmente. Desde el principio, solo hay 20 o 30 conjuntos de datos. Pero a través del entrenamiento lento, por ejemplo, qué parte de la habilidad falta, recopilaremos algunos de estos datos de manera específica y, al mismo tiempo, acumularemos algo de nuestra propia experiencia, como procesamiento de datos y similares.
Finalmente, si no existe tal cosa, construiremos algunos datos nosotros mismos. Por ejemplo, para conversaciones de varias personas, etc., tenemos una variedad de diferentes tipos de conjuntos de datos.
**P: ¿Por qué hay tantos modelos de habilidades especiales? ¿Por qué no impulsar estas capacidades simultáneamente en el mismo modelo? **
Zhang Jiaxing: Tenemos varias consideraciones. La primera es que hemos seleccionado el tamaño del modelo de antemano. Después de elegir el tamaño del modelo, queremos que el modelo tenga qué capacidades. Esta es una propuesta bajo condiciones limitadas. Esta es una ventaja de costo muy grande.
En este momento, quiero poner todas las habilidades en un modelo grande, pero estas habilidades son mutuamente excluyentes en términos de tiempo y espacio. En términos de espacio, algunas habilidades son mutuamente excluyentes, por ejemplo, cuando hicimos preguntas de razonamiento lógico, como preguntas de matemáticas y preguntas de escritura, estaban en conflicto. Además, hay un conflicto de tiempo, en un momento determinado, cierta habilidad es la más fuerte, pero otras habilidades pueden no ser muy fuertes.
Dado que los escenarios posteriores solo requieren una única capacidad, simplemente seleccionamos ciertos conjuntos de datos específicos para entrenar ciertas tareas, que son modelos dedicados.
**P: Mencionaste que se resolvió el problema del "vuelo de entrenamiento" inestable, ¿cómo se resolvió? **
Zhang Jiaxing: Hay un punto clave aquí. Primero, hemos ajustado nuestro entrenamiento. Hemos hecho cambios en la capa del código fuente durante el entrenamiento distribuido. De hecho, la estabilidad del entrenamiento es mucho más fuerte. Cuando entrenamos Ziya-LLaMA-13B, la curva de ese conjunto de entrenamiento era estable. Somos un gran equipo de maquetas muy centrado en la tecnología de entrenamiento, que también es la garantía para que podamos seguir haciendo buenas maquetas.
**P: Con respecto a la discusión sobre el dominio público y los grandes modelos privatizados, ¿se debe privatizar el modelo? Por ejemplo, si quiero hacer una aplicación en C, ¿no puedo hacer una implementación privatizada? **
Zhang Jiaxing: En primer lugar, descubrimos que nuestros socios tienen algunos requisitos de privacidad y cumplimiento de seguridad de datos, y sus datos no se pueden usar para entrenar con modelos públicos. En segundo lugar, deben tener una escena muy profunda y requisitos personalizados. Independientemente de si se trata de un producto B o un producto C, todos esperan usarlo en su propia escena.
En este momento, el modelo grande público o la base general de modelos grandes no pueden satisfacer completamente todas sus necesidades, por lo que la capacitación privada y el despliegue privado se han convertido en imprescindibles.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Punto de vista: en el futuro, la IA se regirá por modelos, y la importancia de los modelos no se puede sobrestimar
Fuente: Geek Park
Autor: Xing Fu
Título original: "Detrás del modelo "Jiang Ziya", la evolución de un equipo profesional de IA"
Desde que los científicos desarrollaron el primer programa de IA "damas" en 1956, la IA se ha desarrollado durante casi 70 años. Durante este período, ha habido varios flujos y reflujos, pero un hilo principal lo atraviesa: el "modelado": la proporción de "modelo" en la IA es cada vez mayor. Esta tendencia alcanzó su punto máximo después de la aparición del gran modelo de lenguaje ChatGPT.
"Creemos firmemente que el futuro de la IA es el mundo de los modelos, y no podemos dejar de enfatizar los modelos".
El 22 de julio, en la conferencia AGI Playground organizada por Geek Park, dijo Zhang Jiaxing, científico presidente de computación cognitiva y lenguaje natural en el Instituto de Investigación IDEA (Economía Digital del Área de la Gran Bahía de Guangdong-Hong Kong-Macao).
En 2021, Zhang Jiaxing dirigió el equipo CCNL Fengshenbang del Instituto de Investigación IDEA para crear el sistema de modelo de preentrenamiento de código abierto más grande de China "Fengshenbang", que es el "precursor" del modelo. Fueron testigos del "cambio de paradigma" provocado por los modelos grandes.
Zhang Jiaxing cree que esta transferencia incluye dos palabras clave, "desaparecer" y "formar". "Desaparición" significa que Con la llegada del modelo grande de uso general de ChatGPT, los tipos específicos de modelos que solían hacer extracción de información, preguntas y respuestas y salida de texto están desapareciendo. "Formación" significa que la capacidad de probar la ingeniería detrás del modelo grande formará un nuevo nicho ecológico** desde el nacimiento del modelo hasta el ajuste y el aterrizaje.
IDEA Research Institute CCNL también se está instalando en el nuevo nicho ecológico.
Además de desarrollar un modelo de capacidad total, en la actualidad, el equipo de Fengshenbang ha generado un gran modelo de propósito general de "Jiang Ziya" (Ziya) basado en LLaMa, que se ha aplicado a escenarios como humanos digitales y redacción publicitaria. Hace aproximadamente un mes, también entrenaron una serie de modelos expertos, como modelos multimodales, modelos de código, modelos de escritura, modelos de diálogo, etc. Este último puede ayudar a los usuarios a escribir artículos, redacción de nuevos medios, guiones de transmisión en vivo, carteles promocionales e incluso novelas en línea.
Zhang Jiaxing cree que en este enorme ecosistema, los empresarios pueden pensar dónde ocupar el nicho ecológico en función de sus propias fortalezas. “Cualquiera que esté interesado en ingresar al campo de los modelos grandes puede encontrar su lugar en él”, dijo.
El siguiente es el texto completo del discurso de Zhang Jiaxing en la Conferencia AGI Playground, editado por Geek Park:
01. Era de modelos grandes: nuevo paradigma y nueva ecología
Este año, cuando hablamos de modelos grandes y AGI, siempre tomamos los modelos grandes como algo natural en IA. En el futuro, incluso si retrocedemos hasta 1997, una cosa muy importante es que "Deep Blue" derrotó a "Kasparov". Incluso ese sistema de IA no tiene un modelo de aprendizaje profundo.
Todo el proceso de desarrollo de la IA comenzó en 1956 y han pasado 70 años. Aunque la IA ha experimentado varios flujos y reflujos, podemos encontrar que el desarrollo de la IA ha estado avanzando a lo largo de una línea, que es el proceso de modelado de la IA: la proporción de modelos en la IA es cada vez más fuerte. Hoy creemos firmemente que en el futuro la IA estará dominada por modelos, y no podemos dejar de enfatizar los modelos.
Todos decimos que el modelo grande esta vez es un cambio en el "paradigma técnico", que se puede resumir en dos palabras clave, "desaparecer" y "formar".
"Desaparecer" se refiere a la desaparición del tipo. Hace medio año, todo el campo de la IA se inundó con diferentes tipos de estructuras y tareas de IA. Por ejemplo, en términos de estructura, hay varias estructuras modelo como BERT y T5. Por ejemplo, en cuanto a tareas, hay varias tareas como clasificación, extracción de información, redacción de resúmenes y preguntas y respuestas. Sin embargo, con la llegada de la era de los grandes modelos de propósito general, esta diversidad está desapareciendo.
En este momento, la única estructura del modelo es GPT y las únicas tareas son la entrada y salida de texto. Entonces, los conceptos anteriores de IA, como el análisis de oraciones, las palabras clave y otros conceptos, se han desvanecido gradualmente de nuestro campo de visión. Además, el uso de modelos hoy ya no está a discreción del proveedor de la tecnología, sino a discreción del cliente que la usa.
Y "formación" se refiere a la formación de la cadena productiva. La construcción de un modelo requiere una gran inversión de recursos, y casi nadie puede completar esta tarea de principio a fin solo. Requiere un gran equipo y mucha potencia informática detrás para pulirlo. Desde la concepción inicial del modelo, hasta la puesta a punto de varias etapas en el medio, y hasta la práctica de aterrizaje final, esto constituye una cadena de producción completa.
A partir de la "desaparición" y la "formación", podemos ver el "cambio de paradigma" del gran modelo. A veces, el progreso tecnológico es implacable, independiente de la voluntad individual, y los nuevos paradigmas tecnológicos reemplazarán a los viejos paradigmas tecnológicos.
Entonces, ¿cuál es el valor de los grandes modelos como este nuevo paradigma tecnológico? En mi opinión, trae cuatro valores completamente nuevos:
1 comprensión completamente nueva
En términos de comprensión del lenguaje natural, el gran modelo actual supera con creces a todos los modelos anteriores. Parece entender realmente el significado de cada una de nuestras palabras. Si bien las respuestas pueden no ser del todo precisas, emerge un nuevo nivel de comprensión.
2 herramientas nuevas
No es solo una herramienta para mejorar la eficiencia, sino que también puede liberar a las personas del trabajo pesado. También es una herramienta creativa que puede crear cosas que los humanos no pueden crear. Por ejemplo, el modelo de difusión del año pasado demostró las capacidades del gráfico de Vinsen.
3 nueva interfaz
En el pasado, teníamos que escribir programas para acceder a datos y API, pero ahora, parece que ya no necesitamos escribir códigos engorrosos, solo necesitamos describir en lenguaje natural, y el modelo grande puede generar códigos automáticamente.
4 MOTORES NUEVOS
El modelo grande no es solo un punto único de capacidad, puede usarse como un motor para impulsar la recuperación de información, la generación de diálogos e incluso la creación de historias.
El modelo grande también trae una nueva ecología, que es cómo integrarse con la industria e implementarla.
Creemos que los grandes modelos no son solo API simples o modelos inmutables. Hacemos hincapié en que después de que la empresa upstream produzca el modelo, los clientes downstream deben realizar más capacitación y correr la última milla. De esta forma, el modelo puede integrarse en el escenario propio de cada cliente. A medida que el modelo funciona mejor, se recopilan más datos, lo que a su vez fortalece el modelo. Esto realmente puede promover el desarrollo de toda la industria.
En esta nueva ecología, la empresa que está más arriba es la que hace el modelo base, y hay muchos equipos debajo del modelo base, que se centrarán en modelos de capacidades o campos específicos. Para continuar, es cooperar con las empresas de soluciones, los fabricantes de la nube y los fabricantes de hardware para crear una variedad de productos y, finalmente, servir a las empresas y gobiernos de aterrizaje.
Desde el modelo base hasta la implementación real, esto involucra muchos vínculos y vínculos, y también dio origen a muchos nichos ecológicos nuevos. Creo que todos pueden combinar sus propias fortalezas y pensar dónde quieren ocupar en este ecosistema. De hecho, cualquiera que esté dispuesto a dedicarse al campo de las maquetas a gran escala puede encontrar su sitio en él.
02. ** Detrás del gran modelo de "Jiang Ziya"**
Somos un equipo desde hace dos años, y está claro por nuestra experiencia que este cambio de paradigma nos ha afectado.
Hasta finales del año pasado, estábamos desarrollando una gran cantidad de modelos de código abierto, haciendo diferentes estructuras de modelos y tipos de tareas. En solo un año, tenemos 98 modelos de código abierto, estableciendo un récord en el campo chino.
Sin embargo, a fines del año pasado, el modelo de Wen Shengtu apareció repentinamente como un producto de moda. Así que comenzamos a girar e hicimos el primer modelo de difusión estable de código abierto en chino, al que llamamos modelo "Taiyi". Esperamos estar al día con los cambios de paradigma tecnológico para modelos grandes.
En la era actual de modelos grandes de propósito general, nuestro equipo está trabajando horas extras para entrenar los mejores modelos grandes de base de código abierto para chino. Esto se conoce como LLaMA2. Entrenamos tokens 20B. En comparación con el modelo "ziya-LLaMA-13B" previamente entrenado, la velocidad de entrenamiento aumentó en un 38%, lo que resolvió por completo el problema del "vuelo de entrenamiento" inestable (entrenamiento anormal) durante el proceso de entrenamiento.
Después de que entrenemos este modelo, será completamente de código abierto y no habrá restricciones en las aplicaciones comerciales. Al mismo tiempo, prometemos continuar entrenando este modelo, con la esperanza de proporcionar la mejor base de modelos de código abierto y comercialmente disponible para toda la gran comunidad de modelos.
Bajo el paradigma tecnológico actual, la introducción de ChatGPT este año ha entusiasmado a muchas personas, diciendo que el modelo grande de uso general interrumpirá todos los ámbitos de la vida. Sin embargo, con el paso del tiempo, nos calmamos y descubrimos que el modelo grande es en realidad solo una purificación y optimización de la escena existente. Por lo tanto, reconocemos que aún existen muchas posibilidades y oportunidades para la aplicación de modelos grandes en industrias, dominios y capacidades verticales.
Entonces, hace aproximadamente un mes, nuestro equipo produjo una serie de modelos expertos, como modelos multimodales, modelos de código, modelos de escritura, modelos de diálogo, etc. Muchos de ellos ya se han estrenado y están al mejor nivel en la materia.
Recientemente hemos abierto el modelo de colaboración chino, llamado "escritura Ziya". Esperamos que este modelo pueda convertirse en un asistente listo para usar para brindar apoyo a empresas e individuos para mejorar la eficiencia. Por ejemplo, el personal del gobierno puede pedirle a Ziya que escriba para ayudar a escribir un informe de desastre, o escribir el discurso de un líder en la ceremonia de apertura, porque se ajusta muy bien al estilo del informe de políticas.
Además, también puede liberar a los creadores, operadores y comercializadores de la comunidad china para ayudar a escribir varios tipos de artículos, redacción de textos publicitarios, artículos blandos e incluso crear excelentes historias cortas, o incluso una antigua novela web de fantasía. Podemos ver que tiene un muy buen desempeño en términos de lógica de estructura de capítulos y argumento.
También desarrollamos un paquete de recuperación que usaba solo 100 millones de parámetros. Funciona mejor que algunas soluciones actuales tanto en el ámbito legal como financiero, incluso mejor que los mejores modelos vectoriales que actualmente son de código abierto. Nuestro conjunto de herramientas también puede ser una pequeña ayuda en la industria financiera, ayudando a investigadores y analistas.
¿Por qué podemos producir tantos modelos de alta calidad?
Detrás están nuestras muchas acumulaciones, incluido un sistema de entrenamiento de tres etapas (preentrenamiento PT, ajuste fino supervisado SFT, aprendizaje de retroalimentación humana RLHF), que incluye una gran cantidad de datos de alta calidad acumulados, algunos algoritmos de desarrollo propio y su precipitación en nuestro sistema de entrenamiento.
Cada uno de nuestros modelos admite versiones comerciales y de código abierto, y autorizamos a nuestros socios a realizar capacitaciones y ajustes, lo que les permite realizar capacitaciones privadas en sus propios escenarios.
De lo pequeño a lo grande, los cambios de uno de nuestros equipos también reflejan los cambios en el paradigma técnico actual en el campo de los modelos grandes.
03, preguntas in situ
**P: ¿Cómo ve la futura arquitectura de inferencia de hardware? ¿El futuro hardware estará "integrado con capacitación y promoción" durante mucho tiempo, o habrá oportunidades para chips de razonamiento dedicados? **
Zhang Jiaxing: Originalmente, solíamos tener dos tipos de chips para entrenamiento y razonamiento, pero el chip de razonamiento actual obviamente no puede adaptarse al modelo grande actual.
Entonces, en la actualidad, básicamente en términos de limitaciones de hardware, hay más "integración de entrenamiento y empuje". Y la gran ventaja de integrar entrenamiento y empuje es que puede reutilizar el poder de cómputo. Es posible que nuestro razonamiento no siempre esté a plena carga, por lo que podemos aprovechar al máximo el tiempo mínimo para el entrenamiento, que también se considera desde la perspectiva del tiempo económico.
En el futuro, las fichas de razonamiento seguirán teniendo su significado. En algunos escenarios, como terminales móviles, computación perimetral o dispositivos montados en vehículos, aún se requieren chips de inferencia personalizados especiales. Incluso en la nube y los servidores, si el chip de inferencia se puede optimizar más hacia el bajo consumo de energía u otros aspectos, entonces todavía tiene sentido. Creo que todavía debería haber chips dedicados para cosas especializadas en el futuro.
**P: Para algunas aplicaciones verticales, ¿desde qué ángulos debemos recopilar datos? ¿Cómo construir un conjunto de datos de alta calidad? **
Zhang Jiaxing: De hecho, todos nuestros datos también se recopilan gradualmente. Desde el principio, solo hay 20 o 30 conjuntos de datos. Pero a través del entrenamiento lento, por ejemplo, qué parte de la habilidad falta, recopilaremos algunos de estos datos de manera específica y, al mismo tiempo, acumularemos algo de nuestra propia experiencia, como procesamiento de datos y similares.
Finalmente, si no existe tal cosa, construiremos algunos datos nosotros mismos. Por ejemplo, para conversaciones de varias personas, etc., tenemos una variedad de diferentes tipos de conjuntos de datos.
**P: ¿Por qué hay tantos modelos de habilidades especiales? ¿Por qué no impulsar estas capacidades simultáneamente en el mismo modelo? **
Zhang Jiaxing: Tenemos varias consideraciones. La primera es que hemos seleccionado el tamaño del modelo de antemano. Después de elegir el tamaño del modelo, queremos que el modelo tenga qué capacidades. Esta es una propuesta bajo condiciones limitadas. Esta es una ventaja de costo muy grande.
En este momento, quiero poner todas las habilidades en un modelo grande, pero estas habilidades son mutuamente excluyentes en términos de tiempo y espacio. En términos de espacio, algunas habilidades son mutuamente excluyentes, por ejemplo, cuando hicimos preguntas de razonamiento lógico, como preguntas de matemáticas y preguntas de escritura, estaban en conflicto. Además, hay un conflicto de tiempo, en un momento determinado, cierta habilidad es la más fuerte, pero otras habilidades pueden no ser muy fuertes.
Dado que los escenarios posteriores solo requieren una única capacidad, simplemente seleccionamos ciertos conjuntos de datos específicos para entrenar ciertas tareas, que son modelos dedicados.
**P: Mencionaste que se resolvió el problema del "vuelo de entrenamiento" inestable, ¿cómo se resolvió? **
Zhang Jiaxing: Hay un punto clave aquí. Primero, hemos ajustado nuestro entrenamiento. Hemos hecho cambios en la capa del código fuente durante el entrenamiento distribuido. De hecho, la estabilidad del entrenamiento es mucho más fuerte. Cuando entrenamos Ziya-LLaMA-13B, la curva de ese conjunto de entrenamiento era estable. Somos un gran equipo de maquetas muy centrado en la tecnología de entrenamiento, que también es la garantía para que podamos seguir haciendo buenas maquetas.
**P: Con respecto a la discusión sobre el dominio público y los grandes modelos privatizados, ¿se debe privatizar el modelo? Por ejemplo, si quiero hacer una aplicación en C, ¿no puedo hacer una implementación privatizada? **
Zhang Jiaxing: En primer lugar, descubrimos que nuestros socios tienen algunos requisitos de privacidad y cumplimiento de seguridad de datos, y sus datos no se pueden usar para entrenar con modelos públicos. En segundo lugar, deben tener una escena muy profunda y requisitos personalizados. Independientemente de si se trata de un producto B o un producto C, todos esperan usarlo en su propia escena.
En este momento, el modelo grande público o la base general de modelos grandes no pueden satisfacer completamente todas sus necesidades, por lo que la capacitación privada y el despliegue privado se han convertido en imprescindibles.