Aumento de 100 veces en la longitud del contexto del gran modelo, la tecnología de texto largo se convierte en un nuevo estándar.

robot
Generación de resúmenes en curso

La tecnología de texto largo se convierte en un nuevo estándar para los grandes modelos, ¿qué significa que la longitud del contexto se expanda 100 veces?

La longitud del contexto de los grandes modelos está aumentando a una velocidad asombrosa, pasando de 4000 tokens a 400,000 tokens. La capacidad de manejar textos largos parece haberse convertido en un nuevo "estándar" para los proveedores de grandes modelos.

En el extranjero, OpenAI ha mejorado varias veces la longitud del contexto de GPT-4 a 32,000 tokens. Anthropic, por su parte, ha ampliado la longitud del contexto de su modelo Claude a 100,000 tokens. LongLLaMA ha llevado este número a 256,000 tokens.

En el país, tampoco se quedan atrás. Se informa que Kimi Chat, lanzado por la startup Cara Oculta de la Luna, puede soportar la entrada de aproximadamente 400,000 tokens. La tecnología LongLoRA, desarrollada conjuntamente por la Universidad China de Hong Kong y el MIT, puede ampliar la longitud de texto del modelo de 70B a 32,000 tokens.

Actualmente, numerosas empresas líderes en modelos de gran escala, incluidas OpenAI, Anthropic, Meta y Moonlight, están enfocándose en expandir la longitud del contexto como una prioridad de actualización. Estas empresas son, sin excepción, las favoritas del mercado de capitales. Por ejemplo, OpenAI ha recibido cerca de 12 mil millones de dólares en inversiones; se espera que la valoración de Anthropic alcance los 30 mil millones de dólares; y Moonlight completó dos rondas de financiamiento por un total de casi 2 mil millones de yuanes en solo seis meses.

¿Qué significa en realidad que las empresas de modelos grandes le den tanta importancia a la tecnología de texto largo, y que la longitud del contexto se haya ampliado 100 veces?

A simple vista, esto significa que la cantidad de texto que el modelo puede manejar ha aumentado drásticamente. Kimi Chat, con 400,000 tokens, ya puede leer una novela larga completa. Pero el significado más profundo es que la tecnología de texto largo está impulsando la implementación de grandes modelos en campos profesionales como las finanzas, la justicia y la investigación científica.

Sin embargo, la longitud del texto no siempre es un indicativo de calidad. La investigación muestra que el apoyo de los modelos a entradas de contexto más largas no se traduce automáticamente en una mejora en los resultados. La clave está en cómo el modelo utiliza de manera efectiva el contenido del contexto.

Actualmente, la exploración de la longitud del texto en la industria aún está lejos de alcanzar el "punto crítico". 400,000 tokens puede ser solo el comienzo.

El fundador de la cara oculta de la luna, Yang Zhilin, afirmó que la tecnología de texto largo puede resolver algunos problemas tempranos de los grandes modelos, mejorar ciertas funciones y es una tecnología clave para avanzar en la implementación de aplicaciones industriales. Esto marca el inicio de una nueva etapa en el desarrollo de grandes modelos, pasando de LLM a Long LLM.

Los avances en la tecnología de texto largo han traído una serie de nuevas funciones, como la extracción de información clave de textos extremadamente largos, análisis de resúmenes, generación de código complejo y diálogos personalizados de rol, entre otros. Estas funciones están impulsando el desarrollo de los chatbots hacia direcciones más especializadas, personalizadas y profundas.

Sin embargo, la tecnología de texto largo también enfrenta la paradoja de lo "imposible tres"; es difícil equilibrar la longitud del texto, la atención y la capacidad de cómputo. El principal desafío proviene del mecanismo de autoatención en la estructura Transformer, cuyo volumen de cálculo aumenta cuadráticamente con la longitud del contexto.

Actualmente hay tres soluciones principales: utilizar herramientas externas para ayudar en el procesamiento, optimizar el cálculo del mecanismo de autoatención y optimizar el modelo en sí. Cada solución tiene sus pros y sus contras, y la clave está en encontrar el mejor equilibrio entre la longitud del texto, la atención y la potencia de cálculo.

A pesar de que la tecnología de textos largos aún enfrenta muchos desafíos, sin duda es un paso importante para la industrialización y la aplicación de modelos grandes. En el futuro, a medida que la tecnología siga avanzando, esperamos ver más aplicaciones innovadoras basadas en la tecnología de textos largos.

TOKEN-4.01%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 7
  • Compartir
Comentar
0/400
DeadTrades_Walkingvip
· 07-17 08:36
Los recursos se están consumiendo más.
Ver originalesResponder0
BrokeBeansvip
· 07-15 01:21
Largo largo largo, no puedo recordarlo.
Ver originalesResponder0
TommyTeacher1vip
· 07-15 01:20
1. Esta velocidad no puede seguir, me duele la pierna.
Ver originalesResponder0
CryptoPunstervip
· 07-15 01:11
El modelo grande aumenta drásticamente la longitud del texto, pero el coeficiente intelectual todavía no ha subido.
Ver originalesResponder0
PumpStrategistvip
· 07-15 00:57
El típico truco es demasiado grande, ¿ya salieron los KPI?
Ver originalesResponder0
LiquidityOraclevip
· 07-15 00:55
¿Qué mérito tiene jugar tanto tiempo?
Ver originalesResponder0
AllInDaddyvip
· 07-15 00:53
Esta ola aún necesita ser revisada
Ver originalesResponder0
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)