# 長文技術が大規模モデルの新しい標準装備となり、コンテキストの長さが100倍に拡大することは何を意味するのか?大規模モデルのコンテキスト長は驚異的な速度で増加しており、4000トークンから40万トークンに急上昇しています。長文能力は大規模モデルの提供者にとって新しい「標準装備」となっているようです。海外では、OpenAIがGPT-4のコンテキスト長を3.2万トークンに引き上げるために複数回のアップグレードを行いました。Anthropicは一挙にそのモデルClaudeのコンテキスト長を10万トークンに拡張しました。LongLLaMAはさらにこの数字を25.6万トークンに押し上げました。国内も負けじと頑張っています。報告によると、スタートアップの月之暗面が発表したKimi Chatは約40万トークンの入力をサポートしています。香港中文大学とMITが共同開発したLongLoRA技術は、70Bモデルのテキスト長を3.2万トークンに拡張することができます。現在、OpenAI、Anthropic、Meta、月の暗面を含む多くのトップモデル企業は、文脈の長さの拡張をアップグレードの重点項目としています。これらの企業は例外なく資本市場の寵児です。たとえば、OpenAIは約120億ドルの投資を受けています。Anthropicの評価額は300億ドルに達する見込みです。月の暗面は設立から半年で2回の合計近く20億元の資金調達を完了しました。大規模モデル企業が長文技術をこれほど重視するとは、文脈の長さが100倍に拡大することは一体何を意味するのでしょうか?表面上で見ると、これはモデルが処理できるテキストの量が大幅に増加することを意味します。40万トークンのKimi Chatはすでに長編小説全体を読むことができます。しかし、より深い意味は、長文技術が金融、司法、研究などの専門分野での大規模モデルの適用を推進しているということです。しかし、テキストの長さは長ければ長いほど良いわけではありません。研究によると、モデルが長いコンテキスト入力をサポートすることと、効果が向上することは単純に等しいわけではありません。重要なのは、モデルがどのようにコンテキストの内容を効果的に活用するかです。現在、業界におけるテキストの長さの探求はまだ"臨界点"には達していません。40万tokenはおそらく始まりに過ぎないでしょう。月の暗面の創設者である楊植麟は、長文技術が大規模モデルの初期のいくつかの問題を解決し、特定の機能を強化できると述べ、産業応用の実現に向けた重要な技術であるとも言っています。これは、大規模モデルの発展がLLMからLong LLMへの新しい段階に入ったことを示しています。長文技術のブレークスルーは、超長文の重要情報抽出、要約分析、複雑なコード生成、パーソナライズされたロールプレイング対話など、一連の新機能をもたらしました。これらの機能は、対話ロボットを専門化、パーソナライズ、深度化の方向に進化させています。しかし、長文技術は "不可能の三角形 "のジレンマにも直面しています:テキストの長さ、注意力、計算能力の三者を兼ね備えることが難しいのです。主な課題は、Transformer構造における自己注意メカニズムから来ており、その計算量は文脈の長さに対して平方的に増加します。現在、主に3つの解決策があります:外部ツールを使用して処理を支援すること、自己注意メカニズムの計算を最適化すること、そしてモデル自体を最適化することです。異なる解決策にはそれぞれ利点と欠点があり、重要なのはテキストの長さ、注意力、計算能力の間で最適なバランスを見つけることです。長文技術は依然として多くの課題に直面していますが、それは間違いなく大規模モデルの産業化の重要な一歩です。未来において、技術の不断の突破に伴い、長文技術に基づく革新的なアプリケーションがさらに見られることを期待しています。
大モデルのコンテキスト長が100倍上昇し、長文技術が新たな標準となる
長文技術が大規模モデルの新しい標準装備となり、コンテキストの長さが100倍に拡大することは何を意味するのか?
大規模モデルのコンテキスト長は驚異的な速度で増加しており、4000トークンから40万トークンに急上昇しています。長文能力は大規模モデルの提供者にとって新しい「標準装備」となっているようです。
海外では、OpenAIがGPT-4のコンテキスト長を3.2万トークンに引き上げるために複数回のアップグレードを行いました。Anthropicは一挙にそのモデルClaudeのコンテキスト長を10万トークンに拡張しました。LongLLaMAはさらにこの数字を25.6万トークンに押し上げました。
国内も負けじと頑張っています。報告によると、スタートアップの月之暗面が発表したKimi Chatは約40万トークンの入力をサポートしています。香港中文大学とMITが共同開発したLongLoRA技術は、70Bモデルのテキスト長を3.2万トークンに拡張することができます。
現在、OpenAI、Anthropic、Meta、月の暗面を含む多くのトップモデル企業は、文脈の長さの拡張をアップグレードの重点項目としています。これらの企業は例外なく資本市場の寵児です。たとえば、OpenAIは約120億ドルの投資を受けています。Anthropicの評価額は300億ドルに達する見込みです。月の暗面は設立から半年で2回の合計近く20億元の資金調達を完了しました。
大規模モデル企業が長文技術をこれほど重視するとは、文脈の長さが100倍に拡大することは一体何を意味するのでしょうか?
表面上で見ると、これはモデルが処理できるテキストの量が大幅に増加することを意味します。40万トークンのKimi Chatはすでに長編小説全体を読むことができます。しかし、より深い意味は、長文技術が金融、司法、研究などの専門分野での大規模モデルの適用を推進しているということです。
しかし、テキストの長さは長ければ長いほど良いわけではありません。研究によると、モデルが長いコンテキスト入力をサポートすることと、効果が向上することは単純に等しいわけではありません。重要なのは、モデルがどのようにコンテキストの内容を効果的に活用するかです。
現在、業界におけるテキストの長さの探求はまだ"臨界点"には達していません。40万tokenはおそらく始まりに過ぎないでしょう。
月の暗面の創設者である楊植麟は、長文技術が大規模モデルの初期のいくつかの問題を解決し、特定の機能を強化できると述べ、産業応用の実現に向けた重要な技術であるとも言っています。これは、大規模モデルの発展がLLMからLong LLMへの新しい段階に入ったことを示しています。
長文技術のブレークスルーは、超長文の重要情報抽出、要約分析、複雑なコード生成、パーソナライズされたロールプレイング対話など、一連の新機能をもたらしました。これらの機能は、対話ロボットを専門化、パーソナライズ、深度化の方向に進化させています。
しかし、長文技術は "不可能の三角形 "のジレンマにも直面しています:テキストの長さ、注意力、計算能力の三者を兼ね備えることが難しいのです。主な課題は、Transformer構造における自己注意メカニズムから来ており、その計算量は文脈の長さに対して平方的に増加します。
現在、主に3つの解決策があります:外部ツールを使用して処理を支援すること、自己注意メカニズムの計算を最適化すること、そしてモデル自体を最適化することです。異なる解決策にはそれぞれ利点と欠点があり、重要なのはテキストの長さ、注意力、計算能力の間で最適なバランスを見つけることです。
長文技術は依然として多くの課題に直面していますが、それは間違いなく大規模モデルの産業化の重要な一歩です。未来において、技術の不断の突破に伴い、長文技術に基づく革新的なアプリケーションがさらに見られることを期待しています。