大模型上下文長度100倍增長 長文本技術成新標配

robot
摘要生成中

長文本技術成爲大模型新標配,上下文長度擴大100倍意味着什麼?

大模型的上下文長度正以驚人的速度增長,從4000 token飆升至40萬token。長文本能力似乎已成爲大模型廠商的新"標配"。

國外方面,OpenAI通過多次升級將GPT-4的上下文長度提升至3.2萬token。Anthropic則一舉將其模型Claude的上下文長度擴展到10萬token。LongLLaMA更是將這一數字推至25.6萬token。

國內也不甘示弱。據悉,初創公司月之暗面推出的Kimi Chat可支持輸入約40萬token。港中文和MIT聯合開發的LongLoRA技術則可將70B模型的文本長度擴展到3.2萬token。

目前,包括OpenAI、Anthropic、Meta、月之暗面在內的衆多頂級大模型公司都將拓展上下文長度作爲升級重點。這些公司無一例外都是資本市場的寵兒。例如,OpenAI已獲得近120億美元投資;Anthropic估值有望達300億美元;月之暗面成立半年即完成兩輪共近20億元融資。

大模型公司如此重視長文本技術,上下文長度擴大100倍究竟意味着什麼?

表面上看,這意味着模型可處理的文本量大幅增加。40萬token的Kimi Chat已能閱讀一整本長篇小說。但更深層的意義在於,長文本技術正推動大模型在金融、司法、科研等專業領域的應用落地。

然而,文本長度並非越長越好。研究表明,模型支持更長上下文輸入與效果提升並非簡單等同。關鍵在於模型如何有效利用上下文內容。

目前,業界對文本長度的探索還遠未達到"臨界點"。40萬token或許只是一個開始。

月之暗面創始人楊植麟表示,長文本技術可解決大模型早期的一些問題,增強某些功能,同時也是推進產業應用落地的關鍵技術。這標志着大模型發展進入了從LLM到Long LLM的新階段。

長文本技術的突破帶來了一系列新功能,如超長文本的關鍵信息提取、總結分析,復雜代碼生成,以及個性化的角色扮演對話等。這些功能正推動對話機器人向專業化、個性化、深度化方向發展。

然而,長文本技術也面臨"不可能三角"困境:文本長度、注意力和算力三者難以兼顧。主要挑戰來自Transformer結構中的自注意力機制,其計算量隨上下文長度呈平方級增長。

目前主要有三種解決方案:利用外部工具輔助處理、優化自注意力機制計算、以及模型本身優化。不同方案各有優劣,關鍵在於在文本長度、注意力和算力之間找到最佳平衡點。

盡管長文本技術仍面臨諸多挑戰,但它無疑是推動大模型產業化落地的重要一步。未來,隨着技術的不斷突破,我們有望看到更多基於長文本技術的創新應用。

TOKEN-5.31%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 7
  • 分享
留言
0/400
DeadTrades_Walkingvip
· 07-17 08:36
资源消耗更大了呗
回復0
破产豆豆vip
· 07-15 01:21
长长长 记不住啊
回復0
汤米老师1vip
· 07-15 01:20
1.这速度跟不上啊 累断腿
回復0
Crypto段子手vip
· 07-15 01:11
大模型狂增文本长度 智商还是没涨
回復0
Pump策略师vip
· 07-15 00:57
典型的噱头过大,kpi都出来了吧
回復0
LiquidityOraclevip
· 07-15 00:55
玩这么长算啥本事
回復0
梭哈爸爸vip
· 07-15 00:53
这波还得梭
回復0
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)