📢 #Gate广场征文活动第二期# 正式启动!
分享你对 $ERA 项目的独特观点,推广ERA上线活动, 700 $ERA 等你来赢!
💰 奖励:
一等奖(1名): 100枚 $ERA
二等奖(5名): 每人 60 枚 $ERA
三等奖(10名): 每人 30 枚 $ERA
👉 参与方式:
1.在 Gate广场发布你对 ERA 项目的独到见解贴文
2.在贴文中添加标签: #Gate广场征文活动第二期# ,贴文字数不低于300字
3.将你的文章或观点同步到X,加上标签:Gate Square 和 ERA
4.征文内容涵盖但不限于以下创作方向:
ERA 项目亮点:作为区块链基础设施公司,ERA 拥有哪些核心优势?
ERA 代币经济模型:如何保障代币的长期价值及生态可持续发展?
参与并推广 Gate x Caldera (ERA) 生态周活动。点击查看活动详情:https://www.gate.com/announcements/article/46169。
欢迎围绕上述主题,或从其他独特视角提出您的见解与建议。
⚠️ 活动要求:
原创内容,至少 300 字, 重复或抄袭内容将被淘汰。
不得使用 #Gate广场征文活动第二期# 和 #ERA# 以外的任何标签。
每篇文章必须获得 至少3个互动,否则无法获得奖励
鼓励图文并茂、深度分析,观点独到。
⏰ 活动时间:2025年7月20日 17
大模型上下文长度100倍增长 长文本技术成新标配
长文本技术成为大模型新标配,上下文长度扩大100倍意味着什么?
大模型的上下文长度正以惊人的速度增长,从4000 token飙升至40万token。长文本能力似乎已成为大模型厂商的新"标配"。
国外方面,OpenAI通过多次升级将GPT-4的上下文长度提升至3.2万token。Anthropic则一举将其模型Claude的上下文长度扩展到10万token。LongLLaMA更是将这一数字推至25.6万token。
国内也不甘示弱。据悉,初创公司月之暗面推出的Kimi Chat可支持输入约40万token。港中文和MIT联合开发的LongLoRA技术则可将70B模型的文本长度扩展到3.2万token。
目前,包括OpenAI、Anthropic、Meta、月之暗面在内的众多顶级大模型公司都将拓展上下文长度作为升级重点。这些公司无一例外都是资本市场的宠儿。例如,OpenAI已获得近120亿美元投资;Anthropic估值有望达300亿美元;月之暗面成立半年即完成两轮共近20亿元融资。
大模型公司如此重视长文本技术,上下文长度扩大100倍究竟意味着什么?
表面上看,这意味着模型可处理的文本量大幅增加。40万token的Kimi Chat已能阅读一整本长篇小说。但更深层的意义在于,长文本技术正推动大模型在金融、司法、科研等专业领域的应用落地。
然而,文本长度并非越长越好。研究表明,模型支持更长上下文输入与效果提升并非简单等同。关键在于模型如何有效利用上下文内容。
目前,业界对文本长度的探索还远未达到"临界点"。40万token或许只是一个开始。
月之暗面创始人杨植麟表示,长文本技术可解决大模型早期的一些问题,增强某些功能,同时也是推进产业应用落地的关键技术。这标志着大模型发展进入了从LLM到Long LLM的新阶段。
长文本技术的突破带来了一系列新功能,如超长文本的关键信息提取、总结分析,复杂代码生成,以及个性化的角色扮演对话等。这些功能正推动对话机器人向专业化、个性化、深度化方向发展。
然而,长文本技术也面临"不可能三角"困境:文本长度、注意力和算力三者难以兼顾。主要挑战来自Transformer结构中的自注意力机制,其计算量随上下文长度呈平方级增长。
目前主要有三种解决方案:利用外部工具辅助处理、优化自注意力机制计算、以及模型本身优化。不同方案各有优劣,关键在于在文本长度、注意力和算力之间找到最佳平衡点。
尽管长文本技术仍面临诸多挑战,但它无疑是推动大模型产业化落地的重要一步。未来,随着技术的不断突破,我们有望看到更多基于长文本技术的创新应用。