Büyük model bağlam uzunluğu 100 kat yükseliş, uzun metin teknolojisi yeni standart hale geldi.

robot
Abstract generation in progress

Uzun metin teknolojisi, büyük modellerin yeni standart donanımı haline geliyor, bağlam uzunluğunun 100 kat artması ne anlama geliyor?

Büyük modellerin bağlam uzunluğu, 4000 token'dan 400.000 token'a inanılmaz bir hızla artıyor. Uzun metin yetenekleri, büyük model üreticileri için yeni bir "standart özellik" haline gelmiş gibi görünüyor.

Yurt dışında, OpenAI bir dizi güncelleme ile GPT-4'ün bağlam uzunluğunu 32.000 token'a yükseltti. Anthropic ise modelinin Claude'un bağlam uzunluğunu 100.000 token'a çıkardı. LongLLaMA ise bu sayıyı 256.000 token'a kadar çıkardı.

Ülke içindeki şirketler de geri kalmıyor. Edinilen bilgilere göre, yeni kurulan Ayın Karanlığı adlı şirketin geliştirdiği Kimi Chat, yaklaşık 400.000 token girişi destekliyor. Hong Kong Çin Üniversitesi ve MIT'nin ortak geliştirdiği LongLoRA teknolojisi ise 70B modelinin metin uzunluğunu 32.000 token'a kadar uzatabiliyor.

Şu anda, OpenAI, Anthropic, Meta ve Ay'ın Karanlık Yüzü gibi birçok önde gelen büyük model şirketi, bağlam uzunluğunu genişletmeyi yükseltme odaklarından biri olarak belirledi. Bu şirketlerin hepsi, sermaye piyasalarının gözdesi konumunda. Örneğin, OpenAI yaklaşık 12 milyar dolar yatırım aldı; Anthropic'in değeri 30 milyar dolara ulaşması bekleniyor; Ay'ın Karanlık Yüzü, altı aylık bir sürede toplamda yaklaşık 2 milyar yuanlık iki finansman turunu tamamladı.

Büyük model şirketlerinin uzun metin teknolojisine bu kadar önem vermesi, bağlam uzunluğunun 100 kat genişlemesi tam olarak ne anlama geliyor?

Yüzeyde, bu, modelin işleyebileceği metin miktarının büyük ölçüde arttığı anlamına geliyor. 400.000 token'lık Kimi Chat, bir tam romanı okuyabiliyor. Ancak daha derin bir anlam, uzun metin teknolojisinin büyük modellerin finans, hukuk, araştırma gibi uzmanlık alanlarında uygulanmasını teşvik etmesidir.

Ancak, metin uzunluğunun her zaman daha iyi olduğu söylenemez. Araştırmalar, modelin daha uzun bağlam girdilerini desteklemesi ile performans artışı arasında basit bir eşdeğerlik olmadığını göstermektedir. Anahtar, modelin bağlam içeriğini nasıl etkili bir şekilde kullanabileceğidir.

Şu anda, endüstride metin uzunluğuna yönelik araştırmalar "kritik noktaya" henüz ulaşmadı. 400.000 token belki de sadece bir başlangıç.

Ay'ın karanlık yüzü kurucusu Yang Zhilin, uzun metin teknolojisinin büyük modellerin erken dönemlerindeki bazı sorunları çözebileceğini, belirli işlevleri güçlendirebileceğini ve aynı zamanda sanayi uygulamalarının hayata geçirilmesinde anahtar bir teknoloji olduğunu belirtti. Bu, büyük model gelişiminin LLM'den Uzun LLM'ye yeni bir aşamaya geçtiğini göstermektedir.

Uzun metin teknolojisindeki atılımlar, uzun metinlerden anahtar bilgi çıkarımı, özet analizi, karmaşık kod oluşturma ve kişiselleştirilmiş rol yapma diyalogları gibi bir dizi yeni özellik getirdi. Bu özellikler, sohbet robotlarını profesyonelleşme, kişiselleşme ve derinleşme yönünde ilerletiyor.

Ancak, uzun metin teknolojisi "imkansız üçgen" zorluğuyla da karşı karşıyadır: metin uzunluğu, dikkat ve hesaplama gücü üçlüsünü dengede tutmak zordur. Ana zorluk, Transformer yapısındaki kendi dikkat mekanizmasından kaynaklanmaktadır; bu mekanizmanın hesaplama yükü, bağlam uzunluğu ile kare oranında artmaktadır.

Şu anda üç ana çözüm bulunmaktadır: dış araçların yardımıyla işleme, kendine dikkat mekanizmasının hesaplamalarını optimize etme ve modelin kendisini optimize etme. Farklı çözümlerin avantajları ve dezavantajları vardır; anahtar, metin uzunluğu, dikkat ve hesaplama gücü arasında en iyi dengeyi bulmaktır.

Uzun metin teknolojisinin hala birçok zorlukla karşı karşıya kalmasına rağmen, bu kesinlikle büyük modelin sanayileşmesi için önemli bir adımdır. Gelecekte, teknolojinin sürekli gelişimiyle birlikte, uzun metin teknolojisine dayalı daha fazla yenilikçi uygulama görmeyi umuyoruz.

TOKEN2.03%
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • 7
  • Share
Comment
0/400
DeadTrades_Walkingvip
· 07-17 08:36
Kaynak tüketimi daha da arttı.
View OriginalReply0
BrokeBeansvip
· 07-15 01:21
Uzun uzun uzun, aklımda tutamıyorum.
View OriginalReply0
TommyTeacher1vip
· 07-15 01:20
1. Bu hız yetişemiyor, bacaklarım yoruldu.
View OriginalReply0
CryptoPunstervip
· 07-15 01:11
Büyük model metin uzunluğunda çılgınca artış gösterdi, zeka hâlâ yükseliş göstermedi.
View OriginalReply0
PumpStrategistvip
· 07-15 00:57
Tipik bir şişirme, KPI'lar ortaya çıktı değil mi?
View OriginalReply0
LiquidityOraclevip
· 07-15 00:55
Bunu bu kadar uzun oynamak ne gibi bir beceri?
View OriginalReply0
AllInDaddyvip
· 07-15 00:53
Bu dalga için de hazırlıklı olmalıyız.
View OriginalReply0
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)