Bakış açısı: Gelecekte yapay zeka, modeller tarafından yönetilecek ve modellerin önemi fazla tahmin edilemez

Kaynak: Geek Parkı

Yazar: Xing Fu

Orijinal başlık: ""Jiang Ziya" modelinin arkasında, profesyonel bir yapay zeka ekibinin evrimi"

Bilim adamlarının 1956'da ilk "dama" AI programını geliştirmesinden bu yana, AI yaklaşık 70 yıldır geliştirilmiştir. Bu süre zarfında, birkaç gelgit oldu, ancak bunun içinden bir ana konu geçiyor: bu "modelleme" - AI'daki "model" oranı giderek artıyor. Bu eğilim, büyük dil modeli ChatGPT'nin ortaya çıkmasından sonra zirveye ulaştı.

"Yapay zekanın geleceğinin modeller dünyası olduğuna kesinlikle inanıyoruz ve modelleri fazla vurgulayamayız."

IDEA (Guangdong-Hong Kong-Macao Greater Bay Area Digital Economy) Araştırma Enstitüsü'nde bilişsel bilgi işlem ve doğal dil başkanı bilim insanı Zhang Jiaxing, 22 Temmuz'da Geek Park'ın ev sahipliği yaptığı AGI Playground konferansında söyledi.

2021'de Zhang Jiaxing, IDEA Araştırma Enstitüsü'nün CCNL Fengshenbang ekibine, modelin "öncüsü" olan Çin'in en büyük açık kaynaklı eğitim öncesi model sistemi "Fengshenbang"ı yaratma konusunda liderlik etti. Büyük modellerin getirdiği "paradigma değişimine" tanık oldular.

Zhang Jiaxing, bu aktarımın "kaybolma" ve "biçim" olmak üzere iki anahtar kelime içerdiğine inanıyor. "Kaybolma", ChatGPT genel amaçlı büyük modelin gelişiyle birlikte, bilgi çıkarma, soru-cevap ve metin çıktısı yapmak için kullanılan belirli model türlerinin ortadan kalkması anlamına gelir. "Oluşturma", büyük modelin arkasındaki mühendisliği test etme yeteneğinin, modelin doğuşundan ince ayara ve inişe kadar yeni bir ekolojik niş** oluşturacağı anlamına gelir.

IDEA Araştırma Enstitüsü CCNL de yeni ekolojik niş içinde yer alıyor.

Şu anda tam kapasiteli bir model geliştirmenin yanı sıra Fengshenbang ekibi, dijital insanlar ve metin yazarlığı gibi senaryolara uygulanan LLaMa'ya dayalı genel amaçlı büyük bir "Jiang Ziya" (Ziya) modeli oluşturdu. Yaklaşık bir ay önce, multimodal modeller, kod modelleri, yazma modelleri, diyalog modelleri vb. gibi bir dizi uzman modeli de eğittiler. İkincisi, kullanıcıların makaleler, yeni medya metin yazarlığı, canlı yayın senaryoları, tanıtım afişleri ve hatta çevrimiçi romanlar yazmasına yardımcı olabilir.

Zhang Jiaxing, bu devasa ekosistemde girişimcilerin kendi güçlerine göre ekolojik nişi nerede işgal edeceklerini düşünebileceklerine inanıyor. Büyük modeller alanına girmek isteyen herkes kendine yer bulabilir” dedi.

Geek Park tarafından düzenlenen AGI Playground Konferansında Zhang Jiaxing'in konuşmasının tam metni aşağıdadır:

Geek Park'ın ev sahipliği yaptığı AGI Playground konferansında Zhang Jiaxing bir konuşma yaptı

01. Büyük Model Çağı: Yeni Paradigma ve Yeni Ekoloji

Bu yıl, büyük modellerden ve AGI'den bahsettiğimizde, yapay zekada doğal olarak her zaman büyük modelleri alıyoruz. İleriye dönük olarak, 1997'ye geri dönsek bile, çok önemli bir şey, "Deep Blue"nun "Kasparov"u yenmiş olmasıdır. Bu AI sisteminin bile içinde derin bir öğrenme modeli yoktur.

Tüm AI geliştirme süreci 1956'da başladı ve 70 yıl oldu. Yapay zeka birkaç gelgit yaşamış olsa da, yapay zekanın gelişiminin, yapay zekanın modelleme süreci olan bir çizgide ilerlediğini görebiliriz - yapay zekadaki modellerin oranı giderek güçleniyor. Bugün, gelecekte yapay zekaya modellerin hakim olacağına kesinlikle inanıyoruz ve modelleri ne kadar vurgulasak azdır.

Resim: Zhang Jiaxing, yapay zekanın "modelleme" sürecinden bahsediyor

Hepimiz bu seferki büyük modelin, "yok olma" ve "biçim" olmak üzere iki anahtar kelimeyle özetlenebilecek "teknik paradigma" değişikliği olduğunu söylüyoruz.

"Kaybolma", türün ortadan kaybolması anlamına gelir. Altı ay önce, tüm yapay zeka alanı farklı türde yapay zeka yapıları ve görevleriyle doluydu. Örneğin yapı olarak BERT ve T5 gibi çeşitli model yapıları bulunmaktadır. Örneğin, görevler açısından, sınıflandırma, bilgi çıkarma, özet yazma, soru-cevap gibi çeşitli görevler vardır. Ancak, genel amaçlı büyük modeller çağının gelişiyle birlikte bu çeşitlilik ortadan kalkmaktadır.

Şu anda tek model yapısı GPT'dir ve tek görev metin girişi ve metin çıkışıdır. Cümle analizi, anahtar kelimeler ve diğer kavramlar gibi önceki AI kavramları yavaş yavaş görüş alanımızdan çıktı. Üstelik günümüzde modellerin kullanımı artık teknoloji sağlayıcının insiyatifinde değil, onu kullanan müşterinin insiyatifinde.

Ve "oluşum", üretim zincirinin oluşumunu ifade eder. Bir modelin inşası büyük bir kaynak yatırımı gerektirir ve neredeyse hiç kimse bu görevi baştan sona tek başına tamamlayamaz. Parlatmak için büyük bir ekip ve arkasında çok fazla bilgi işlem gücü gerekir. Modelin ilk tasarımından ortadaki çeşitli aşamaların ince ayarına ve son iniş uygulamasına kadar bu, eksiksiz bir üretim zinciri oluşturur.

"Yok olma" ve "oluşma"dan, büyük modelin "paradigma kaymasını" görebiliriz. Bazen teknolojik ilerleme acımasızdır, bireysel iradeden bağımsızdır ve yeni teknolojik paradigmalar eski teknolojik paradigmaların yerini alacaktır.

Peki, bu yeni teknolojik paradigma olarak büyük modellerin değeri nedir? Bence tamamen yeni dört değer getiriyor:

1 Yepyeni Anlayış

Doğal dil anlayışı açısından, mevcut büyük model, önceki tüm modellerin çok ötesindedir. Her kelimemizin anlamını gerçekten anlıyor gibi görünüyor. Cevaplar tamamen doğru olmasa da, yepyeni bir anlayış düzeyi ortaya çıkıyor.

2 Yepyeni Araç

Sadece verimliliği artırmak için bir araç değil, aynı zamanda insanları ağır işlerden kurtarabilir. Aynı zamanda insanların yaratamadığı şeyleri yaratabilen yaratıcı bir araçtır. Örneğin, geçen yılki Difüzyon Modeli, Vinsen grafiği yeteneklerini gösterdi.

3 yeni arayüz

Geçmişte, verilere ve API'lere erişmek için programlar yazmak zorundaydık, ancak artık hantal kodlar yazmamıza gerek yok gibi görünüyor.Yalnızca doğal dilde tanımlamamız gerekiyor ve büyük model otomatik olarak kod üretebiliyor.

4 YENİ MOTOR

Büyük model, yalnızca tek bir yetenek noktası değildir, bilgi alma, diyalog oluşturma ve hatta hikaye oluşturma için bir motor olarak kullanılabilir.

Büyük model aynı zamanda endüstri ile nasıl entegre olunacağı ve uygulanacağı konusunda yeni bir ekoloji getiriyor.

Büyük modellerin yalnızca basit API'ler veya değiştirilemez modeller olmadığını düşünüyoruz. Yukarı akışlı şirket modeli ürettikten sonra, sonraki müşterilerin daha fazla eğitim almaları ve son kilometreyi koşmaları gerektiğini vurguluyoruz. Bu şekilde model, her müşterinin kendi senaryosuna entegre edilebilir. Model daha iyi performans gösterdikçe daha fazla veri toplanır ve bu da modeli güçlendirir. Bu, tüm endüstrinin gelişimini gerçekten teşvik edebilir.

Bu yeni ekolojide, en yukarı akış, temel modeli yapan şirkettir ve temel modelin altında, belirli yeteneklere veya alanlara ilişkin modellere odaklanacak birçok ekip vardır. Devam etmek için, çeşitli ürünler oluşturmak için çözüm şirketleri, bulut üreticileri ve donanım üreticileri ile işbirliği yapmak ve son olarak çıkarma işletmelerine ve hükümetlere hizmet etmektir.

Resim: Zhang Jiaxing tarafından açıklanan büyük modelin yeni ekolojisi

Temel modelden gerçek uygulamaya kadar bu, birçok bağlantı ve bağlantı içerir ve ayrıca birçok yeni ekolojik niş doğurur. Bence herkes kendi gücünü birleştirip bu ekosistemin neresinde yer almak istediğini düşünebilir. Aslında büyük ölçekli modeller alanına kendini adamak isteyen herkes kendine yer bulabilir.

02. ** "Jiang Ziya"nın büyük modelinin arkasında**

İki yıldır bir ekibiz ve deneyimlerimize göre bu paradigma değişikliğinin bizi etkilediği açık.

Geçen yılın sonuna kadar çok sayıda açık kaynak modeli geliştiriyor, farklı model yapıları ve görev türleri yapıyorduk. Sadece bir yılda, Çin alanında rekor kıran açık kaynaklı 98 modelimiz oldu.

Ancak geçen yılın sonunda Wen Shengtu'nun modeli birdenbire popüler bir ürün olarak ortaya çıktı. Böylece dönüşe başladık ve "Taiyi" modeli dediğimiz Çince'deki ilk açık kaynaklı Kararlı Difüzyon modelini yaptık. Büyük modeller için teknolojik paradigma değişikliklerine ayak uydurmayı umuyoruz.

Genel amaçlı büyük modellerin mevcut çağında, ekibimizin fazla mesai yaptığı şey, Çinliler için en iyi açık kaynak tabanlı büyük modelleri eğitmektir. Bu, LLaMA2 olarak bilinir. 20B jeton eğittik.Daha önce eğitilen "ziya-LLaMA-13B" modeline göre eğitim hızı %38 arttı, bu da eğitim sürecinde kararsız "eğitim uçuşu" (anormal eğitim) sorununu tamamen çözdü.

Şekil: 20B belirtecini eğittikten sonra, LLaMA2, eğitim sürecinde kararsız "eğitim uçuşu" sorununu çözer

Bu modeli eğittikten sonra tamamen açık kaynak olacak ve ticari uygulamalarda herhangi bir kısıtlama olmayacak. Aynı zamanda, tüm büyük model topluluğu için en iyi açık kaynak ve ticari olarak mevcut model tabanını sağlamayı umarak bu modeli eğitmeye devam edeceğimize söz veriyoruz.

Mevcut teknolojik paradigma altında, ChatGPT'nin bu yıl tanıtılması, genel amaçlı büyük modelin hayatın her kesimini alt üst edeceğini söyleyerek birçok insanı heyecanlandırdı. Ancak zaman geçtikçe sakinleştik ve büyük modelin aslında sadece mevcut sahnenin saflaştırılması ve optimizasyonu olduğunu keşfettik. Bu nedenle, dikey endüstrilerde, alanlarda ve yeteneklerde büyük modellerin uygulanması için hala birçok olasılık ve fırsatın olduğunun farkındayız.

Yaklaşık bir ay önce ekibimiz multimodal modeller, kod modelleri, yazma modelleri, diyalog modelleri vb. gibi bir dizi uzman model üretti. Birçoğu zaten serbest bırakıldı ve bu alanda en iyi seviyedeler.

Kısa bir süre önce "Ziya yazma" adı verilen Çin işbirliği modelini açık kaynak haline getirdik. Bu modelin, işletmelere ve bireylere verimliliği artırmaları için destek sağlayan, ezber bozan bir yardımcı olabileceğini umuyoruz. Örneğin, devlet personeli Ziya'dan afet raporu yazmasına yardım etmesini isteyebilir veya açılış töreninde bir liderin konuşmasını yazabilir çünkü politika raporu stiline çok iyi uyabilir.

Ek olarak, Çin topluluğunun yaratıcılarını, operatörlerini ve pazarlamacılarını çeşitli türde makaleler, metin yazarlığı, yumuşak makaleler yazmaya ve hatta mükemmel kısa öyküler ve hatta eski peri masalları hakkında bir web romanı oluşturmaya yardımcı olma konusunda özgürleştirebilir. Bölüm yapısı mantığı ve olay örgüsü açısından oldukça iyi bir performansa sahip olduğunu görebiliriz.

Ayrıca yalnızca 100 milyon parametre kullanan bir geri alma paketi geliştirdik. Hem yasal hem de finansal alanlardaki bazı mevcut çözümlerden daha iyi çalışır, hatta şu anda açık kaynak olan en iyi vektör modellerinden bile daha iyi çalışır. Araç setimiz ayrıca finans sektöründe araştırmacılara ve analistlere yardımcı olarak biraz yardımcı olabilir.

Neden bu kadar çok yüksek kaliteli model üretebiliyoruz?

Bunun arkasında üç aşamalı bir eğitim sistemi (eğitim öncesi PT, denetimli ince ayar SFT, insan geri bildirimli öğrenme RLHF), birikmiş büyük miktarda yüksek kaliteli veri, kendi geliştirdiğimiz bazı algoritmalar ve bunun eğitim sistemimize çökmesi dahil olmak üzere birçok birikimimiz vardır.

Modellerimizin her biri hem açık kaynak hem de ticari sürümleri desteklemektedir ve iş ortaklarımıza eğitim ve ince ayar yapma yetkisi vererek, kendi senaryoları altında özel eğitim yapmalarına olanak tanırız.

Küçükten büyüğe, ekiplerimizden birinin yaptığı değişiklikler, büyük modeller alanındaki mevcut teknik paradigmadaki değişiklikleri de yansıtıyor.

03, yerinde sorular

Şekil: IDEA ekibi yerinde soruları kabul ediyor

**S: Gelecekteki donanım çıkarım mimarisini nasıl görüyorsunuz? Gelecekteki donanım uzun süre "eğitim ve terfi ile entegre" olacak mı, yoksa özel akıl yürütme çipleri için fırsatlar olacak mı? **

Zhang Jiaxing: Başlangıçta, eğitim ve muhakeme için iki tür çipimiz vardı, ancak mevcut muhakeme çipinin mevcut büyük modele uyum sağlayamayacağı açıktır.

Dolayısıyla şu anda, temel olarak donanım sınırlamaları açısından, daha fazla "eğitim ve itme entegrasyonu" var. Eğitim ve zorlamayı entegre etmenin en büyük avantajı, bilgi işlem gücünü yeniden kullanabilmesidir. Mantığımız her zaman tam kapasitede olmayabilir, bu nedenle ekonomik zaman açısından da değerlendirilen boş zamanı eğitim için tam olarak kullanabiliriz.

Gelecekte, muhakeme çiplerinin hala bir anlamı var. Mobil terminaller, uç bilgi işlem veya araca monteli cihazlar gibi bazı senaryolarda, özel özelleştirilmiş çıkarım yongaları hala gereklidir. Bulutta ve sunucularda bile, çıkarım çipi düşük güç tüketimi veya diğer yönler için daha fazla optimize edilebilirse, o zaman yine de bir anlamı vardır. Gelecekte özel şeyler için özel çipler olması gerektiğini düşünüyorum.

**S: Bazı dikey uygulamalar için hangi açılardan veri toplamalıyız? Yüksek kaliteli bir veri kümesi nasıl oluşturulur? **

Zhang Jiaxing: Aslında tüm verilerimiz de aşamalı olarak toplanıyor. En başından beri yalnızca 20 veya 30 veri seti var. Ancak, örneğin, yeteneğin hangi kısmının eksik olduğu konusunda yavaş eğitim yoluyla, bu verilerin bir kısmını hedefli bir şekilde toplayacağız ve aynı zamanda bazı veri işleme ve benzeri gibi kendi deneyimlerimizin bir kısmını da biriktireceğiz.

Son olarak böyle bir şey yoksa bazı verileri kendimiz oluşturacağız. Örneğin, çok kişili konuşmalar vb. için, içinde çeşitli türde veri kümelerimiz var.

**S: Neden bu kadar çok özel yetenek modeli var? Neden bu yetenekleri aynı model üzerinde aynı anda artırmıyorsunuz? **

Zhang Jiaxing: Birkaç düşüncemiz var. Birincisi, modelin boyutunu önceden seçtik. Modelin boyutunu seçtikten sonra, modelin hangi yeteneklere sahip olmasını istiyoruz. Bu, sınırlı koşullar altında bir önermedir. Bu çok büyük bir maliyet avantajıdır.

Şu anda, tüm yetenekleri tek bir büyük modele koymak istiyorum, ancak bu yetenekler zaman ve mekan açısından birbirini dışlıyor. Alan açısından, bazı yetenekler birbirini dışlar.Örneğin, matematik soruları ve yazma soruları gibi mantıksal muhakeme soruları yaptığımızda, bunlar birbiriyle çelişiyordu. Ayrıca zaman çatışması da vardır, belli bir anda belli bir yetenek en güçlüsüdür, ancak diğer yetenekler çok güçlü olmayabilir.

Aşağı akış senaryoları yalnızca tek bir yetenek gerektirdiğinden, belirli görevleri eğitmek için özel modeller olan belirli belirli veri kümelerini seçeriz.

**S: Dengesiz "eğitim uçuşu" sorununun çözüldüğünden bahsettiniz, bu nasıl çözüldü? **

Zhang Jiaxing: Burada önemli bir nokta var. Öncelikle eğitimimizi ayarladık. Dağıtık eğitim sırasında kaynak kod katmanında değişiklikler yaptık. Gerçekten de eğitimin kararlılığı çok daha güçlü. Ziya-LLaMA-13B'yi eğittiğimizde o eğitim setinin eğrisi stabildi. İyi modeller yapmaya devam etmemizin garantisi olan eğitim teknolojisine çok odaklanmış büyük bir model ekibiz.

**S: Kamu malı ve özelleştirilmiş büyük modeller tartışmasıyla ilgili olarak, model özelleştirilmeli mi? Örneğin, C'ye bir uygulama yapmak istersem, özelleştirilmiş dağıtım yapamaz mıyım? **

Zhang Jiaxing: Öncelikle, ortaklarımızın bazı veri güvenliği uyumluluğu ve gizlilik gereksinimleri olduğunu ve verilerinin herkese açık modellerle eğitim için kullanılamayacağını tespit ettik. İkinci olarak, çok derin bir sahneye ve özelleştirilmiş gereksinimlere sahip olmaları gerekir. İster B'den C'ye bir ürün olsun, hepsi kendi ortamlarında kullanmayı umuyor.

Şu anda, kamuya açık büyük model veya genel geniş model tabanı, onların her ihtiyacını tam olarak karşılayamıyor, bu nedenle özel eğitim ve özel konuşlandırma onların olmazsa olmazı haline geldi.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Repost
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate App
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)