Judul asli: "Di balik model" Jiang Ziya ", evolusi tim AI profesional"
Sejak para ilmuwan mengembangkan program AI "checker" pertama pada tahun 1956, AI telah dikembangkan selama hampir 70 tahun. Selama periode ini, ada beberapa pasang surut, tetapi satu utas utama melewatinya: yaitu "pemodelan" - proporsi "model" dalam AI semakin tinggi. Tren ini memuncak setelah munculnya model bahasa besar ChatGPT.
"Kami sangat yakin bahwa masa depan AI adalah dunia model, dan kami tidak bisa terlalu menekankan model."
Pada tanggal 22 Juli, pada konferensi AGI Playground yang diselenggarakan oleh Geek Park, Zhang Jiaxing, seorang ilmuwan ketua komputasi kognitif dan bahasa alami di Lembaga Penelitian IDEA (Guangdong-Hong Kong-Macao Greater Bay Area Digital Economy) Research Institute, mengatakan.
Pada tahun 2021, Zhang Jiaxing memimpin tim CCNL Fengshenbang dari IDEA Research Institute untuk membuat sistem model pra-pelatihan sumber terbuka Tiongkok terbesar "Fengshenbang", yang merupakan "pelopor" model tersebut. Mereka menyaksikan "pergeseran paradigma" yang dibawa oleh model-model besar.
Zhang Jiaxing percaya bahwa transfer ini mencakup dua kata kunci, "menghilang" dan "bentuk". "Menghilang" berarti bahwa Dengan hadirnya model besar tujuan umum ChatGPT, jenis model tertentu yang digunakan untuk melakukan ekstraksi informasi, tanya jawab, dan keluaran teks menghilang. "Formasi" berarti bahwa kemampuan untuk menguji rekayasa di balik model besar akan membentuk ceruk ekologis baru** mulai dari kelahiran model hingga penyempurnaan hingga pendaratan.
IDEA Research Institute CCNL juga meletakkan ceruk ekologi baru.
Selain mengembangkan model berkapasitas penuh - saat ini, tim Fengshenbang telah menghasilkan model besar tujuan umum "Jiang Ziya" (Ziya) berdasarkan LLaMa, yang telah diterapkan pada skenario seperti manusia digital dan copywriting. Sekitar sebulan yang lalu, mereka juga melatih serangkaian model ahli, seperti model multimodal, model kode, model penulisan, model dialog, dll. Yang terakhir dapat membantu pengguna menulis artikel, copywriting media baru, skrip siaran langsung, poster promosi, dan bahkan novel online.
Zhang Jiaxing percaya bahwa dalam ekosistem yang sangat besar ini, pengusaha dapat memikirkan di mana harus menempati ceruk ekologis berdasarkan kekuatan mereka sendiri. "Siapa pun yang tertarik untuk masuk ke bidang model besar dapat menemukan tempatnya di dalamnya," katanya.
Berikut teks lengkap pidato Zhang Jiaxing di AGI Playground Conference, diedit oleh Geek Park:
Pada konferensi Taman Bermain AGI yang diselenggarakan oleh Geek Park, Zhang Jiaxing menyampaikan pidato
01. Era Model Besar: Paradigma Baru dan Ekologi Baru
Tahun ini, ketika kita berbicara tentang model besar dan AGI, kami selalu menganggap model besar sebagai hal yang biasa di AI. Ke depan, meski kita mundur ke tahun 1997, hal yang sangat penting adalah "Deep Blue" mengalahkan "Kasparov". Bahkan sistem AI tersebut tidak memiliki model deep learning di dalamnya.
Seluruh proses pengembangan AI dimulai pada tahun 1956, dan sudah 70 tahun lamanya. Meskipun AI telah mengalami beberapa pasang surut, kita dapat menemukan bahwa pengembangan AI telah berjalan di sepanjang garis, yaitu proses pemodelan AI - proporsi model dalam AI semakin kuat. Hari ini kami sangat yakin bahwa di masa mendatang AI akan didominasi oleh model, dan kami tidak dapat terlalu menekankan model.
Gambar: Zhang Jiaxing berbicara tentang proses "pemodelan" AI
Kita semua mengatakan bahwa model besar kali ini adalah perubahan "paradigma teknis", yang dapat diringkas dalam dua kata kunci, "lenyap" dan "bentuk".
"Menghilang" mengacu pada hilangnya jenis. Setengah tahun yang lalu, seluruh bidang AI dibanjiri dengan berbagai jenis struktur dan tugas AI. Misalnya dalam hal struktur, terdapat berbagai model struktur seperti BERT dan T5. Misalnya, dalam hal tugas, ada berbagai tugas seperti klasifikasi, penggalian informasi, ringkasan penulisan, dan tanya jawab. Namun, dengan munculnya era model besar serba guna, keragaman ini menghilang.
Saat ini, satu-satunya struktur model adalah GPT, dan satu-satunya tugas adalah input teks dan output teks. Jadi konsep AI sebelumnya, seperti analisis kalimat, kata kunci, dan konsep lainnya, secara bertahap menghilang dari bidang pandang kami. Apalagi, penggunaan model saat ini bukan lagi atas kebijakan penyedia teknologi, melainkan atas kebijakan pelanggan yang menggunakannya.
Dan "formasi" mengacu pada pembentukan rantai produksi. Pembuatan model membutuhkan investasi sumber daya yang sangat besar, dan hampir tidak ada yang dapat menyelesaikan tugas ini dari awal hingga akhir sendirian. Dibutuhkan tim yang besar dan banyak daya komputasi di belakangnya untuk memolesnya. Dari konsepsi awal model, hingga penyempurnaan berbagai tahap di tengah, dan praktik pendaratan akhir, ini merupakan rantai produksi yang lengkap.
Dari "penghilangan" dan "formasi", kita bisa melihat "pergeseran paradigma" model besar. Terkadang, kemajuan teknologi tanpa henti, terlepas dari keinginan individu, dan paradigma teknologi baru akan menggantikan paradigma teknologi lama.
Lantas, apa nilai model besar sebagai paradigma teknologi baru ini? Menurut pendapat saya, ini membawa empat nilai yang sama sekali baru:
1 Pemahaman Baru
Dalam hal pemahaman bahasa alami, model besar saat ini jauh melebihi semua model sebelumnya. Sepertinya sangat mengerti arti dari setiap perkataan kita. Meskipun jawabannya mungkin tidak sepenuhnya akurat, tingkat pemahaman yang sama sekali baru muncul.
2 Alat Baru
Ini bukan hanya alat untuk meningkatkan efisiensi, tetapi juga dapat membebaskan orang dari pekerjaan berat. Ini juga merupakan alat kreatif yang dapat menciptakan hal-hal yang tidak dapat dibuat oleh manusia. Misalnya, Model Difusi tahun lalu mendemonstrasikan kemampuan grafik Vinsen.
3 antarmuka baru
Di masa lalu, kami harus menulis program untuk mengakses data dan API, tetapi sekarang, tampaknya kami tidak perlu lagi menulis kode yang rumit. Kami hanya perlu mendeskripsikan dalam bahasa alami, dan model besar dapat secara otomatis menghasilkan kode.
4 MESIN BARU
Model besar bukan hanya satu titik kemampuan, tetapi dapat digunakan sebagai mesin untuk mendorong pencarian informasi, pembuatan dialog, dan bahkan pembuatan cerita.
Model besar juga membawa ekologi baru, yaitu bagaimana berintegrasi dengan industri dan mengimplementasikannya.
Menurut kami, model besar bukan sekadar API biasa, atau model yang tidak dapat diubah. Kami menekankan bahwa setelah perusahaan hulu memproduksi model, pelanggan hilir perlu melakukan pelatihan lebih lanjut dan berlari sejauh mungkin. Dengan cara ini, model dapat disematkan dalam skenario masing-masing pelanggan. Saat model berkinerja lebih baik, lebih banyak data dikumpulkan, yang pada gilirannya memperkuat model. Ini benar-benar dapat mempromosikan pengembangan seluruh industri.
Dalam ekologi baru ini, yang paling hulu adalah perusahaan yang membuat model dasar, dan ada banyak tim di bawah model dasar, yang akan fokus pada model kemampuan atau bidang tertentu. Untuk melanjutkan, ini adalah untuk bekerja sama dengan perusahaan solusi, produsen cloud, dan produsen perangkat keras untuk menciptakan berbagai produk, dan akhirnya melayani perusahaan pendaratan dan pemerintah.
Gambar: Ekologi baru dari model besar yang dijelaskan oleh Zhang Jiaxing
Dari model dasar hingga implementasi nyata, ini melibatkan banyak tautan dan tautan, dan juga melahirkan banyak relung ekologis baru. Saya pikir setiap orang dapat menggabungkan kekuatan mereka sendiri dan memikirkan di mana mereka ingin menempati ekosistem ini. Nyatanya, siapa pun yang mau mengabdikan dirinya pada bidang model berskala besar dapat menemukan tempatnya di dalamnya.
02. ** Di belakang model besar "Jiang Ziya"**
Kami telah menjadi tim selama dua tahun, dan jelas dari pengalaman kami bahwa perubahan paradigma ini telah memengaruhi kami.
Hingga akhir tahun lalu, kami sedang mengembangkan sejumlah besar model open source, melakukan berbagai struktur model dan jenis tugas. Hanya dalam satu tahun, kami memiliki 98 model open source, mencetak rekor di bidang China.
Namun, di penghujung tahun lalu, model Wen Shengtu tiba-tiba muncul sebagai hot product. Jadi kami mulai mengubah dan membuat model Difusi Stabil open source pertama dalam bahasa Cina, yang kami sebut model "Taiyi". Kami berharap dapat mengikuti perubahan paradigma teknologi untuk model besar.
Di era model besar serba guna saat ini, tim kami bekerja lembur adalah untuk melatih model besar berbasis open source terbaik untuk bahasa China. Ini dikenal sebagai LLaMA2. Kami melatih token 20B Dibandingkan dengan model "ziya-LLaMA-13B" yang dilatih sebelumnya, kecepatan pelatihan meningkat sebesar 38%, yang sepenuhnya menyelesaikan masalah "penerbangan pelatihan" yang tidak stabil (pelatihan abnormal) selama proses pelatihan.
Angka: Setelah melatih token 20B, LLaMA2 menyelesaikan masalah "penerbangan pelatihan" yang tidak stabil selama proses pelatihan
Setelah kami melatih model ini, ini akan sepenuhnya open source, dan tidak akan ada batasan pada aplikasi komersial. Pada saat yang sama, kami berjanji untuk terus melatih model ini, berharap dapat memberikan sumber terbuka terbaik dan basis model yang tersedia secara komersial untuk seluruh komunitas model besar.
Di bawah paradigma teknologi saat ini, pengenalan ChatGPT tahun ini telah membuat banyak orang bersemangat, mengatakan bahwa model besar untuk keperluan umum akan mengganggu semua lapisan masyarakat. Namun, seiring berjalannya waktu, kami menjadi tenang dan menemukan bahwa model besar sebenarnya hanyalah pemurnian dan pengoptimalan pemandangan yang ada. Oleh karena itu, kami menyadari bahwa masih banyak kemungkinan dan peluang penerapan model besar dalam industri vertikal, domain, dan kapabilitas.
Jadi sekitar sebulan yang lalu, tim kami menghasilkan serangkaian model ahli, seperti model multimodal, model kode, model penulisan, model dialog, dll. Banyak dari mereka telah dirilis dan berada pada level terbaik di bidangnya.
Kami baru-baru ini membuka sumber model kolaborasi Tiongkok, yang disebut "Tulisan Ziya". Kami berharap model ini dapat menjadi asisten out-of-the-box untuk memberikan dukungan bagi perusahaan dan individu untuk meningkatkan efisiensi. Misalnya, pegawai pemerintah dapat meminta tulisan Ziya untuk membantu menulis laporan bencana, atau menulis pidato pemimpin pada upacara pembukaan, karena sangat cocok dengan gaya laporan kebijakan.
Selain itu, juga dapat membebaskan pencipta, operator, dan pemasar komunitas Tionghoa untuk membantu menulis berbagai jenis artikel, copywriting, artikel lunak, dan bahkan membuat cerita pendek yang bagus, atau bahkan web novel fantasi kuno. Kita dapat melihat bahwa ia memiliki kinerja yang sangat baik dalam hal logika struktur bab dan alur cerita.
Kami juga mengembangkan paket pengambilan yang hanya menggunakan 100 juta parameter. Ini bekerja lebih baik daripada beberapa solusi saat ini di domain hukum dan keuangan, bahkan lebih baik daripada model vektor terbaik yang saat ini open source. Toolkit kami juga bisa menjadi penolong kecil di industri keuangan, membantu peneliti dan analis.
Mengapa kami dapat memproduksi begitu banyak model berkualitas tinggi?
Di belakangnya ada banyak akumulasi kami, termasuk sistem pelatihan tiga tahap (PT pra-pelatihan, SFT fine-tuning yang diawasi, RLHF pembelajaran umpan balik manusia), termasuk sejumlah besar data berkualitas tinggi yang terakumulasi, beberapa algoritme yang dikembangkan sendiri, dan presipitasi ke dalam sistem pelatihan kami.
Setiap model kami mendukung versi open source dan komersial, dan kami mengizinkan mitra kami untuk melakukan pelatihan dan penyempurnaan, yang memungkinkan mereka melakukan pelatihan pribadi dengan skenario mereka sendiri.
Dari kecil ke besar, perubahan dari salah satu tim kami juga mencerminkan perubahan paradigma teknis saat ini di bidang model besar.
03, pertanyaan di tempat
Gambar: Tim IDEA menerima pertanyaan di tempat
**T: Bagaimana Anda melihat arsitektur inferensi perangkat keras di masa mendatang? Akankah perangkat keras masa depan "terintegrasi dengan pelatihan dan promosi" untuk waktu yang lama, atau akankah ada peluang untuk chip penalaran khusus? **
Zhang Jiaxing: Awalnya, kami memiliki dua jenis chip untuk pelatihan dan penalaran, tetapi chip penalaran saat ini jelas tidak dapat beradaptasi dengan model besar saat ini.
Jadi saat ini, pada dasarnya dalam hal keterbatasan perangkat keras, lebih banyak "integrasi pelatihan dan dorongan". Dan keuntungan besar dari mengintegrasikan pelatihan dan mendorong adalah dapat menggunakan kembali daya komputasi. Alasan kami mungkin tidak selalu dalam beban penuh, sehingga kami dapat memanfaatkan waktu palung sepenuhnya untuk pelatihan, yang juga dipertimbangkan dari perspektif waktu ekonomis.
Ke depan, nalar keripik masih memiliki makna. Dalam beberapa skenario, seperti terminal seluler, komputasi tepi, atau perangkat yang dipasang di kendaraan, chip inferensi khusus yang disesuaikan masih diperlukan. Bahkan di cloud dan server, jika chip inferensi dapat lebih dioptimalkan ke arah konsumsi daya yang rendah atau aspek lainnya, maka itu masih ada artinya. Saya pikir masih harus ada chip khusus untuk hal-hal khusus di masa depan.
**T: Untuk beberapa aplikasi vertikal, dari sudut manakah kami harus mengumpulkan data? Bagaimana cara membangun kumpulan data berkualitas tinggi? **
Zhang Jiaxing: Faktanya, seluruh data kami juga dikumpulkan secara bertahap, dari awal hanya ada 20 atau 30 set data. Tetapi melalui pelatihan secara perlahan, misalnya bagian mana dari kemampuan yang hilang, kami akan mengumpulkan beberapa data ini secara terarah, dan pada saat yang sama kami akan mengumpulkan beberapa pengalaman kami sendiri, seperti beberapa pemrosesan data dan sejenisnya.
Terakhir, jika tidak ada hal seperti itu, kami akan membuat sendiri beberapa data. Misalnya, untuk percakapan multi-orang, dll., Kami memiliki berbagai jenis kumpulan data di dalamnya.
**T: Mengapa ada begitu banyak model kemampuan khusus? Mengapa tidak meningkatkan kemampuan ini secara bersamaan pada model yang sama? **
Zhang Jiaxing: Kami memiliki beberapa pertimbangan. Yang pertama adalah kami telah memilih ukuran model terlebih dahulu. Setelah memilih ukuran model, kami ingin model tersebut memiliki kemampuan apa. Ini adalah proposisi dalam kondisi terbatas. Ini adalah keuntungan biaya yang sangat besar.
Saat ini, saya ingin memasukkan semua kemampuan ke dalam satu model besar, tetapi kemampuan ini saling eksklusif dalam hal ruang dan waktu. Dalam hal ruang, beberapa kemampuan saling eksklusif.Misalnya, ketika kami mengerjakan soal penalaran logis, seperti soal matematika dan soal menulis, keduanya bertentangan. Selain itu, ada konflik waktu, pada saat tertentu kemampuan tertentu adalah yang terkuat, tetapi kemampuan lain mungkin tidak terlalu kuat.
Karena skenario hilir hanya memerlukan satu kemampuan, kami cukup memilih kumpulan data spesifik tertentu untuk melatih tugas tertentu, yang merupakan model khusus.
**T: Anda menyebutkan bahwa masalah "pelatihan terbang" yang tidak stabil telah diselesaikan, bagaimana ini diselesaikan? **
Zhang Jiaxing: Ada poin kunci di sini. Pertama, kami telah menyesuaikan pelatihan kami. Kami telah membuat perubahan pada lapisan kode sumber selama pelatihan terdistribusi. Memang, stabilitas pelatihan jauh lebih kuat. Saat kami melatih Ziya-LLaMA-13B, kurva set pelatihan itu stabil. Kami adalah tim model besar yang sangat fokus pada teknologi pelatihan, yang juga menjadi jaminan bagi kami untuk terus membuat model yang bagus.
**T: Mengenai pembahasan domain publik dan model besar yang diprivatisasi, apakah model tersebut harus diprivatisasi? Misalnya, jika saya ingin membuat aplikasi ke C, apakah saya tidak dapat melakukan penerapan yang diprivatisasi? **
Zhang Jiaxing: Pertama-tama, kami menemukan bahwa mitra kami memiliki beberapa persyaratan kepatuhan dan privasi keamanan data, dan data mereka tidak dapat digunakan untuk pelatihan dengan model publik. Kedua, mereka harus memiliki adegan yang sangat mendalam dan persyaratan yang disesuaikan. Terlepas dari apakah itu produk ke B atau produk ke C, mereka semua berharap untuk menggunakannya dalam adegan mereka sendiri.
Saat ini, model besar publik atau basis model besar umum tidak dapat sepenuhnya memenuhi setiap kebutuhan mereka, sehingga pelatihan pribadi dan penempatan pribadi telah menjadi keharusan mereka.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Sudut Pandang: Di masa depan, AI akan dikuasai oleh model, dan pentingnya model tidak bisa dilebih-lebihkan
Sumber: Geek Park
Pengarang: Xinfu
Judul asli: "Di balik model" Jiang Ziya ", evolusi tim AI profesional"
Sejak para ilmuwan mengembangkan program AI "checker" pertama pada tahun 1956, AI telah dikembangkan selama hampir 70 tahun. Selama periode ini, ada beberapa pasang surut, tetapi satu utas utama melewatinya: yaitu "pemodelan" - proporsi "model" dalam AI semakin tinggi. Tren ini memuncak setelah munculnya model bahasa besar ChatGPT.
"Kami sangat yakin bahwa masa depan AI adalah dunia model, dan kami tidak bisa terlalu menekankan model."
Pada tanggal 22 Juli, pada konferensi AGI Playground yang diselenggarakan oleh Geek Park, Zhang Jiaxing, seorang ilmuwan ketua komputasi kognitif dan bahasa alami di Lembaga Penelitian IDEA (Guangdong-Hong Kong-Macao Greater Bay Area Digital Economy) Research Institute, mengatakan.
Pada tahun 2021, Zhang Jiaxing memimpin tim CCNL Fengshenbang dari IDEA Research Institute untuk membuat sistem model pra-pelatihan sumber terbuka Tiongkok terbesar "Fengshenbang", yang merupakan "pelopor" model tersebut. Mereka menyaksikan "pergeseran paradigma" yang dibawa oleh model-model besar.
Zhang Jiaxing percaya bahwa transfer ini mencakup dua kata kunci, "menghilang" dan "bentuk". "Menghilang" berarti bahwa Dengan hadirnya model besar tujuan umum ChatGPT, jenis model tertentu yang digunakan untuk melakukan ekstraksi informasi, tanya jawab, dan keluaran teks menghilang. "Formasi" berarti bahwa kemampuan untuk menguji rekayasa di balik model besar akan membentuk ceruk ekologis baru** mulai dari kelahiran model hingga penyempurnaan hingga pendaratan.
IDEA Research Institute CCNL juga meletakkan ceruk ekologi baru.
Selain mengembangkan model berkapasitas penuh - saat ini, tim Fengshenbang telah menghasilkan model besar tujuan umum "Jiang Ziya" (Ziya) berdasarkan LLaMa, yang telah diterapkan pada skenario seperti manusia digital dan copywriting. Sekitar sebulan yang lalu, mereka juga melatih serangkaian model ahli, seperti model multimodal, model kode, model penulisan, model dialog, dll. Yang terakhir dapat membantu pengguna menulis artikel, copywriting media baru, skrip siaran langsung, poster promosi, dan bahkan novel online.
Zhang Jiaxing percaya bahwa dalam ekosistem yang sangat besar ini, pengusaha dapat memikirkan di mana harus menempati ceruk ekologis berdasarkan kekuatan mereka sendiri. "Siapa pun yang tertarik untuk masuk ke bidang model besar dapat menemukan tempatnya di dalamnya," katanya.
Berikut teks lengkap pidato Zhang Jiaxing di AGI Playground Conference, diedit oleh Geek Park:
01. Era Model Besar: Paradigma Baru dan Ekologi Baru
Tahun ini, ketika kita berbicara tentang model besar dan AGI, kami selalu menganggap model besar sebagai hal yang biasa di AI. Ke depan, meski kita mundur ke tahun 1997, hal yang sangat penting adalah "Deep Blue" mengalahkan "Kasparov". Bahkan sistem AI tersebut tidak memiliki model deep learning di dalamnya.
Seluruh proses pengembangan AI dimulai pada tahun 1956, dan sudah 70 tahun lamanya. Meskipun AI telah mengalami beberapa pasang surut, kita dapat menemukan bahwa pengembangan AI telah berjalan di sepanjang garis, yaitu proses pemodelan AI - proporsi model dalam AI semakin kuat. Hari ini kami sangat yakin bahwa di masa mendatang AI akan didominasi oleh model, dan kami tidak dapat terlalu menekankan model.
Kita semua mengatakan bahwa model besar kali ini adalah perubahan "paradigma teknis", yang dapat diringkas dalam dua kata kunci, "lenyap" dan "bentuk".
"Menghilang" mengacu pada hilangnya jenis. Setengah tahun yang lalu, seluruh bidang AI dibanjiri dengan berbagai jenis struktur dan tugas AI. Misalnya dalam hal struktur, terdapat berbagai model struktur seperti BERT dan T5. Misalnya, dalam hal tugas, ada berbagai tugas seperti klasifikasi, penggalian informasi, ringkasan penulisan, dan tanya jawab. Namun, dengan munculnya era model besar serba guna, keragaman ini menghilang.
Saat ini, satu-satunya struktur model adalah GPT, dan satu-satunya tugas adalah input teks dan output teks. Jadi konsep AI sebelumnya, seperti analisis kalimat, kata kunci, dan konsep lainnya, secara bertahap menghilang dari bidang pandang kami. Apalagi, penggunaan model saat ini bukan lagi atas kebijakan penyedia teknologi, melainkan atas kebijakan pelanggan yang menggunakannya.
Dan "formasi" mengacu pada pembentukan rantai produksi. Pembuatan model membutuhkan investasi sumber daya yang sangat besar, dan hampir tidak ada yang dapat menyelesaikan tugas ini dari awal hingga akhir sendirian. Dibutuhkan tim yang besar dan banyak daya komputasi di belakangnya untuk memolesnya. Dari konsepsi awal model, hingga penyempurnaan berbagai tahap di tengah, dan praktik pendaratan akhir, ini merupakan rantai produksi yang lengkap.
Dari "penghilangan" dan "formasi", kita bisa melihat "pergeseran paradigma" model besar. Terkadang, kemajuan teknologi tanpa henti, terlepas dari keinginan individu, dan paradigma teknologi baru akan menggantikan paradigma teknologi lama.
Lantas, apa nilai model besar sebagai paradigma teknologi baru ini? Menurut pendapat saya, ini membawa empat nilai yang sama sekali baru:
1 Pemahaman Baru
Dalam hal pemahaman bahasa alami, model besar saat ini jauh melebihi semua model sebelumnya. Sepertinya sangat mengerti arti dari setiap perkataan kita. Meskipun jawabannya mungkin tidak sepenuhnya akurat, tingkat pemahaman yang sama sekali baru muncul.
2 Alat Baru
Ini bukan hanya alat untuk meningkatkan efisiensi, tetapi juga dapat membebaskan orang dari pekerjaan berat. Ini juga merupakan alat kreatif yang dapat menciptakan hal-hal yang tidak dapat dibuat oleh manusia. Misalnya, Model Difusi tahun lalu mendemonstrasikan kemampuan grafik Vinsen.
3 antarmuka baru
Di masa lalu, kami harus menulis program untuk mengakses data dan API, tetapi sekarang, tampaknya kami tidak perlu lagi menulis kode yang rumit. Kami hanya perlu mendeskripsikan dalam bahasa alami, dan model besar dapat secara otomatis menghasilkan kode.
4 MESIN BARU
Model besar bukan hanya satu titik kemampuan, tetapi dapat digunakan sebagai mesin untuk mendorong pencarian informasi, pembuatan dialog, dan bahkan pembuatan cerita.
Model besar juga membawa ekologi baru, yaitu bagaimana berintegrasi dengan industri dan mengimplementasikannya.
Menurut kami, model besar bukan sekadar API biasa, atau model yang tidak dapat diubah. Kami menekankan bahwa setelah perusahaan hulu memproduksi model, pelanggan hilir perlu melakukan pelatihan lebih lanjut dan berlari sejauh mungkin. Dengan cara ini, model dapat disematkan dalam skenario masing-masing pelanggan. Saat model berkinerja lebih baik, lebih banyak data dikumpulkan, yang pada gilirannya memperkuat model. Ini benar-benar dapat mempromosikan pengembangan seluruh industri.
Dalam ekologi baru ini, yang paling hulu adalah perusahaan yang membuat model dasar, dan ada banyak tim di bawah model dasar, yang akan fokus pada model kemampuan atau bidang tertentu. Untuk melanjutkan, ini adalah untuk bekerja sama dengan perusahaan solusi, produsen cloud, dan produsen perangkat keras untuk menciptakan berbagai produk, dan akhirnya melayani perusahaan pendaratan dan pemerintah.
Dari model dasar hingga implementasi nyata, ini melibatkan banyak tautan dan tautan, dan juga melahirkan banyak relung ekologis baru. Saya pikir setiap orang dapat menggabungkan kekuatan mereka sendiri dan memikirkan di mana mereka ingin menempati ekosistem ini. Nyatanya, siapa pun yang mau mengabdikan dirinya pada bidang model berskala besar dapat menemukan tempatnya di dalamnya.
02. ** Di belakang model besar "Jiang Ziya"**
Kami telah menjadi tim selama dua tahun, dan jelas dari pengalaman kami bahwa perubahan paradigma ini telah memengaruhi kami.
Hingga akhir tahun lalu, kami sedang mengembangkan sejumlah besar model open source, melakukan berbagai struktur model dan jenis tugas. Hanya dalam satu tahun, kami memiliki 98 model open source, mencetak rekor di bidang China.
Namun, di penghujung tahun lalu, model Wen Shengtu tiba-tiba muncul sebagai hot product. Jadi kami mulai mengubah dan membuat model Difusi Stabil open source pertama dalam bahasa Cina, yang kami sebut model "Taiyi". Kami berharap dapat mengikuti perubahan paradigma teknologi untuk model besar.
Di era model besar serba guna saat ini, tim kami bekerja lembur adalah untuk melatih model besar berbasis open source terbaik untuk bahasa China. Ini dikenal sebagai LLaMA2. Kami melatih token 20B Dibandingkan dengan model "ziya-LLaMA-13B" yang dilatih sebelumnya, kecepatan pelatihan meningkat sebesar 38%, yang sepenuhnya menyelesaikan masalah "penerbangan pelatihan" yang tidak stabil (pelatihan abnormal) selama proses pelatihan.
Setelah kami melatih model ini, ini akan sepenuhnya open source, dan tidak akan ada batasan pada aplikasi komersial. Pada saat yang sama, kami berjanji untuk terus melatih model ini, berharap dapat memberikan sumber terbuka terbaik dan basis model yang tersedia secara komersial untuk seluruh komunitas model besar.
Di bawah paradigma teknologi saat ini, pengenalan ChatGPT tahun ini telah membuat banyak orang bersemangat, mengatakan bahwa model besar untuk keperluan umum akan mengganggu semua lapisan masyarakat. Namun, seiring berjalannya waktu, kami menjadi tenang dan menemukan bahwa model besar sebenarnya hanyalah pemurnian dan pengoptimalan pemandangan yang ada. Oleh karena itu, kami menyadari bahwa masih banyak kemungkinan dan peluang penerapan model besar dalam industri vertikal, domain, dan kapabilitas.
Jadi sekitar sebulan yang lalu, tim kami menghasilkan serangkaian model ahli, seperti model multimodal, model kode, model penulisan, model dialog, dll. Banyak dari mereka telah dirilis dan berada pada level terbaik di bidangnya.
Kami baru-baru ini membuka sumber model kolaborasi Tiongkok, yang disebut "Tulisan Ziya". Kami berharap model ini dapat menjadi asisten out-of-the-box untuk memberikan dukungan bagi perusahaan dan individu untuk meningkatkan efisiensi. Misalnya, pegawai pemerintah dapat meminta tulisan Ziya untuk membantu menulis laporan bencana, atau menulis pidato pemimpin pada upacara pembukaan, karena sangat cocok dengan gaya laporan kebijakan.
Selain itu, juga dapat membebaskan pencipta, operator, dan pemasar komunitas Tionghoa untuk membantu menulis berbagai jenis artikel, copywriting, artikel lunak, dan bahkan membuat cerita pendek yang bagus, atau bahkan web novel fantasi kuno. Kita dapat melihat bahwa ia memiliki kinerja yang sangat baik dalam hal logika struktur bab dan alur cerita.
Kami juga mengembangkan paket pengambilan yang hanya menggunakan 100 juta parameter. Ini bekerja lebih baik daripada beberapa solusi saat ini di domain hukum dan keuangan, bahkan lebih baik daripada model vektor terbaik yang saat ini open source. Toolkit kami juga bisa menjadi penolong kecil di industri keuangan, membantu peneliti dan analis.
Mengapa kami dapat memproduksi begitu banyak model berkualitas tinggi?
Di belakangnya ada banyak akumulasi kami, termasuk sistem pelatihan tiga tahap (PT pra-pelatihan, SFT fine-tuning yang diawasi, RLHF pembelajaran umpan balik manusia), termasuk sejumlah besar data berkualitas tinggi yang terakumulasi, beberapa algoritme yang dikembangkan sendiri, dan presipitasi ke dalam sistem pelatihan kami.
Setiap model kami mendukung versi open source dan komersial, dan kami mengizinkan mitra kami untuk melakukan pelatihan dan penyempurnaan, yang memungkinkan mereka melakukan pelatihan pribadi dengan skenario mereka sendiri.
Dari kecil ke besar, perubahan dari salah satu tim kami juga mencerminkan perubahan paradigma teknis saat ini di bidang model besar.
03, pertanyaan di tempat
**T: Bagaimana Anda melihat arsitektur inferensi perangkat keras di masa mendatang? Akankah perangkat keras masa depan "terintegrasi dengan pelatihan dan promosi" untuk waktu yang lama, atau akankah ada peluang untuk chip penalaran khusus? **
Zhang Jiaxing: Awalnya, kami memiliki dua jenis chip untuk pelatihan dan penalaran, tetapi chip penalaran saat ini jelas tidak dapat beradaptasi dengan model besar saat ini.
Jadi saat ini, pada dasarnya dalam hal keterbatasan perangkat keras, lebih banyak "integrasi pelatihan dan dorongan". Dan keuntungan besar dari mengintegrasikan pelatihan dan mendorong adalah dapat menggunakan kembali daya komputasi. Alasan kami mungkin tidak selalu dalam beban penuh, sehingga kami dapat memanfaatkan waktu palung sepenuhnya untuk pelatihan, yang juga dipertimbangkan dari perspektif waktu ekonomis.
Ke depan, nalar keripik masih memiliki makna. Dalam beberapa skenario, seperti terminal seluler, komputasi tepi, atau perangkat yang dipasang di kendaraan, chip inferensi khusus yang disesuaikan masih diperlukan. Bahkan di cloud dan server, jika chip inferensi dapat lebih dioptimalkan ke arah konsumsi daya yang rendah atau aspek lainnya, maka itu masih ada artinya. Saya pikir masih harus ada chip khusus untuk hal-hal khusus di masa depan.
**T: Untuk beberapa aplikasi vertikal, dari sudut manakah kami harus mengumpulkan data? Bagaimana cara membangun kumpulan data berkualitas tinggi? **
Zhang Jiaxing: Faktanya, seluruh data kami juga dikumpulkan secara bertahap, dari awal hanya ada 20 atau 30 set data. Tetapi melalui pelatihan secara perlahan, misalnya bagian mana dari kemampuan yang hilang, kami akan mengumpulkan beberapa data ini secara terarah, dan pada saat yang sama kami akan mengumpulkan beberapa pengalaman kami sendiri, seperti beberapa pemrosesan data dan sejenisnya.
Terakhir, jika tidak ada hal seperti itu, kami akan membuat sendiri beberapa data. Misalnya, untuk percakapan multi-orang, dll., Kami memiliki berbagai jenis kumpulan data di dalamnya.
**T: Mengapa ada begitu banyak model kemampuan khusus? Mengapa tidak meningkatkan kemampuan ini secara bersamaan pada model yang sama? **
Zhang Jiaxing: Kami memiliki beberapa pertimbangan. Yang pertama adalah kami telah memilih ukuran model terlebih dahulu. Setelah memilih ukuran model, kami ingin model tersebut memiliki kemampuan apa. Ini adalah proposisi dalam kondisi terbatas. Ini adalah keuntungan biaya yang sangat besar.
Saat ini, saya ingin memasukkan semua kemampuan ke dalam satu model besar, tetapi kemampuan ini saling eksklusif dalam hal ruang dan waktu. Dalam hal ruang, beberapa kemampuan saling eksklusif.Misalnya, ketika kami mengerjakan soal penalaran logis, seperti soal matematika dan soal menulis, keduanya bertentangan. Selain itu, ada konflik waktu, pada saat tertentu kemampuan tertentu adalah yang terkuat, tetapi kemampuan lain mungkin tidak terlalu kuat.
Karena skenario hilir hanya memerlukan satu kemampuan, kami cukup memilih kumpulan data spesifik tertentu untuk melatih tugas tertentu, yang merupakan model khusus.
**T: Anda menyebutkan bahwa masalah "pelatihan terbang" yang tidak stabil telah diselesaikan, bagaimana ini diselesaikan? **
Zhang Jiaxing: Ada poin kunci di sini. Pertama, kami telah menyesuaikan pelatihan kami. Kami telah membuat perubahan pada lapisan kode sumber selama pelatihan terdistribusi. Memang, stabilitas pelatihan jauh lebih kuat. Saat kami melatih Ziya-LLaMA-13B, kurva set pelatihan itu stabil. Kami adalah tim model besar yang sangat fokus pada teknologi pelatihan, yang juga menjadi jaminan bagi kami untuk terus membuat model yang bagus.
**T: Mengenai pembahasan domain publik dan model besar yang diprivatisasi, apakah model tersebut harus diprivatisasi? Misalnya, jika saya ingin membuat aplikasi ke C, apakah saya tidak dapat melakukan penerapan yang diprivatisasi? **
Zhang Jiaxing: Pertama-tama, kami menemukan bahwa mitra kami memiliki beberapa persyaratan kepatuhan dan privasi keamanan data, dan data mereka tidak dapat digunakan untuk pelatihan dengan model publik. Kedua, mereka harus memiliki adegan yang sangat mendalam dan persyaratan yang disesuaikan. Terlepas dari apakah itu produk ke B atau produk ke C, mereka semua berharap untuk menggunakannya dalam adegan mereka sendiri.
Saat ini, model besar publik atau basis model besar umum tidak dapat sepenuhnya memenuhi setiap kebutuhan mereka, sehingga pelatihan pribadi dan penempatan pribadi telah menjadi keharusan mereka.