觀點:未來AI就是模型的天下,多麼重視模型都不為過

來源:極客公園

作者:幸芙

原標題:《「姜子牙」大模型背後,一個專業AI 團隊的進化》

自1956 年科學家研發出第一個「西洋跳棋」AI 程序算起,AI 至今已經發展了近70 年。期間經歷幾次潮起潮落,但一條主線卻貫穿其中:那就是「模型化」——「模型」在AI 中的佔比越來越高。這一趨勢在大語言模型ChatGPT 出現後達到頂峰。

「我們堅信未來AI 就是模型的天下,多麼重視模型都不為過。」

7 月22 日,在極客公園主辦的AGI Playground 大會上,IDEA(粵港澳大灣區數字經濟)研究院認知計算與自然語言講席科學家張家興說道。

2021 年,張家興就帶領IDEA研究院CCNL封神榜團隊創建了最大的中文開源預訓練模型體系「封神榜」,是模型「先行者」。他們見證了大模型帶來的「範式轉移」。

張家興認為,這場轉移包括兩個關鍵詞,「消失」和「形成」。 「消失」是指,隨著ChatGPT通用大模型到來,過去做信息抽取、問答、文本輸出等特定類型的模型在消失。 「形成」是指,大模型背後考驗工程化的能力,會形成從模型誕生到微調到落地的新生態位

IDEA 研究院CCNL也正在新生態位中佈局。

除了研發全能力模型之外——目前,封神榜團隊基於LLaMa,生成了「姜子牙」(Ziya)通用大模型,已經應用於數字人、文案寫作等場景。約一個月前,他們還訓練出了一系列的專家模型,如多模態模型、代碼模型、寫作模型、對話模型等。後者可以幫用戶寫文章、新媒體文案、直播腳本、宣傳海報、甚至網文小說等。

張家興認為,在這個龐大的生態系統中,創業者可以結合自身特長思考要佔據生態位的什麼位置。 「任何有志於投身到大模型領域的人,都可以從中找到自己的位置。」他說。

以下是張家興在AGI Playground 大會上的演講全文,經極客公園節選整理:

在極客公園主辦的AGI Playground 大會上,張家興發表演講

01、大模型時代:新範式和新生態

今年我們言必稱大模型的時候,言必稱AGI 的時候,我們總會把大模型這件事情認為是AI 中理所當然的。往前推,即使我們推到1997 年非常重要的一件事情是「深藍」擊敗「卡斯帕羅夫」。即使那樣的AI 系統裡面也沒有一個深度學習模型。

整個AI 發展歷程始於1956 年,至今已有70 年。雖然AI 經歷了幾次潮起潮落,我們可以發現AI 發展一直沿著一條線進行,這就是AI 的模型化進程——模型在AI 中所佔的比重越來越強。 今天我們堅信,未來AI 就是模型的天下,我們多麼重視模型都不為過

圖:張家興講述AI 的「模型化」過程

我們都說這次大模型是「技術範式」的變化,用兩個關鍵詞概括就是,「消失」和「形成」。

「消失」指的是類型的消失。半年前,整個AI 領域充斥著各種不同類型的AI 結構和任務。比如在結構上,有BERT、T5 等各種模型結構。比如在任務上,有分類、信息抽取、寫摘要、問答等各種任務。然而,隨著通用大模型時代的到來,這些多樣性正在消失。

現在,唯一的模型結構是GPT,唯一的任務是文本輸入和文本輸出。所以曾經的AI 概念,如句化分析、關鍵詞等概念,都逐漸都淡出我們的視野了。而且,今天模型的用途已不再由技術提供方決定,而是由使用的客戶自行決定。

而「形成」指的是生產鏈的形成。一個模型的構建需要投入巨大的資源,幾乎沒有人能夠獨自從頭到尾完成這項任務。它需要一個龐大的團隊,背後很大的算力支持下才能打磨出來。從模型的最初構想,到中間各種階段的微調,再到最後的落地實踐,這構成了一個完整的生產鏈。

從「消失」和「形成」,可以看到大模型的「範式轉移」。有時候,技術的進步就是無情的,不受個人意志的左右,新的技術範式將代替老的技術範式。

那麼,大模型作為這項新的技術範式,到底有什麼價值呢?在我看來,它帶來了四個全新的價值:

1 全新的理解能力

在自然語言理解方面,當下的大模型遠超過之前所有的模型。它彷彿真的了解我們每句話的意思。儘管回答可能不完全準確,但呈現出了全新的理解能力。

2 全新的工具

它既是提效的工具,能把人從繁重的勞動中解放出來。它也是創造性工具,能創造出人創造不出來的東西。例如,去年Diffusion Model 展示出的文生圖能力。

3 新界面

曾經,我們必須通過編寫程序來訪問數據和API,而現在,似乎不再需要編寫繁瑣的代碼,只需用自然語言描述,大模型就能自動生成代碼。

4 新引擎

大模型不僅僅是單一點能力,它可以作為引擎,驅動信息檢索、對話生成、甚至創造故事等工作。

大模型還帶來了全新的生態,這就是如何跟產業結合落地的問題。

我們認為大模型不僅僅是普通的API,或者不可改變的模型。我們強調上游公司生產模型之後,下游客戶要進行進一步的訓練,跑完最後一公里。這樣,模型就能嵌入到每個客戶自己的場景中。當模型表現得越好,收集的數據就越多,又會反過來加強模型。這樣能夠真正推動整個產業的發展。

在這個新生態中,最上游是做基底模型的公司,基底模型往下有許多團隊,會專注於特定能力或領域的模型。繼續往下,就是與解決方案公司、雲廠家和硬件廠家合作,創造各種各樣的產品,最終服務於落地的企業和政府。

圖:張家興描述的大模型新生態

從基底模型到真正的落地,這涉及了非常多的環節和鏈路,也孕育了許多新的生態位。我覺得,每個人都可以結合自己的特長,思考在這個生態系統中要佔據哪些位置。其實任何有志於投身到大模型領域的人,都可以從中找到自己的位置。

02、「姜子牙」大模型背後

我們團隊已經成立兩年,從我們過往的經歷中,可以很清楚地看到這種範式變化對我們造成的影響。

一直到去年年底,我們都是開發大量的開源模型,做不同的模型結構和任務類型。僅在一年的時間裡,我們就開源了98 個模型,創下了中文領域的開源紀錄。

然而,去年年底,文生圖的模型作為一款爆品突然出現了。於是我們開始轉向,做了中文第一個開源的Stable Diffusion 模型,我們稱為「太乙」模型。我們希望能跟上大模型的技術範式變化。

到了當下通用大模型時代,我們團隊正在加班加點幹的事情是,為中文訓練最好的開源基底大模型。這就是大家都知道的LLaMA2。我們訓練了20B 的token,相較於之前訓練的「ziya-LLaMA-13B」模型,訓練速度提高了38%,徹底解決了訓練過程中不穩定「訓飛」(訓練異常)的問題。

圖:訓練20B token 之後,LLaMA2 解決了訓練過程中不穩定的「訓飛」問題

這個模型我們訓練出來之後將會完全開源,而且不會有任何商業應用上的限制。同時,我們承諾會對這個模型進行持續的訓練,希望為整個大模型社區提供一個最好的開源可商用模型的基底。

在當前的技術範式下,今年推出的ChatGPT 令許多人興奮不已,說通用大模型將顛覆各行各業。然而,隨著時間的推移,我們冷靜下來發現,大模型其實只是對現有場景的淨化和優化。因此,我們認識到在垂直行業、領域和能力上,仍然有許多大模型應用的可能性和機會存在。

所以大概一個月前,我們團隊生產了一系列專家模型,比如多模態模型、代碼模型、寫作模型、對話模型等。其中許多都已經發布,並達到了領域內最優秀的水平。

我們最近剛剛開源了中文協作模型,稱為「子牙writing」。我們希望這個模型能夠成為一個開箱即用的小助手,為企業和個人提供提效的支持。例如,政府人員可以讓子牙writing 幫助寫災害情況的匯報,或者寫領導在開幕式上的致辭,因為它能非常符合政策報告的風格。

另外,它還可以讓中文社區的創作者、運營人員和營銷人員從中解放出來,幫助寫各種類型的文章、文案、軟文,甚至可以創作優秀的短篇小說,甚至一篇古代修仙玄幻的網文小說。我們可以看到,它不管是在章節結構邏輯性、還是故事情節上,都有一個非常好的表現。

我們還開發了一個檢索包,只使用了一個億的參數。它在法律和金融領域的效果都要優於目前的一些解決方案,甚至比目前開源最好的向量模型還要好。我們的工具包也可以成為金融行業的小助手,為研究員和分析師提供幫助。

我們為什麼可以生產出這麼多高質量模型?

背後是我們的許多積累,包括三階段的訓練系統(預訓練PT、有監督微調SFT、人類反饋學習RLHF),包括積累的大量高質量數據、自研的一些算法、以及把它沉澱到我們的訓練系統中。

我們的每一個模型都同時支持開源和商業版,並授權我們的伙伴進行訓練和微調,讓他們在自己的場景下面做私有化的訓練。

由小見大,從我們一個團隊的變化,也反映出當下整個大模型領域技術範式的變化。

03、現場提問

圖:IDEA 團隊接受現場提問

**問:如何看待未來硬件推理架構?未來的硬件是長期「訓推一體」,還是會有專用推理芯片的機會? **

張家興:本來我們曾經是訓練和推理兩類芯片,但是現在的推理芯片顯然無法適應現在的大模型。

所以目前,基本從硬件的限制來說,做「訓推一體」比較多。而且訓推一體有很大的好處就是它可以復用算力。我們推理不見得一直是屬於滿負荷狀態,所以可以充分利用波谷的時間做訓練,這也是從經濟的時間來考慮。

未來來看,推理芯片仍然具有其存在的意義。在某些場景下,比如移動端、邊緣計算或車載設備等,仍然需要特殊定制的推理芯片。即使在雲端、服務器裡面,如果推理芯片朝著低功耗或者其他方面能夠有更多的優化,那它也有存在的意義。我覺得未來應該還是會有專門的芯片做專門的事兒。

**問:針對一些垂直類的應用,應該從哪些角度去蒐集數據比較好?如何構建高質量的數據集? **

張家興:其實我們整個數據也都是逐漸收集的,從最開始只有二三十個數據集。但慢慢通過訓練,比如缺了哪部分能力,我們就會針對性收集一部分這樣的數據,同時會有我們自己的一些經驗積累,比如一些數據處理之類的。

最後如果實在沒有,我們會自己構造一些數據。比如針對多人對話等,我們都有各種各樣的不同類型數據集在裡面。

**問:為什麼做了這麼多專項能力模型?為什麼不在同一個模型上同時提升這些能力? **

張家興:我們有幾點考慮,第一是我們事先選定了這樣的模型尺寸,選擇這個模型尺寸之後,再想讓這個模型具備什麼能力,這就是受限情況下的命題。這是非常大的成本優勢。

這個時候想把所有能力放進來一個大模型裡,但是這些能力在時間和空間上是互斥的。在空間上,某些能力是互斥的,比如當時我們做了邏輯推理方面的問題,比如數學題的問題和寫作類的問題它們是有衝突的。另外是時間上的衝突,在某一個時刻某個能力是最強的,但其他能力可能不是很強。

既然下游的場景只是需要單一能力,那我們乾脆去只選取某些特定的數據集訓練某些任務,就是專用模型。

**問:你講到不穩定「訓飛」問題被解決了,這是如何被解決的? **

張家興:這裡面很關鍵的一點,第一是我們的訓練上做了調整,我們在分佈式訓練時在源碼層做了修改,確實訓練的穩定性強了很多。我們當年訓練Ziya-LLaMA-13B 的時候,那個訓練集的曲線就穩定了。我們是一個非常專注於訓練技術的大模型團隊,這也是我們能夠持續做出好模型的保障。

**問:對於公域大模型和私有化大模型的討論,模型一定要私有化嗎?比如我要做一個to C 的應用,我可以不做私有化部署嗎? **

張家興:首先,我們發現我們的合作夥伴有一些數據安全合規和隱私方面的需求,他們的數據不能去使用公有的模型去做訓練。第二,他們需要有一個非常深度的場景,定制的需求,不管to B 的產品還是to C 產品,他們都希望在自己的場景去用。

這個時候,公有的大模型或者通用大模型底座並不能完全滿足他們每一個需求,所以私有化訓練和私有化部署就成為他們的必選項。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)