擊敗Llama 2，抗衡GPT-3.5，Stability AI新模型登頂開源大模型排行榜

巴比特_

2023-07-24 02:41:13

原文來源：機器之心

圖片來源：由無界AI‌ 生成

一眨眼，開源大模型又進步了。谷歌、OpenAI真的沒有護城河？

「我就午休了30 分鐘，我們的領域又變了？」在看到最新的開源大模型排行榜後，一位AI 領域的創業者發出了靈魂追問。

排行榜鏈接：

上圖紅框中的「新秀」是來自Stability AI 和CarperAI lab 的兩個大模型：FreeWilly 1 和FreeWilly 2。剛剛，它們超越了Meta 三天前發布的Llama-2-70b-hf，成功登頂HuggingFace 的Open LLM 排行榜榜首。

更引人注目的是，FreeWilly 2 在很多基准上還擊敗了ChatGPT（GPT-3.5），成為首個真正可以和GPT-3.5 相抗衡的開源大模型，這是Llama 2 都沒有做到的事情。

FreeWilly 1 基於原始的LLaMA 65B 基礎模型構建，並且在標準Alpaca 格式下，使用新的合成數據集進行了仔細的有監督微調（SFT）。 FreeWilly2 則基於最新的LLaMA 2 70B 基礎模型構建。

從Stability AI 發布的博客中，我們可以看到這兩個新模型的一些細節：

數據來源

FreeWilly 模型的訓練方法直接受到了微軟在其論文《Orca: Progressive Learning from Complex Explanation Traces of GPT-4》中首創的方法的啟發。雖然FreeWilly 的數據生成過程與之相似，但二者在數據來源方面存在差異。

FreeWilly 的數據集包含了60 萬個數據點（大約是原始Orca 論文使用的數據集大小的10%），它是通過以下由Enrico Shippole 創建的高質量指令數據集來啟發語言模型生成的：

COT 子混音原版
NIV2 子混合原版
FLAN 2021 子混音原創
T0 子混音原版

採用這種方法，研究者使用了一個較簡單的LLM 模型生成了50 萬個示例，並使用一個更複雜的LLM 模型生成了額外的10 萬個示例。為了確保公平比較，他們仔細篩選了這些數據集，並刪除了來源於評估基準測試的示例。儘管訓練樣本數量僅為原始Orca 論文的1/10（相比原始論文大大降低了訓練模型的成本和碳排放），但由此產生的FreeWilly 模型在各種基準測試中表現出色，驗證了他們採用合成數據集的方法的有效性。

性能數據

為了對這些模型進行內部評估，研究者使用了EleutherAI 的lm--harness 基準，並加入了AGI。

其中，lm--harness 基準由EleutherAI 非盈利人工智能研究實驗室創建，前面提到的HuggingFace Open LLM 排行榜背後運行的就是該基準，它會在Hugging Face 計算集群的空閒週期中運行評估，並將結果存儲在數據集中，然後在在線排行榜空間上顯示。

AGI 則由微軟創建，專門用於評估基礎模型在「以人為本」（human-centric）的標準化考試中的表現，比如數學競賽、律師資格考試。

在許多方面，兩個FreeWilly 模型表現都非常出色，包括複雜的推理、理解語言的微妙之處，以及回答涉及專業領域（如法律和數學問題）的複雜問題。

兩個模型在lm--harness 基准上的評估結果如下（這些FreeWilly 測試結果是由Stability AI 研究人員來評估的）：

二者在AGI 基准上的表現如下（全部是0-shot）：

此外，他們還在GPT4ALL 基准上對兩個模型進行了測試（全部是0-shot）：

總體來看，這兩個模型的性能表現都非常優秀，進一步縮小了與ChatGPT 等頂級AI 大模型的差距。想要獲取模型的同學可以點擊以下鏈接。

自由威利 1：

威利2：

從各方反應來看，FreeWilly 模型的出現給大家帶來了一點小小的震撼，因為它們來得實在是太快了，畢竟Llama 2 才剛剛推出3 天，排行榜位置都沒坐熱。有位研究者表示，他最近剛做了眼科手術，一個星期沒看新聞，但感覺自己已經昏迷了一年。所以，這是一段「不能眨眼」的時期。

不過，需要注意的是，雖然兩個模型都是開放獲取的，但和Llama 2 不同，它們是以非商業許可的形式發布的，僅可用於研究目的。

然而，這樣的做法引起了網友質疑。

對此，Stability AI的研究者回复說，這種情況（僅用於研究目的）只是暫時的，未來，FreeWilly 有望像Llama 2 一樣允許商用。

此外，也有人對測試採用的基準產生了質疑：

這也是當前一個比較棘手的問題。此前，Falcon 模型在HuggingFace 排行榜上碾壓Llama 的事件備受爭議，後來，該事件徹底反轉，事實證明Llama 並未被Falcon 碾壓，HuggingFace 也為此重寫了排行榜代碼。在大模型層出不窮的今天，如何有效地評估這些模型依然是一個值得討論的問題。因此，對於這些登頂排行榜的模型，我們有必要保持更加謹慎的態度，等待更多的評測結果出爐。

參考鏈接：

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
點讚
留言
轉發
分享

留言

0/400

暫無留言