2021年、Zhang Jiaxing氏はIDEA Research InstituteのCCNL Fengshenbangチームを率いて、モデルの「前身」となる中国最大のオープンソース事前トレーニングモデルシステム「Fengshenbang」を作成しました。彼らは大型模型がもたらす「パラダイムシフト」を目の当たりにした。
今年、ビッグ モデルと AGI について話すとき、AI では常にビッグ モデルが当然のこととして扱われます。今後、1997年に遡っても、非常に重要なことは、「ディープ・ブルー」が「カスパロフ」を破ったということです。その AI システムにも深層学習モデルは含まれていません。
AI の開発プロセス全体は 1956 年に始まり、70 年が経過しました。 AI は何度か栄枯盛衰を経験しましたが、AI の開発は AI のモデリング プロセス、つまり AI におけるモデルの割合がますます強くなっているという線に沿って進んでいることがわかります。 私たちは現在、将来 AI はモデルによって支配されると強く信じており、モデルを過度に強調することはできません。
「消滅」とは、タイプの消滅を指します。半年前、AI 分野全体にさまざまなタイプの AI 構造とタスクが溢れていました。例えば構造的にはBERTやT5など様々なモデル構造が存在します。例えば、タスクといっても、分類、情報の抽出、要約の作成、質疑応答などさまざまなタスクがあります。しかし、汎用大型モデルの時代が到来し、その多様性は失われつつあります。
現時点では、モデル構造は GPT のみであり、タスクはテキスト入力とテキスト出力のみです。そのため、文章分析やキーワードなど、これまでの AI の概念は徐々に私たちの視野から消えていきました。さらに、今日のモデルの使用は、もはやテクノロジーの提供者の裁量ではなく、それを使用する顧客の裁量に委ねられています。
私たちは、大きなモデルは単なる単純な API や不変モデルではないと考えています。上流の企業がモデルを作成した後、下流の顧客はさらにトレーニングを実施し、ラスト マイルを実行する必要があることを強調します。このようにして、モデルを各顧客独自のシナリオに組み込むことができます。モデルのパフォーマンスが向上すると、より多くのデータが収集され、結果的にモデルが強化されます。これは業界全体の発展を本当に促進することができます。
さらに、中国人コミュニティのクリエイター、運営者、マーケティング担当者が自由になって、さまざまな種類の記事、コピーライティング、ソフト記事の執筆を支援したり、優れた短編小説や古代のおとぎ話に関する Web 小説の作成さえも支援できるようになります。章構成のロジックやストーリー展開の点で非常に優れたパフォーマンスを持っていることがわかります。
Zhang Jiaxing: まず、パートナーにはデータ セキュリティ コンプライアンスとプライバシー要件があり、そのデータを公開モデルでのトレーニングに使用できないことがわかりました。 2 番目に、非常に詳細なシーンとカスタマイズされた要件が必要であり、B to B の製品であるか、C to C の製品であるかに関係なく、全員が独自のシーンで使用することを望んでいます。
視点: 将来、AI はモデルに支配され、モデルの重要性を過大評価することはできません
出典: ギークパーク
著者: 興福
原題:「「Jiang Ziya」モデルの裏側、プロフェッショナルAIチームの進化」
1956 年に科学者が最初の「チェッカー」AI プログラムを開発して以来、AI は 70 年近く開発されてきました。この期間にはいくつかの栄枯盛衰がありましたが、その中で 1 つの主要な流れが貫かれています。それは「モデリング」です。AI における「モデル」の割合はますます高くなっています。この傾向は、大規模言語モデル ChatGPT の出現後にピークに達しました。
「私たちは、AI の未来はモデルの世界であると強く信じており、モデルを強調しすぎることはできません。」
7月22日、Geek Parkが主催するAGI Playgroundカンファレンスで、IDEA(広東・香港・マカオ大湾区デジタル経済)研究所のコグニティブ・コンピューティングと自然言語の主席科学者、張嘉興氏はこう語った。
2021年、Zhang Jiaxing氏はIDEA Research InstituteのCCNL Fengshenbangチームを率いて、モデルの「前身」となる中国最大のオープンソース事前トレーニングモデルシステム「Fengshenbang」を作成しました。彼らは大型模型がもたらす「パラダイムシフト」を目の当たりにした。
張嘉興氏は、今回の移籍には「消滅」と「形成」という2つのキーワードが含まれていると考えている。 「消滅」とは、ChatGPT 汎用大型モデルの登場により、情報抽出、質疑応答、テキスト出力を行っていた特定の種類のモデルが消滅することを意味します。 「形成」とは、大きなモデルの背後でエンジニアリングをテストする能力が、モデルの誕生から微調整、そして着陸まで、新しい生態学的ニッチ**を形成することを意味します。
IDEA Research Institute CCNL は、新たな生態学的ニッチ市場にも進出しています。
現在、Fengshenbang チームは、フルキャパシティ モデルの開発に加えて、LLaMa に基づいて「Jiang Ziya」(Ziya)の汎用大規模モデルを生成し、デジタル ヒューマンやコピーライティングなどのシナリオに適用されています。約 1 か月前、彼らはマルチモーダル モデル、コード モデル、ライティング モデル、対話モデルなどの一連のエキスパート モデルもトレーニングしました。後者は、ユーザーが記事、新しいメディアのコピーライティング、生放送の台本、宣伝ポスター、さらにはオンライン小説を書くのに役立ちます。
Zhang Jiaxing 氏は、この巨大なエコシステムにおいて、起業家は自らの強みに基づいて、生態学的ニッチをどこに占めるかを考えることができると信じています。 「大型モデルの分野に参入することに興味がある人は誰でも、その分野で自分の居場所を見つけることができます」と彼は言いました。
以下は、AGI Playground Conference での張嘉興氏のスピーチの全文です。Geek Park が編集しました。
01. 大規模モデル時代: 新しいパラダイムと新しいエコロジー
今年、ビッグ モデルと AGI について話すとき、AI では常にビッグ モデルが当然のこととして扱われます。今後、1997年に遡っても、非常に重要なことは、「ディープ・ブルー」が「カスパロフ」を破ったということです。その AI システムにも深層学習モデルは含まれていません。
AI の開発プロセス全体は 1956 年に始まり、70 年が経過しました。 AI は何度か栄枯盛衰を経験しましたが、AI の開発は AI のモデリング プロセス、つまり AI におけるモデルの割合がますます強くなっているという線に沿って進んでいることがわかります。 私たちは現在、将来 AI はモデルによって支配されると強く信じており、モデルを過度に強調することはできません。
今回の大型モデルは「技術パラダイム」の変化であると誰もが言いますが、それは「消える」と「形になる」という2つのキーワードに集約されます。
「消滅」とは、タイプの消滅を指します。半年前、AI 分野全体にさまざまなタイプの AI 構造とタスクが溢れていました。例えば構造的にはBERTやT5など様々なモデル構造が存在します。例えば、タスクといっても、分類、情報の抽出、要約の作成、質疑応答などさまざまなタスクがあります。しかし、汎用大型モデルの時代が到来し、その多様性は失われつつあります。
現時点では、モデル構造は GPT のみであり、タスクはテキスト入力とテキスト出力のみです。そのため、文章分析やキーワードなど、これまでの AI の概念は徐々に私たちの視野から消えていきました。さらに、今日のモデルの使用は、もはやテクノロジーの提供者の裁量ではなく、それを使用する顧客の裁量に委ねられています。
また、「形成」とは生産チェーンの形成を指します。モデルの構築には膨大なリソースの投資が必要であり、このタスクを最初から最後まで一人で完了できる人はほとんどいません。それを磨き上げるには、大規模なチームとその背後に大量のコンピューティング能力が必要です。モデルの最初の構想から、途中のさまざまな段階の微調整、そして最終的な着陸練習に至るまで、これが完全な生産チェーンを構成します。
「消滅」と「形成」から、大きなモデルの「パラダイムシフト」が見えてきます。場合によっては、技術の進歩は個人の意志とは無関係に容赦なく進み、新しい技術パラダイムが古い技術パラダイムに取って代わることもあります。
では、この新しい技術パラダイムとしての大型モデルの価値は何でしょうか?私の意見では、これは 4 つのまったく新しい価値をもたらします。
1 まったく新しい理解
自然言語の理解という点では、現在の大規模モデルは以前のすべてのモデルをはるかに上回っています。私たちの言葉の意味を本当に理解しているようです。答えは完全に正確ではないかもしれませんが、まったく新しいレベルの理解が生まれます。
2 つの新しいツール
効率を向上させるツールであるだけでなく、人々を重労働から解放することもできます。人間には作れないものを生み出す創造的な道具でもあります。たとえば、昨年の拡散モデルでは、ヴィンセン グラフの機能が実証されました。
3 つの新しいインターフェース
以前はデータやAPIにアクセスするためにプログラムを書かなければなりませんでしたが、今では面倒なコードを書く必要がなくなり、自然言語で記述するだけで大規模なモデルがコードを自動生成してくれるそうです。
4 つの新しいエンジン
この大規模なモデルは、単なる単一の機能ではなく、情報検索、対話生成、さらにはストーリー作成を推進するエンジンとして使用できます。
大型モデルは、業界とどのように統合して実装するかという新しいエコロジーももたらします。
私たちは、大きなモデルは単なる単純な API や不変モデルではないと考えています。上流の企業がモデルを作成した後、下流の顧客はさらにトレーニングを実施し、ラスト マイルを実行する必要があることを強調します。このようにして、モデルを各顧客独自のシナリオに組み込むことができます。モデルのパフォーマンスが向上すると、より多くのデータが収集され、結果的にモデルが強化されます。これは業界全体の発展を本当に促進することができます。
この新しいエコロジーでは、最も上流にあるのはベース モデルを作成する企業であり、ベース モデルの下には特定の機能や分野のモデルに焦点を当てた多くのチームがあります。今後はソリューション企業、クラウドメーカー、ハードウェアメーカーと連携してさまざまな製品を生み出し、最終的には上陸企業や政府にサービスを提供することになる。
基本モデルから実際の実装に至るまで、これには多くのリンクとリンクが含まれ、多くの新しい生態学的ニッチも生まれました。誰もが自分の強みを組み合わせて、このエコシステムのどこに位置したいかを考えることができると思います。実際、大規模模型の分野に専念したい人なら誰でも、その分野で自分の居場所を見つけることができます。
02. 「Jiang Ziya」の大きな模型の裏側
私たちはチームになって 2 年になりますが、このパラダイム シフトが私たちに影響を与えていることは経験から明らかです。
昨年末まで、私たちはさまざまなモデル構造とタスクタイプを実行して、多数のオープンソースモデルを開発していました。わずか 1 年で 98 モデルをオープンソース化し、中国分野での記録を樹立しました。
しかし、昨年末、文生図のモデルが突然人気商品として登場した。そこで私たちは方向転換を開始し、中国語で最初のオープンソースの安定拡散モデルを作成しました。これを「Taiyi」モデルと呼んでいます。私たちは、大型モデルの技術パラダイムの変化に遅れずについていきたいと考えています。
現在の汎用大規模モデルの時代において、私たちのチームが残業して取り組んでいるのは、中国語向けに最適なオープンソースベースの大規模モデルをトレーニングすることです。これは LLaMA2 として知られています。 20Bトークンを訓練しましたが、以前に訓練した「ziya-LLaMA-13B」モデルと比較して、訓練速度が38%向上し、訓練プロセス中の不安定な「訓練飛行」(異常訓練)の問題が完全に解決されました。
このモデルをトレーニングした後は完全にオープンソースになり、商用アプリケーションには制限がなくなります。同時に、私たちはこのモデルのトレーニングを継続することを約束し、大規模なモデル コミュニティ全体に最高のオープンソースと市販のモデル ベースを提供したいと考えています。
現在の技術パラダイムの下で、今年の ChatGPT の導入は多くの人々を興奮させ、汎用の大型モデルはあらゆる分野に混乱をもたらすだろうと述べました。しかし、時間が経つにつれ、私たちは冷静になり、大きなモデルは実際には既存のシーンを純化し、最適化したものに過ぎないことが分かりました。したがって、私たちは、垂直産業、ドメイン、機能における大規模モデルの適用にはまだ多くの可能性と機会があることを認識しています。
そこで約 1 か月前、私たちのチームはマルチモーダル モデル、コード モデル、記述モデル、対話モデルなどの一連のエキスパート モデルを作成しました。それらの多くはすでにリリースされており、この分野で最高のレベルにあります。
私たちは最近、「Ziya writing」と呼ばれる中国語のコラボレーション モデルをオープンソース化しました。このモデルが、企業や個人の効率化をサポートする、すぐに使えるアシスタントとなることを期待しています。たとえば、政府関係者は、政策報告書のスタイルに非常によく適合するため、災害報告書の作成や開会式での指導者のスピーチの執筆を Ziya ライティングに依頼できます。
さらに、中国人コミュニティのクリエイター、運営者、マーケティング担当者が自由になって、さまざまな種類の記事、コピーライティング、ソフト記事の執筆を支援したり、優れた短編小説や古代のおとぎ話に関する Web 小説の作成さえも支援できるようになります。章構成のロジックやストーリー展開の点で非常に優れたパフォーマンスを持っていることがわかります。
また、わずか 1 億個のパラメータを使用する検索パッケージも開発しました。これは、法的領域と金融領域の両方において、現在の一部のソリューションよりもうまく機能し、現在オープンソースになっている最良のベクトル モデルよりもさらに優れています。私たちのツールキットは、金融業界のちょっとした助けにもなり、研究者やアナリストを支援します。
なぜこれほど多くの高品質なモデルを生産できるのでしょうか?
その背後には、3 段階のトレーニング システム (事前トレーニング PT、教師付き微調整 SFT、ヒューマン フィードバック学習 RLHF) を含む、多くの蓄積があります。これには、蓄積された大量の高品質データ、一部の自社開発アルゴリズム、およびトレーニング システムへのその蓄積が含まれます。
当社の各モデルは、オープン ソース バージョンと商用バージョンの両方をサポートしており、パートナーがトレーニングと微調整を実行することを許可しているため、パートナーは独自のシナリオでプライベート トレーニングを行うことができます。
小さなものから大きなものまで、私たちのチームの 1 つによる変更は、大規模モデルの分野における現在の技術パラダイムの変化も反映しています。
03、現場での質問
**Q: 将来のハードウェア推論アーキテクチャをどのように考えていますか?将来のハードウェアは長期間にわたって「トレーニングとプロモーションに統合」されるのでしょうか、それとも専用の推論チップを搭載する機会はあるのでしょうか? **
Zhang Jiaxing: もともと、トレーニング用と推論用に 2 種類のチップがありましたが、現在の推論チップは明らかに現在の大規模モデルに適応できません。
したがって、現在、基本的にはハードウェアの制限の観点から、「トレーニングとプッシュの統合」がさらに進んでいます。そして、トレーニングとプッシュを統合することの大きな利点は、コンピューティング能力を再利用できることです。私たちの推論は常にフル負荷ではない可能性があるため、経済的な時間の観点からも考慮された谷の時間をトレーニングに最大限に活用できます。
将来的にも、推理チップはその意味を持ちます。モバイル端末、エッジ コンピューティング、車載デバイスなどの一部のシナリオでは、特別にカスタマイズされた推論チップが依然として必要です。クラウドやサーバーであっても、低消費電力などの面で推論チップをより最適化できれば、まだ意味はあります。今後も専門的なことには専用チップが必要だと思います。
**Q: 一部の垂直アプリケーションでは、どの角度からデータを収集する必要がありますか?高品質のデータセットを構築するにはどうすればよいでしょうか? **
Zhang Jiaxing: 実際、私たちの全体のデータも徐々に収集されており、最初からデータ セットは 20 ~ 30 しかありません。しかし、ゆっくりと訓練することによって、例えば能力のどの部分が欠けているかなど、このデータの一部を的を絞った方法で収集し、同時にデータ処理などのいくつかの自分自身の経験も蓄積します。
最後に、そのようなものが存在しない場合は、自分でデータを構築します。たとえば、複数人での会話などには、さまざまな種類のデータセットが含まれています。
**Q: なぜ特殊能力モデルがこれほどたくさんあるのですか?同じモデルでこれらの機能を同時に強化してみませんか? **
Zhang Jiaxing: いくつかの考慮事項があります。1 つ目は、事前にモデルのサイズを選択したことです。モデルのサイズを選択した後、モデルにどのような機能を持たせるかが必要です。これは限られた条件下での提案です。これは非常に大きなコスト上の利点です。
現時点では、すべての能力を 1 つの大きなモデルにまとめたいと考えていますが、これらの能力は時間と空間の点で相互に排他的です。空間の観点から見ると、一部の能力は相互に排他的であり、たとえば、数学の問題と記述の問題などの論理的推論の問題を行うと、それらは矛盾します。また、時間の矛盾もあり、ある瞬間には、ある能力が最強でも、他の能力はそれほど強くないこともあります。
ダウンストリーム シナリオには 1 つの機能しか必要ないため、特定のタスク (専用モデル) をトレーニングするために、特定の特定のデータ セットを選択するだけです。
**Q: 不安定な「訓練飛行」の問題が解決されたとおっしゃいましたが、これはどのように解決されましたか? **
Zhang Jiaxing: ここに重要な点があります。まず、トレーニングを調整しました。分散トレーニング中にソース コード層に変更を加えました。確かに、トレーニングの安定性ははるかに強力です。 Ziya-LLaMA-13B をトレーニングしたとき、そのトレーニング セットのカーブは安定していました。私たちは大規模なモデル チームであり、テクノロジーのトレーニングに非常に重点を置いています。これは、優れたモデルを作り続けるための保証でもあります。
**Q: パブリックドメインモデルと民営化された大規模モデルの議論に関して、モデルは民営化されなければなりませんか?たとえば、C アプリケーションを作成したい場合、プライベート展開はできないでしょうか? **
Zhang Jiaxing: まず、パートナーにはデータ セキュリティ コンプライアンスとプライバシー要件があり、そのデータを公開モデルでのトレーニングに使用できないことがわかりました。 2 番目に、非常に詳細なシーンとカスタマイズされた要件が必要であり、B to B の製品であるか、C to C の製品であるかに関係なく、全員が独自のシーンで使用することを望んでいます。
現時点では、公共の大規模モデルや一般的な大規模モデル ベースではすべてのニーズを完全に満たすことができないため、民間のトレーニングと民間の導入が必須となっています。