Point de vue : À l'avenir, l'IA sera gouvernée par des modèles, et l'importance des modèles ne peut être surestimée

Source : Geek Park

Auteur : Xingfu

Titre original : "Derrière le modèle "Jiang Ziya", l'évolution d'une équipe d'IA professionnelle"

Depuis que les scientifiques ont développé le premier programme d'IA "checkers" en 1956, l'IA est développée depuis près de 70 ans. Au cours de cette période, il y a eu plusieurs flux et reflux, mais un fil conducteur le traverse : c'est la "modélisation" - la proportion de "modèle" dans l'IA devient de plus en plus élevée. Cette tendance a culminé après l'émergence du grand modèle linguistique ChatGPT.

"Nous croyons fermement que l'avenir de l'IA est le monde des modèles, et nous ne pouvons pas trop insister sur les modèles."

Le 22 juillet, lors de la conférence AGI Playground organisée par Geek Park, Zhang Jiaxing, directeur scientifique de l'informatique cognitive et du langage naturel à l'Institut de recherche IDEA (Digital Economy in Guangdong-Hong Kong-Macao Greater Bay Area), a déclaré.

En 2021, Zhang Jiaxing a dirigé l'équipe CCNL Fengshenbang de l'Institut de recherche IDEA pour créer le plus grand système de modèle de pré-formation open source chinois "Fengshenbang", qui est le "précurseur" du modèle. Ils ont été témoins du "changement de paradigme" provoqué par les grands modèles.

Zhang Jiaxing estime que ce transfert comprend deux mots clés, "disparaître" et "se former". "Disparition" signifie que Avec l'arrivée du grand modèle à usage général ChatGPT, des types spécifiques de modèles qui servaient à l'extraction d'informations, aux questions et réponses et à la sortie de texte disparaissent. « Formation » signifie que la capacité de tester l'ingénierie derrière le grand modèle formera une nouvelle niche écologique ** de la naissance du modèle à l'ajustement jusqu'à l'atterrissage.

IDEA Research Institute CCNL s'implante également dans la nouvelle niche écologique.

En plus de développer un modèle à pleine capacité à l'heure actuelle, l'équipe de Fengshenbang a généré un grand modèle à usage général de "Jiang Ziya" (Ziya) basé sur LLaMa, qui a été appliqué à des scénarios tels que les humains numériques et la rédaction. Il y a environ un mois, ils ont également formé une série de modèles experts, tels que des modèles multimodaux, des modèles de code, des modèles d'écriture, des modèles de dialogue, etc. Ce dernier peut aider les utilisateurs à rédiger des articles, la rédaction de nouveaux médias, des scripts de diffusion en direct, des affiches promotionnelles et même des romans en ligne.

Zhang Jiaxing estime que dans cet immense écosystème, les entrepreneurs peuvent réfléchir à l'endroit où occuper la niche écologique en fonction de leurs propres forces. « Toute personne intéressée à se lancer dans le domaine des grands modèles peut y trouver sa place », a-t-il déclaré.

Voici le texte intégral du discours de Zhang Jiaxing à la conférence AGI Playground, édité par Geek Park :

Lors de la conférence AGI Playground organisée par Geek Park, Zhang Jiaxing a prononcé un discours

01. L'ère des grands modèles : nouveau paradigme et nouvelle écologie

Cette année, quand on parle de gros modèles et d'AGI, on prend toujours les gros modèles comme une évidence en IA. À l'avenir, même si nous repoussons à 1997, une chose très importante est que "Deep Blue" a vaincu "Kasparov". Même ce système d'IA n'a pas de modèle d'apprentissage en profondeur.

L'ensemble du processus de développement de l'IA a commencé en 1956, et cela fait 70 ans. Bien que l'IA ait connu plusieurs flux et reflux, nous pouvons constater que le développement de l'IA s'est déroulé le long d'une ligne, qui est le processus de modélisation de l'IA - la proportion de modèles dans l'IA devient de plus en plus forte. Aujourd'hui, nous croyons fermement qu'à l'avenir, l'IA sera dominée par les modèles, et nous ne pouvons pas trop insister sur les modèles.

Image : Zhang Jiaxing parle du processus de "modélisation" de l'IA

Nous disons tous que le grand modèle est cette fois un changement de "paradigme technique", qui peut se résumer en deux mots clés, "disparaître" et "se former".

"Disparaître" fait référence à la disparition du type. Il y a six mois, l'ensemble du domaine de l'IA était inondé de différents types de structures et de tâches d'IA. Par exemple, en termes de structure, il existe différentes structures modèles telles que BERT et T5. Par exemple, en termes de tâches, il existe diverses tâches telles que la classification, l'extraction d'informations, la rédaction de résumés et les questions et réponses. Cependant, avec l'avènement de l'ère des grands modèles polyvalents, cette diversité est en train de disparaître.

À l'heure actuelle, la seule structure de modèle est GPT, et les seules tâches sont la saisie et la sortie de texte. Ainsi, les concepts d'IA précédents, tels que l'analyse de phrases, les mots-clés et d'autres concepts, se sont progressivement estompés de notre champ de vision. De plus, l'utilisation des modèles aujourd'hui n'est plus à la discrétion du fournisseur de la technologie, mais à la discrétion du client qui l'utilise.

Et "formation" fait référence à la formation de la chaîne de production. La construction d'un modèle nécessite un énorme investissement de ressources, et presque personne ne peut accomplir cette tâche du début à la fin seul. Il nécessite une équipe énorme et beaucoup de puissance de calcul pour le peaufiner. De la conception initiale du modèle, à la mise au point des différentes étapes au milieu, et à la pratique finale d'atterrissage, cela constitue une chaîne de production complète.

De la «disparition» et de la «formation», on peut voir le «changement de paradigme» du grand modèle. Parfois, le progrès technologique est implacable, indépendant de la volonté individuelle, et de nouveaux paradigmes technologiques remplaceront les anciens paradigmes technologiques.

Alors, quelle est la valeur des grands modèles comme nouveau paradigme technologique ? À mon avis, il apporte quatre valeurs complètement nouvelles :

1 toute nouvelle compréhension

En termes de compréhension du langage naturel, le grand modèle actuel dépasse de loin tous les modèles précédents. Il semble vraiment comprendre le sens de chacun de nos mots. Bien que les réponses ne soient pas tout à fait exactes, un tout nouveau niveau de compréhension émerge.

** 2 nouveaux outils **

Ce n'est pas seulement un outil pour améliorer l'efficacité, mais peut également libérer les gens du travail pénible. C'est aussi un outil créatif qui peut créer des choses que les humains ne peuvent pas créer. Par exemple, le modèle de diffusion de l'année dernière a démontré les capacités du graphique Vinsen.

3 nouvelles interfaces

Auparavant, nous devions écrire des programmes pour accéder aux données et aux API, mais maintenant, il semble que nous n'ayons plus besoin d'écrire des codes encombrants, nous n'avons qu'à décrire en langage naturel, et le grand modèle peut générer automatiquement des codes.

4 NOUVEAUX MOTEURS

Le grand modèle n'est pas seulement un point de capacité unique, il peut être utilisé comme un moteur pour piloter la récupération d'informations, la génération de dialogues et même la création d'histoires.

Le grand modèle apporte également une nouvelle écologie, à savoir comment s'intégrer à l'industrie et la mettre en œuvre.

Nous pensons que les grands modèles ne sont pas simplement de simples API ou des modèles immuables. Nous soulignons qu'une fois que l'entreprise en amont a produit le modèle, les clients en aval doivent suivre une formation complémentaire et parcourir le dernier kilomètre. De cette façon, le modèle peut être intégré dans le propre scénario de chaque client. À mesure que le modèle fonctionne mieux, davantage de données sont collectées, ce qui renforce le modèle. Cela peut vraiment favoriser le développement de toute l'industrie.

Dans cette nouvelle écologie, le plus en amont est l'entreprise qui fabrique le modèle de base, et il existe de nombreuses équipes en dessous du modèle de base, qui vont se concentrer sur des modèles de capacités ou de domaines spécifiques. Pour continuer, il s'agit de coopérer avec des sociétés de solutions, des fabricants de cloud et des fabricants de matériel pour créer une variété de produits, et enfin servir les entreprises de débarquement et les gouvernements.

Photo : La nouvelle écologie du grand modèle décrite par Zhang Jiaxing

Du modèle de base à la mise en œuvre réelle, cela implique beaucoup de liens et de liaisons, et a également donné naissance à de nombreuses nouvelles niches écologiques. Je pense que chacun peut combiner ses propres forces et réfléchir à la place qu'il souhaite occuper dans cet écosystème. En effet, toute personne désireuse de se consacrer au domaine des maquettes à grande échelle peut y trouver sa place.

02. ** Derrière le grand modèle de "Jiang Ziya" **

Nous formons une équipe depuis deux ans et il ressort clairement de notre expérience que ce changement de paradigme nous a affectés.

Jusqu'à la fin de l'année dernière, nous développions un grand nombre de modèles open source, réalisant différentes structures de modèles et types de tâches. En seulement un an, nous avons ouvert 98 modèles, établissant un record dans le domaine chinois.

Cependant, à la fin de l'année dernière, le modèle de Wen Shengtu est soudainement apparu comme un produit phare. Nous avons donc commencé à nous tourner et à faire le premier modèle open source de diffusion stable en chinois, que nous appelons le modèle "Taiyi". Nous espérons suivre les changements de paradigme technologique pour les grands modèles.

À l'ère actuelle des grands modèles à usage général, notre équipe travaille des heures supplémentaires pour former les meilleurs grands modèles de base open source pour les chinois. Ceci est connu sous le nom de LLaMA2. Nous avons entraîné des jetons 20 B. Par rapport au modèle "ziya-LLaMA-13B" précédemment entraîné, la vitesse d'entraînement a augmenté de 38%, ce qui a complètement résolu le problème du "vol d'entraînement" instable (entraînement anormal) pendant le processus d'entraînement.

Figure : Après l'entraînement du jeton 20B, LLaMA2 résout le problème instable du "vol d'entraînement" pendant le processus d'entraînement

Après avoir formé ce modèle, il sera entièrement open source et il n'y aura aucune restriction sur les applications commerciales. Dans le même temps, nous promettons de continuer à former ce modèle, dans l'espoir de fournir la meilleure base de modèles open source et disponible dans le commerce pour l'ensemble de la grande communauté de modèles.

Dans le cadre du paradigme technologique actuel, l'introduction de ChatGPT cette année a enthousiasmé de nombreuses personnes, affirmant que le grand modèle à usage général perturbera tous les horizons de la vie. Cependant, au fil du temps, nous nous sommes calmés et avons découvert que le grand modèle n'est en fait qu'une purification et une optimisation de la scène existante. Par conséquent, nous reconnaissons qu'il existe encore de nombreuses possibilités et opportunités pour l'application de grands modèles dans les industries, domaines et capacités verticaux.

Ainsi, il y a environ un mois, notre équipe a produit une série de modèles experts, tels que des modèles multimodaux, des modèles de code, des modèles d'écriture, des modèles de dialogue, etc. Beaucoup d'entre eux sont déjà sortis et sont au meilleur niveau dans le domaine.

Nous venons tout juste de mettre en open source le modèle de collaboration chinois, appelé "écriture Ziya". Nous espérons que ce modèle pourra devenir un assistant prêt à l'emploi pour aider les entreprises et les particuliers à améliorer leur efficacité. Par exemple, le personnel du gouvernement peut demander à Ziya Writing d'aider à rédiger un rapport de catastrophe, ou d'écrire le discours d'un dirigeant lors de la cérémonie d'ouverture, car cela peut très bien correspondre au style du rapport politique.

En outre, il peut également libérer les créateurs, les opérateurs et les spécialistes du marketing de la communauté chinoise pour aider à écrire divers types d'articles, de rédaction, d'articles doux, et même créer d'excellentes nouvelles, ou même un ancien roman Web fantastique. Nous pouvons voir qu'il a une très bonne performance en termes de logique de structure de chapitre et de scénario.

Nous avons également développé un package de récupération qui n'utilisait que 100 millions de paramètres. Il fonctionne mieux que certaines solutions actuelles dans les domaines juridiques et financiers, voire mieux que les meilleurs modèles vectoriels actuellement open source. Notre boîte à outils peut également être une petite aide dans le secteur financier, en aidant les chercheurs et les analystes.

Pourquoi pouvons-nous produire autant de modèles de haute qualité ?

Derrière, il y a nos nombreuses accumulations, y compris un système de formation en trois étapes (PT de pré-formation, SFT à réglage fin supervisé, apprentissage par rétroaction humaine RLHF), comprenant une grande quantité de données de haute qualité accumulées, certains algorithmes auto-développés, et sa précipitation dans notre système de formation.

Chacun de nos modèles prend en charge à la fois les versions open source et commerciales, et nous autorisons nos partenaires à effectuer des formations et des ajustements, leur permettant de faire des formations privées selon leurs propres scénarios.

Du petit au grand, les changements d'une de nos équipes reflètent aussi les changements de paradigme technique actuel dans le domaine des grands modèles.

03, questions sur place

Figure : L'équipe IDEA accepte les questions sur site

**Q : Comment voyez-vous la future architecture d'inférence matérielle ? Le futur matériel sera-t-il "intégré à la formation et à la promotion" pendant longtemps, ou y aura-t-il des opportunités pour des puces de raisonnement dédiées ? **

Zhang Jiaxing : À l'origine, nous avions deux types de puces pour l'entraînement et le raisonnement, mais la puce de raisonnement actuelle ne peut évidemment pas s'adapter au grand modèle actuel.

Donc, à l'heure actuelle, essentiellement en termes de limitations matérielles, il y a plus "d'intégration de la formation et de la poussée". Et le grand avantage de l'intégration de la formation et de la poussée est qu'elle peut réutiliser la puissance de calcul. Notre raisonnement n'est peut-être pas toujours à pleine charge, nous pouvons donc utiliser pleinement le temps creux pour la formation, qui est également considéré sous l'angle de l'économie de temps.

Dans le futur, les puces de raisonnement ont toujours leur sens. Dans certains scénarios, tels que les terminaux mobiles, l'informatique de pointe ou les appareils montés sur véhicule, des puces d'inférence personnalisées spéciales sont toujours nécessaires. Même dans le cloud et les serveurs, si la puce d'inférence peut être optimisée pour une faible consommation d'énergie ou d'autres aspects, elle a toujours un sens. Je pense qu'il devrait encore y avoir des puces dédiées pour des choses spécialisées à l'avenir.

**Q : Pour certaines applications verticales, sous quels angles devrions-nous collecter des données ? Comment construire un jeu de données de haute qualité ? **

Zhang Jiaxing : En fait, toutes nos données sont également collectées progressivement. Dès le début, il n'y a que 20 ou 30 ensembles de données. Mais en nous entraînant lentement, par exemple, quelle partie de la capacité manque, nous collecterons certaines de ces données de manière ciblée, et en même temps nous accumulerons une partie de notre propre expérience, comme le traitement de données, etc.

Enfin, si rien de tel n'existe, nous construirons nous-mêmes certaines données. Par exemple, pour les conversations à plusieurs personnes, etc., nous avons une variété de différents types d'ensembles de données.

**Q : Pourquoi y a-t-il tant de modèles de capacités spéciales ? Pourquoi ne pas booster ces capacités simultanément sur le même modèle ? **

Zhang Jiaxing : Nous avons plusieurs considérations. La première est que nous avons sélectionné la taille du modèle à l'avance. Après avoir choisi la taille du modèle, nous voulons que le modèle ait quelles capacités. Il s'agit d'une proposition dans des conditions limitées. Il s'agit d'un avantage de coût très important.

Pour le moment, je souhaite regrouper toutes les capacités dans un seul grand modèle, mais ces capacités s'excluent mutuellement en termes de temps et d'espace. En termes d'espace, certaines capacités s'excluent mutuellement. Par exemple, lorsque nous faisions des questions de raisonnement logique, telles que des questions de mathématiques et des questions d'écriture, elles étaient en conflit. De plus, il y a un conflit temporel : à un certain moment, une certaine capacité est la plus forte, mais d'autres capacités peuvent ne pas être très fortes.

Étant donné que les scénarios en aval ne nécessitent qu'une seule capacité, nous sélectionnons simplement certains ensembles de données spécifiques pour former certaines tâches, qui sont des modèles dédiés.

**Q : Vous avez mentionné que le problème de "vol d'entraînement" instable a été résolu, comment cela a-t-il été résolu ? **

Zhang Jiaxing : Il y a un point clé ici. Tout d'abord, nous avons ajusté notre formation. Nous avons apporté des modifications à la couche de code source lors de la formation distribuée. En effet, la stabilité de la formation est beaucoup plus forte. Lorsque nous avons entraîné Ziya-LLaMA-13B, la courbe de cet ensemble d'entraînement était stable. Nous sommes une grande équipe de modélisme très focalisée sur la technologie d'entraînement, ce qui est aussi la garantie pour nous de continuer à faire de bons modèles.

**Q : En ce qui concerne la discussion sur le domaine public et les grands modèles privatisés, le modèle doit-il être privatisé ? Par exemple, si je veux faire une application vers C, est-ce que je ne peux pas faire de déploiement privatisé ? **

Zhang Jiaxing : Tout d'abord, nous avons constaté que nos partenaires ont des exigences en matière de conformité et de confidentialité en matière de sécurité des données, et que leurs données ne peuvent pas être utilisées pour la formation avec des modèles publics. Deuxièmement, ils doivent avoir une scène très approfondie et des exigences personnalisées. Qu'il s'agisse d'un produit à B ou d'un produit à C, ils espèrent tous l'utiliser dans leur propre scène.

À l'heure actuelle, le grand modèle public ou la base grand modèle général ne peuvent pas répondre pleinement à tous leurs besoins, alors la formation privée et le déploiement privé sont devenus leurs incontournables.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)