Точка зрения: в будущем ИИ будет управляться моделями, и важность моделей невозможно переоценить.

Источник: Компьютерщик Парк

Автор: Син Фу

Оригинальное название: «За моделью «Цзян Цзия» стоит эволюция профессиональной команды искусственного интеллекта».

С тех пор как в 1956 году ученые разработали первую программу искусственного интеллекта «шашки», искусственный интеллект разрабатывался уже почти 70 лет. За этот период было несколько приливов и отливов, но через него проходит одна основная нить: «моделирование» — доля «модели» в ИИ становится все выше и выше. Эта тенденция достигла пика после появления большой языковой модели ChatGPT.

«Мы твердо верим, что будущее ИИ — это мир моделей, и мы не можем переоценить модели».

22 июля на конференции AGI Playground, организованной Geek Park, сказал Чжан Цзясин, ведущий научный сотрудник по когнитивным вычислениям и естественному языку в Исследовательском институте IDEA (Цифровая экономика в районе Большого залива Гуандун-Гонконг-Макао).

В 2021 году Чжан Цзясин возглавил команду CCNL Fengshenbang Исследовательского института IDEA для создания крупнейшей китайской системы моделей предварительного обучения с открытым исходным кодом «Fengshenbang», которая является «предшественником» модели. Они стали свидетелями «сдвига парадигмы», вызванного большими моделями.

Чжан Цзясин считает, что этот перевод включает в себя два ключевых слова: «исчезновение» и «форма». «Исчезновение» означает, что с появлением универсальной большой модели ChatGPT исчезают определенные типы моделей, которые использовались для извлечения информации, вопросов и ответов и вывода текста. «Формирование» означает, что возможность тестирования инженерной мысли за большой моделью сформирует новую экологическую нишу** от рождения модели до тонкой настройки и посадки.

Научно-исследовательский институт IDEA CCNL также осваивает новую экологическую нишу.

В дополнение к разработке полнофункциональной модели в настоящее время команда Fengshenbang создала универсальную большую модель «Цзян Цзия» (Зия) на основе LLaMa, которая применялась к таким сценариям, как цифровые люди и копирайтинг. Около месяца назад они также обучили ряд экспертных моделей, таких как мультимодальные модели, модели кода, модели письма, модели диалогов и т. д. Последние могут помочь пользователям писать статьи, копирайтинг новых медиа, сценарии прямых трансляций, рекламные плакаты и даже онлайн-романы.

Чжан Цзясин считает, что в этой огромной экосистеме предприниматели могут подумать о том, где занять экологическую нишу, исходя из собственных сил. «Каждый, кто заинтересован в том, чтобы попасть в область больших моделей, может найти в ней свое место», — сказал он.

Ниже приводится полный текст выступления Чжан Цзясина на конференции AGI Playground под редакцией Geek Park:

На конференции AGI Playground, организованной Geek Park, Чжан Цзясин выступил с речью.

01. Эпоха больших моделей: новая парадигма и новая экология

В этом году, когда мы говорим о больших моделях и AGI, мы всегда рассматриваем большие модели как нечто само собой разумеющееся в ИИ. Забегая вперед, даже если вернуться в 1997 год, очень важно то, что "Deep Blue" победили "Каспарова". Даже в этой системе ИИ нет модели глубокого обучения.

Весь процесс разработки ИИ начался в 1956 году, и прошло уже 70 лет. Хотя ИИ пережил несколько приливов и отливов, мы можем обнаружить, что развитие ИИ шло по линии, которая представляет собой процесс моделирования ИИ — доля моделей в ИИ становится все сильнее и сильнее. Сегодня мы твердо верим, что в будущем в ИИ будут преобладать модели, и мы не можем переоценить модели.

Фото: Чжан Цзясин рассказывает о процессе «моделирования» ИИ

Все мы говорим, что большая модель на этот раз — это смена «технической парадигмы», которую можно охарактеризовать двумя ключевыми словами: «исчезнуть» и «формироваться».

"Исчезновение" относится к исчезновению типа. Полгода назад все поле ИИ было наводнено различными типами структур и задач ИИ. Например, с точки зрения структуры существуют различные структуры моделей, такие как BERT и T5. Например, с точки зрения задач существуют различные задачи, такие как классификация, извлечение информации, написание резюме, а также вопросы и ответы. Однако с наступлением эпохи универсальных больших моделей это разнообразие исчезает.

На данный момент единственной структурой модели является GPT, а единственными задачами являются ввод и вывод текста. Таким образом, прежние концепции ИИ, такие как анализ предложений, ключевые слова и другие концепции, постепенно исчезли из нашего поля зрения. Более того, использование моделей сегодня находится уже не на усмотрении поставщика технологии, а на усмотрении заказчика, который ее использует.

** А «формирование» относится к формированию производственной цепочки**. Построение модели требует огромных вложений ресурсов, и почти никто не может выполнить эту задачу от начала до конца в одиночку. Для его полировки требуется огромная команда и много вычислительной мощности. От первоначальной концепции модели до точной настройки различных стадий в середине и до окончательной практики посадки — это составляет полную производственную цепочку.

По «исчезновению» и «становлению» мы можем увидеть «сдвиг парадигмы» большой модели. Иногда технический прогресс неумолим, не зависит от индивидуальной воли, и на смену старым технологическим укладам приходят новые технологические уклады.

Итак, в чем ценность больших моделей как нового технологического парадигмы? На мой взгляд, это приносит четыре совершенно новых ценности:

1 Совершенно новое понимание

С точки зрения понимания естественного языка текущая большая модель намного превосходит все предыдущие модели. Кажется, он действительно понимает значение каждого нашего слова. Хотя ответы могут быть не совсем точными, возникает совершенно новый уровень понимания.

2 совершенно новых инструмента

Это не только инструмент повышения эффективности, но и способный освободить людей от тяжелого труда. Это также творческий инструмент, который может создавать вещи, которые люди не могут создать. Например, прошлогодняя модель диффузии продемонстрировала возможности графа Винсена.

3 новый интерфейс

Раньше нам приходилось писать программы для доступа к данным и API, но теперь кажется, что нам больше не нужно писать громоздкие коды, нужно только описывать на естественном языке, а большая модель может автоматически генерировать коды.

4 НОВЫХ ДВИГАТЕЛЯ

Большая модель — это не просто единая точка возможностей, ее можно использовать в качестве механизма для поиска информации, создания диалогов и даже создания историй.

Большая модель также приносит новую экологию, которая заключается в том, как интегрироваться в отрасль и внедрять ее.

Мы думаем, что большие модели — это не просто API или неизменяемые модели. Подчеркнем, что после того, как вышестоящая компания изготовит модель, последующие клиенты должны пройти дополнительное обучение и пробежать последнюю милю. Таким образом, модель может быть встроена в собственный сценарий каждого клиента. По мере того, как модель работает лучше, собирается больше данных, что, в свою очередь, укрепляет модель. Это действительно может способствовать развитию всей отрасли.

В этой новой экологии самой передовой является компания, которая создает базовую модель, и есть много команд ниже базовой модели, которые сосредоточатся на моделях конкретных возможностей или областей. Чтобы продолжить, он должен сотрудничать с компаниями-разработчиками решений, производителями облачных вычислений и производителями оборудования для создания различных продуктов и, наконец, обслуживать целевые предприятия и правительства.

Рисунок: Новая экология большой модели, описанная Чжаном Цзясином

От базовой модели до реальной реализации это включает в себя множество ссылок и связей, а также породило множество новых экологических ниш. Я думаю, каждый может объединить свои силы и подумать о том, какое место в этой экосистеме он хочет занять. На самом деле каждый, кто готов посвятить себя области масштабных моделей, может найти в ней свое место.

02. ** За большой моделью "Цзян Цзия"**

Мы являемся командой уже два года, и из нашего опыта ясно, что эта смена парадигмы повлияла на нас.

До конца прошлого года мы разрабатывали большое количество моделей с открытым исходным кодом, выполняя различные структуры моделей и типы задач. Всего за один год мы открыли исходный код 98 моделей, установив рекорд на китайском рынке.

Однако в конце прошлого года модель Вэнь Шэнту неожиданно стала популярным продуктом. Итак, мы начали разворачиваться и сделали первую модель Stable Diffusion с открытым исходным кодом на китайском языке, которую мы называем моделью «Taiyi». Мы надеемся идти в ногу с изменениями технологического парадигмы для больших моделей.

В нынешнюю эпоху больших моделей общего назначения наша команда работает сверхурочно, обучая лучшие базовые большие модели с открытым исходным кодом для китайского языка. Это известно как LLaMA2. Мы обучили токены 20Б.По сравнению с ранее обученной моделью «зия-ЛЛаМА-13Б» скорость обучения увеличилась на 38%, что полностью решило проблему нестабильного «тренировочного полета» (аномального обучения) в процессе обучения.

Рисунок: После обучения токена 20B LLaMA2 решает нестабильную проблему «тренировочного полета» в процессе обучения

После того, как мы обучим эту модель, она будет полностью с открытым исходным кодом, и не будет никаких ограничений на коммерческое применение. В то же время мы обещаем продолжить обучение этой модели, надеясь предоставить лучшую общедоступную и коммерчески доступную базу моделей для всего сообщества крупных моделей.

При нынешнем технологическом парадигме введение ChatGPT в этом году взволновало многих людей, заявив, что универсальная крупная модель изменит все сферы жизни. Однако со временем мы успокоились и обнаружили, что большая модель — это на самом деле просто очистка и оптимизация существующей сцены. Поэтому мы признаем, что существует еще много возможностей и возможностей для применения крупных моделей в вертикальных отраслях, областях и возможностях.

Итак, около месяца назад наша команда подготовила серию экспертных моделей, таких как мультимодальные модели, модели кода, модели письма, модели диалогов и т. д. Многие из них уже выпущены и находятся на лучшем уровне в этой области.

Совсем недавно мы открыли исходный код китайской модели сотрудничества под названием «Письмо Зия». Мы надеемся, что эта модель может стать готовым помощником для оказания поддержки предприятиям и частным лицам в повышении эффективности. Например, государственные служащие могут попросить Зию помочь написать отчет о стихийном бедствии или написать речь лидера на церемонии открытия, потому что это очень хорошо соответствует стилю политического отчета.

Кроме того, он также может освободить создателей, операторов и маркетологов китайского сообщества для помощи в написании различных типов статей, копирайтинге, программных статьях и даже создании отличных рассказов или даже древнего фэнтезийного веб-романа. Мы видим, что у него очень хорошая производительность с точки зрения логики структуры глав и сюжетной линии.

Мы также разработали пакет поиска, который использовал только 100 миллионов параметров. Он работает лучше, чем некоторые текущие решения как в юридической, так и в финансовой областях, даже лучше, чем лучшие векторные модели, которые в настоящее время являются открытыми. Наш инструментарий также может быть небольшим помощником в финансовой индустрии, помогая исследователям и аналитикам.

Почему мы можем производить так много качественных моделей?

За этим стоят наши множества накоплений, в том числе трехэтапная система обучения (предтренировочный PT, контролируемая тонкая настройка SFT, обучение с обратной связью с человеком RLHF), в том числе большое количество накопленных высококачественных данных, некоторые самостоятельно разработанные алгоритмы и их осаждение в нашу систему обучения.

Каждая из наших моделей поддерживает как версии с открытым исходным кодом, так и коммерческие версии, и мы разрешаем нашим партнерам проводить обучение и тонкую настройку, позволяя им проводить частное обучение по своим собственным сценариям.

От малого к большому, изменения одной из наших команд также отражают изменения в текущей технической парадигме в области больших моделей.

03, вопросы на месте

Рисунок: команда IDEA принимает вопросы на месте

**В: Как вы видите будущую архитектуру аппаратного вывода? Будет ли будущее оборудование долгое время «интегрировано с обучением и продвижением» или появятся возможности для специализированных чипов для рассуждений? **

Чжан Цзясин: Изначально у нас было два типа чипов для обучения и рассуждений, но текущий чип рассуждений, очевидно, не может адаптироваться к текущей большой модели.

Так что в настоящее время, в основном с точки зрения аппаратных ограничений, больше «интеграции обучения и пуша». И большое преимущество интеграции обучения и продвижения заключается в том, что она может повторно использовать вычислительную мощность. Наши рассуждения не всегда могут быть в полной нагрузке, поэтому мы можем в полной мере использовать минимальное время для обучения, что также рассматривается с точки зрения экономии времени.

В будущем чипы рассуждений все еще имеют свое значение. В некоторых сценариях, таких как мобильные терминалы, периферийные вычисления или устройства, устанавливаемые на транспортном средстве, по-прежнему требуются специальные настраиваемые чипы логического вывода. Даже в облаке и на серверах, если микросхема логического вывода может быть более оптимизирована в отношении низкого энергопотребления или других аспектов, она по-прежнему имеет смысл. Я думаю, что в будущем все еще должны быть специальные чипы для специализированных вещей.

**В: Для некоторых вертикальных приложений, с каких точек мы должны собирать данные? Как создать качественный набор данных? **

Чжан Цзясин: На самом деле все наши данные тоже собираются постепенно.С самого начала есть только 20 или 30 наборов данных. Но постепенно, путем обучения, например, какой части способности не хватает, мы целенаправленно собираем некоторые из этих данных, и в то же время мы накапливаем некоторый собственный опыт, такой как некоторая обработка данных и тому подобное.

Наконец, если такой вещи нет, мы сами создадим некоторые данные. Например, для разговоров с несколькими людьми и т. д. у нас есть множество различных типов наборов данных.

**В: Почему так много моделей со специальными способностями? Почему бы не расширить эти возможности одновременно на одной модели? **

Чжан Цзясин: У нас есть несколько соображений. Во-первых, мы заранее выбрали размер модели. После выбора размера модели мы хотим, чтобы модель имела какие возможности. Это предложение на ограниченных условиях. Это очень большое преимущество в цене.

На данный момент я хочу поместить все способности в одну большую модель, но эти способности взаимоисключающие с точки зрения времени и пространства. С точки зрения пространства, некоторые способности являются взаимоисключающими.Например, когда мы решали вопросы на логические рассуждения, такие как математические вопросы и вопросы по письму, они противоречили друг другу. Кроме того, существует конфликт времени: в определенный момент одна способность является самой сильной, а другие способности могут быть не очень сильными.

Поскольку для нижестоящих сценариев требуется только одна возможность, мы просто выбираем определенные наборы данных для обучения определенным задачам, которые представляют собой специальные модели.

**В: Вы упомянули, что была решена проблема с нестабильным "тренировочным полетом", как она была решена? **

Чжан Цзясин: Здесь есть ключевой момент.Во-первых, мы скорректировали наше обучение.Мы внесли изменения на уровне исходного кода во время распределенного обучения.Действительно, стабильность обучения намного выше. Когда мы тренировали Ziya-LLaMA-13B, кривая этого тренировочного набора была стабильной. Мы большая модельная команда, которая уделяет большое внимание технологиям обучения, что также является для нас гарантией того, что мы будем продолжать делать хорошие модели.

**В: Что касается обсуждения общественных и приватизированных крупных моделей, должна ли модель быть приватизирована? Например, если я хочу создать приложение на C, могу ли я не выполнять приватизированное развертывание? **

Чжан Цзясин: Прежде всего, мы обнаружили, что у наших партнеров есть некоторые требования к безопасности данных и конфиденциальности, и их данные нельзя использовать для обучения с общедоступными моделями. Во-вторых, им нужна очень глубокая сцена и индивидуальные требования.Независимо от того, является ли это продуктом B или продуктом C, все они надеются использовать его в своей собственной сцене.

В настоящее время общедоступная крупная модель или общая база больших моделей не может полностью удовлетворить все их потребности, поэтому частное обучение и частное развертывание стали их необходимостью.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить