Децентралізація тренування: шлях еволюції AI в майбутньому та реальні виклики

2025-07-20 13:32:25

Децентралізація тренування: пошук святого грааля AI

У повній вартості ланцюга штучного інтелекту навчання моделей є найбільш ресурсомістким і найвищим за технологічним бар'єром етапом, що безпосередньо визначає верхню межу можливостей моделі та фактичну ефективність застосування. Порівняно зі стадією висновків, де використовується легка виклик, процес навчання потребує постійного масштабного обчислювального навантаження, складних процесів обробки даних та підтримки високонавантажених алгоритмів оптимізації, що є справжньою "важкою промисловістю" у побудові систем ШІ. З точки зору архітектурних парадигм, методи навчання можна поділити на чотири категорії: централізоване навчання, розподілене навчання, федеративне навчання та децентралізоване навчання, яке є основною темою цієї статті.

Централізоване навчання є найпоширенішим традиційним методом, який виконується єдиною організацією у локальному високопродуктивному кластері, де весь процес навчання, від апаратного забезпечення, програмного забезпечення нижнього рівня, системи управління кластерами до всіх компонентів навчальної системи, координується єдиною контрольною системою. Така глибока співпраця архітектури дозволяє досягти оптимальної ефективності в спільному використанні пам'яті, синхронізації градієнтів та механізмах відмовостійкості, що робить її дуже підходящою для навчання великих моделей, таких як GPT, Gemini тощо, з перевагами високої ефективності та контрольованих ресурсів, але водночас існують проблеми з монополією даних, бар'єрами для ресурсів, споживанням енергії та ризиками одноточкових відмов.

Розподілене навчання є основним способом навчання великих моделей, його суть полягає в розподілі завдань навчання моделі на кілька машин для спільного виконання, щоб подолати обмеження обчислення та зберігання на одному комп'ютері. Незважаючи на те, що фізично має "Децентралізація" характеристики, в цілому все ще контролюється централізованою установою для управління та синхронізації, зазвичай працює в середовищі швидкої локальної мережі, завдяки технології високошвидкісної інтеграції NVLink, головний вузол єдино координує всі підзавдання. Основні методи включають:

Паралельність даних: кожен вузол навчає різні дані, параметри діляться, необхідно узгодити ваги моделі
Паралельне моделювання: розгортання різних частин моделі на різних вузлах для досягнення сильної масштабованості
Паралельне виконання: поетапне серійне виконання, підвищення пропускної здатності
Тензорна паралельність: детальне розподілення матричних обчислень, підвищення паралельної гранулярності

Розподілене навчання є комбінацією "централізованого контролю + розподіленого виконання", аналогічно тому, як один і той же начальник дистанційно керує співпрацею кількох "офісних" працівників для виконання завдання. На сьогодні майже всі основні великі моделі навчання створюються цим способом.

Децентралізація тренування означає більш відкритий і стійкий до цензури шлях у майбутнє. Його основною характеристикою є: кілька недовірчих вузлів спільно виконують завдання тренування без центрального координатора, зазвичай через протокол, що керує розподілом завдань і співпрацею, і за допомогою механізмів криптостимулювання, що забезпечують добросовісність внесків. Основні виклики, з якими стикається ця модель, включають:

Гетерогенність пристроїв і труднощі розподілу: висока складність координації гетерогенних пристроїв, низька ефективність розподілу завдань
Вузьке місце в ефективності зв'язку: нестабільний мережевий зв'язок, явне вузьке місце в синхронізації градієнтів
Відсутність довіреного виконання: брак довіреного середовища виконання ускладнює перевірку того, чи дійсно вузли беруть участь у обчисленнях.
Відсутність єдиної координації: немає центрального диспетчера, розподіл завдань, механізм відкату аномалій є складними

Децентралізація тренування можна розуміти як: група глобальних волонтерів, які спільно вносять обчислювальну потужність для тренування моделей, але "дійсно здійсненне масштабне децентралізоване тренування" все ще є системним інженерним викликом, що охоплює кілька аспектів, таких як системна архітектура, комунікаційні протоколи, криптографічна безпека, економічні механізми, валідація моделей тощо, але чи можливо "спільно ефективно + стимулювати чесність + отримати правильний результат" все ще перебуває на етапі раннього прототипування.

Федеративне навчання як перехідна форма між розподіленістю та Децентралізація, акцентує увагу на локальному збереженні даних, централізованій агрегації параметрів моделі, підходить для сценаріїв, що акцентують увагу на дотриманні конфіденційності. Федеративне навчання має інженерну структуру розподіленого навчання та локальні кооперативні можливості, одночасно володіючи перевагами розподіленого навчання Децентралізація, але все ж залежить від надійної координаційної сторони і не має повністю відкритих і антикорупційних характеристик. Його можна розглядати як "контрольовану Децентралізація" у сценаріях дотримання конфіденційності, що є відносно м'яким у завданнях навчання, структурах довіри та механізмах комунікації, що робить його більш підходящим як перехідна архітектура для промисловості.

Децентралізація тренування: межі, можливості та реальні шляхи

З точки зору навчальної парадигми, децентралізоване навчання не підходить для всіх типів завдань. У деяких сценаріях, через складну структуру завдання, дуже високі вимоги до ресурсів або великі труднощі в співпраці, воно природно не підходить для ефективного виконання між гетерогенними, недовіреними вузлами. Наприклад, навчання великих моделей часто залежить від великої пам'яті, низької затримки та високої пропускної здатності, що ускладнює ефективне розподілення та синхронізацію в відкритих мережах; завдання, що підлягають жорстким обмеженням щодо конфіденційності даних та суверенітету, обмежені правовою відповідністю та етичними обмеженнями, що унеможливлює їхнє відкриття для спільного використання; а завдання, що не мають основи для співпраці, страждають від нестачі зовнішньої мотивації. Ці межі разом утворюють реальні обмеження сучасного децентралізованого навчання.

Але це не означає, що Децентралізація навчання є псевдопозицією. Насправді, у структурно легких, легких для паралелізації, мотиваційних типах завдань, Децентралізація навчання демонструє чіткі перспективи застосування. Включаючи, але не обмежуючись: налаштування LoRA, завдання після навчання з поведінковим вирівнюванням, завдання навчання та маркування даних через краудсорсинг, навчання невеликих базових моделей з контрольованими ресурсами, а також сцени кооперативного навчання з участю крайових пристроїв. Ці завдання загалом мають високу паралельність, низьку зв'язаність та терпимість до гетерогенних обчислювальних потужностей, що робить їх дуже придатними для спільного навчання через P2P мережі, протокол Swarm, розподілені оптимізатори тощо.

Децентралізація тренувальних класичних проектів аналіз

Наразі в галузі децентралізації навчання та федеративного навчання, представницькі блокчейн-проекти, що вирізняються, включають Prime Intellect, Pluralis.ai, Gensyn, Nous Research та Flock.io. З точки зору технічної інноваційності та складності інженерної реалізації, Prime Intellect, Nous Research та Pluralis.ai запропонували багато оригінальних досліджень у системній архітектурі та алгоритмічному дизайні, представляючи сучасні теоретичні напрямки; тоді як реалізаційні шляхи Gensyn та Flock.io є відносно чіткими, і вже можна побачити початковий інженерний прогрес.

Prime Intellect: Тренувальна траєкторія, що може бути перевірена, посилена навчальна кооперативна мережа піонера

Prime Intellect прагне створити мережу тренування ШІ, що не потребує довіри, дозволяючи кожному брати участь у навчанні та отримувати надійні винагороди за свої обчислювальні внески. Prime Intellect хоче створити систему децентралізованого тренування ШІ з трьох основних модулів: PRIME-RL + TOPLOC + SHARDCAST, яка буде мати верифікацію, відкритість та повноцінний механізм стимулювання.

Структура стеку протоколу Prime Intellect та цінність ключових модулів

Основний механізм Prime Intellect включає в себе:

PRIME-RL: архітектура завдань асинхронного підкріпленого навчання з декомпозицією

PRIME-RL є рамкою моделювання та виконання завдань, спеціально розробленою Prime Intellect для децентралізованих навчальних сценаріїв, призначеною для гетерогенних мереж і асинхронних учасників. Вона використовує підкріплювальне навчання як пріоритетний адаптивний об'єкт, структурно декомпозуючи процеси навчання, інференції та завантаження ваг, що дозволяє кожному навчальному вузлу незалежно виконувати цикли завдань локально та співпрацювати через стандартизовані інтерфейси з механізмами верифікації та агрегації. У порівнянні з традиційними процесами контрольованого навчання, PRIME-RL більш підходить для реалізації еластичного навчання в середовищах без централізованого управління, що не лише знижує складність системи, але й закладає основу для підтримки паралельного виконання кількох завдань і еволюції стратегій.

TOPLOC: легкий механізм верифікації поведінки навчання

TOPLOC є ядром механізму перевірки навчання, запропонованим Prime Intellect, який використовується для визначення того, чи дійсно вузол завершив ефективне навчання стратегії на основі спостережуваних даних. На відміну від важких рішень, таких як ZKML, TOPLOC не залежить від повторного обчислення всієї моделі, а завершує верифікацію легковажної структури шляхом аналізу локальної узгодженості між "послідовністю спостережень ↔ оновленням стратегії". Він вперше перетворює поведінкові траєкторії навчання на перевіряємий об'єкт, що є ключовою інновацією для реалізації розподілу навчальних винагород без довіри, надаючи можливий шлях для побудови аудиторських та стимулюючих децентралізованих мереж співпраці в навчанні.

SHARDCAST:Асиметрична вага агрегації та розповсюдження протоколу

SHARDCAST є протоколом важільного розповсюдження та агрегації, розробленим Prime Intellect, оптимізованим спеціально для асинхронних, обмежених за пропускною здатністю та змінних станів вузлів у реальних мережевих середовищах. Він поєднує механізм gossip-розповсюдження та локальні стратегії синхронізації, що дозволяє кільком вузлам безперервно подавати часткові оновлення в умовах несинхронізації, досягаючи поступової конвергенції ваг та еволюції кількох версій. У порівнянні з централізованими або синхронними методами AllReduce, SHARDCAST суттєво підвищує масштабованість та стійкість до відмов децентралізованого навчання, що є основою для створення стабільного консенсусу ваг та безперервної ітерації навчання.

OpenDiLoCo: Рідкісний асинхронний комунікаційний фреймворк

OpenDiLoCo є незалежною реалізацією та відкритим вихідним кодом оптимізаційної комунікаційної рамки, розробленою командою Prime Intellect на основі концепції DiLoCo, запропонованої DeepMind. Вона спеціально розроблена для вирішення поширених викликів у децентралізованому навчанні, таких як обмежена пропускна здатність, гетерогенність пристроїв та нестабільність вузлів. Її архітектура базується на паралельній обробці даних, шляхом побудови рідкісних топологій, таких як кільце, розширювач, малий світ, що дозволяє уникнути високих витрат на комунікацію при глобальному синхронізації, покладаючись лише на локальні сусідні вузли для завершення кооперативного навчання моделі. Поєднуючи асинхронне оновлення та механізм відновлення після збоїв, OpenDiLoCo забезпечує стабільну участь споживчих GPU та крайових пристроїв у навчальних завданнях, значно підвищуючи можливості участі в глобальному кооперативному навчанні, що є однією з ключових комунікаційних інфраструктур для побудови децентралізованих навчальних мереж.

PCCL:Бібліотека спільної комунікації

PCCL є легковаговою бібліотекою зв'язку, спеціально створеною Prime Intellect для децентралізованого середовища навчання AI, яка має на меті вирішити проблеми адаптації традиційних бібліотек зв'язку в гетерогенних пристроях та мережах з низькою пропускною здатністю. PCCL підтримує розріджену топологію, стиснення градієнтів, синхронізацію з низькою точністю та відновлення з контрольних точок, може працювати на споживчих GPU та нестабільних вузлах, є основним компонентом, що забезпечує асинхронні можливості зв'язку протоколу OpenDiLoCo. Він суттєво підвищує толерантність мережі до пропускної здатності та сумісність пристроїв, відкриваючи "останню милю" зв'язку для створення справді відкритих, без довіри мереж спільного навчання.

Prime Intellect стимулююча мережа та розподіл ролей

Prime Intellect побудував мережу навчання без дозволів, що може бути перевірена, з економічними стимулюючими механізмами, що дозволяє будь-кому брати участь у завданнях і отримувати винагороду на основі реальних внесків. Протокол працює на основі трьох основних ролей:

Ініціатор завдання: визначити навчальне середовище, початкову модель, функцію винагороди та критерії валідації
Тренувальний вузол: виконання локального тренування, подання оновлень ваг та спостережувальних траєкторій
Вузли верифікації: використовують механізм TOPLOC для перевірки достовірності навчальної поведінки та участі в обчисленні винагороди та агрегації стратегій

Ядро процесу угоди включає в себе публікацію завдань, навчання вузлів, перевірку траєкторій, агрегацію ваг і виплату винагород, що складає стимулююче замкнене коло навколо "реальної навчальної поведінки".

INTELLECT-2: Перший перевіряємий децентралізований тренувальний модель

Prime Intellect випустила INTELLECT-2 у травні 2025 року, це перша у світі велика модель посиленого навчання, яка була навчена завдяки співпраці асинхронних, без довіри децентралізованих вузлів, з масштабом параметрів 32B. Модель INTELLECT-2 була навчена за участю понад 100 гетерогенних вузлів GPU, розташованих на трьох континентах, з використанням повністю асинхронної архітектури, тривалість навчання перевищила 400 годин, що демонструє життєздатність та стабільність асинхронних кооперативних мереж. Ця модель є не лише проривом у продуктивності, але й першим системним впровадженням парадигми "навчання як консенсус", запропонованої Prime Intellect. INTELLECT-2 інтегрує основні протокольні модулі, такі як PRIME-RL, TOPLOC та SHARDCAST, що знаменує перше досягнення відкритості, верифікації та економічного стимулу у процесі навчання децентралізованої навчальної мережі.

У плані продуктивності, INTELLECT-2 заснований на QwQ-32B, пройшов спеціалізоване навчання RL у коді та математиці, перебуваючи на етапі поточного налаштування RL з відкритим вихідним кодом.

PRIME9.79%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

17 лайків