في سلسلة القيمة الكاملة للذكاء الاصطناعي، يُعتبر تدريب النماذج المرحلة الأكثر استهلاكًا للموارد والأعلى من حيث العوائق التقنية، حيث يحدد بشكل مباشر الحد الأقصى لقدرات النموذج وفعالية تطبيقاته الفعلية. بالمقارنة مع الاستدعاءات خفيفة الوزن في مرحلة الاستدلال، يتطلب عملية التدريب استثمارًا مستمرًا من القوة الحاسوبية الكبيرة، وعمليات معالجة بيانات معقدة، ودعمًا قويًا لخوارزميات التحسين، مما يجعله "الصناعة الثقيلة" الحقيقية لبناء أنظمة الذكاء الاصطناعي. من منظور أنماط البنية، يمكن تقسيم طرق التدريب إلى أربع فئات: التدريب المركزي، التدريب الموزع، التعلم الفيدرالي، والتدريب اللامركزي الذي سنتناوله بشكل أساسي في هذه المقالة.
تعتبر التدريب المركزي هو الطريقة التقليدية الأكثر شيوعًا، حيث يتم تنفيذ جميع عمليات التدريب من قبل مؤسسة واحدة داخل مجموعة عالية الأداء محليًا، من الأجهزة، والبرمجيات الأساسية، ونظام جدولة المجموعة، إلى جميع مكونات إطار التدريب التي تنسقها نظام تحكم موحد. تمكّن هذه البنية التحتية العميقة المتناغمة من تحقيق أفضل كفاءة في مشاركة الذاكرة، ومزامنة التدرجات، وآلية تحمل الأخطاء، مما يجعلها مناسبة جدًا لتدريب النماذج الكبيرة مثل GPT و Gemini، حيث تتمتع بمزايا الكفاءة العالية، والموارد القابلة للتحكم، لكنها في نفس الوقت تواجه مشاكل احتكار البيانات، وحواجز الموارد، واستهلاك الطاقة، ومخاطر النقطة الواحدة.
التدريب الموزع هو الطريقة السائدة حاليًا في تدريب النماذج الكبيرة، حيث تتمثل الفكرة الرئيسية في تقسيم مهمة تدريب النموذج وتوزيعها على عدة آلات لتنفيذها بشكل متعاون، وذلك لتجاوز قيود الحوسبة والتخزين على جهاز واحد. على الرغم من أن لديها خصائص "اللامركزية" من الناحية الفيزيائية، إلا أن التحكم والتنسيق والتزامن لا يزال تحت سيطرة مؤسسة مركزية، وغالبًا ما تعمل في بيئة شبكة محلية سريعة، من خلال تقنية NVLink للحافلات عالية السرعة، حيث يقوم العقد الرئيسي بتنسيق المهام الفرعية بشكل موحد. تشمل الطرق الرئيسية ما يلي:
التوازي البياني: يقوم كل عقدة بتدريب معلمات بيانات مختلفة مع مشاركة الوزن النموذجي، ويتعين مطابقة أوزان النموذج
التوازي النموذجي: نشر أجزاء مختلفة من النموذج على عقد مختلفة لتحقيق قابلية توسع قوية
أنبوب متوازي: تنفيذ تسلسلي على مراحل، مما يزيد من معدل النقل
توازي المصفوفات: تقسيم دقيق لحساب المصفوفات، تعزيز دقة التوازي
التدريب الموزع هو مزيج من "التحكم المركزي + التنفيذ الموزع"، مماثل لمدير واحد يقود عن بُعد موظفين من عدة "مكاتب" للتعاون في إكمال المهام. حاليًا، يتم تدريب جميع النماذج الكبيرة السائدة تقريبًا بهذه الطريقة.
اللامركزية التدريب تمثل مسارًا مستقبليًا أكثر انفتاحًا ومقاومةً للرقابة. تتمثل الخصائص الأساسية في: عدة عقد غير موثوقة تتعاون لإكمال مهام التدريب بدون منسق مركزي، وعادةً ما يتم دفع توزيع المهام والتعاون من خلال البروتوكولات، ويتم استخدام آلية التحفيز المشفرة لضمان نزاهة المساهمات. تشمل التحديات الرئيسية التي تواجه هذا النموذج:
صعوبة التوافق بين الأجهزة المتنوعة وتقسيم المهام: صعوبة التنسيق بين الأجهزة المتنوعة، وكفاءة تقسيم المهام منخفضة
اختناق كفاءة الاتصال: الاتصال الشبكي غير مستقر، واختناق تزامن التدرج واضح
نقص التنفيذ الموثوق: نقص في بيئة التنفيذ الموثوق، مما يجعل من الصعب التحقق مما إذا كانت العقدة تشارك حقًا في الحساب
نقص التنسيق الموحد: لا يوجد جهاز مركزي للتوزيع، توزيع المهام، آلية التراجع عن الاستثناءات معقدة
يمكن فهم التدريب اللامركزي على أنه: مجموعة من المتطوعين من جميع أنحاء العالم، يساهمون كل منهم بقوة الحوسبة لتدريب النموذج بشكل تعاوني، لكن "التدريب اللامركزي على نطاق واسع الذي يمكن تحقيقه حقًا" لا يزال يمثل تحديًا هندسيًا نظاميًا، يتضمن بنية النظام، بروتوكولات الاتصال، أمان التشفير، الآليات الاقتصادية، والتحقق من النموذج على عدة مستويات، لكن ما إذا كان يمكن أن يكون "تعاونيًا فعالًا + تحفيزًا للصدق + نتائج صحيحة" لا يزال في مرحلة استكشاف النموذج الأولي المبكر.
تعتبر التعلم الفيدرالي شكلًا انتقاليًا بين التوزيع واللامركزية، حيث يركز على الاحتفاظ بالبيانات محليًا، وتجمع نموذج المعلمات مركزياً، مما يجعله مناسبًا للسيناريوهات التي تركز على الامتثال للخصوصية. يتمتع التعلم الفيدرالي بهيكل هندسي للتدريب الموزع وقدرة التعاون المحلي، وفي نفس الوقت يتضمن مزايا توزيع البيانات في التدريب اللامركزي، ولكنه لا يزال يعتمد على جهة تنسيق موثوقة، ولا يتمتع بخصائص الفتح الكامل ومقاومة الرقابة. يمكن اعتباره نوعًا من "اللامركزية الخاضعة للرقابة" في سياقات الامتثال للخصوصية، حيث يكون أكثر اعتدالًا في مهام التدريب، وهياكل الثقة، وآليات الاتصالات، مما يجعله أكثر ملاءمة كهيكل نشر انتقالي في الصناعة.
اللامركزية تدريب الحدود، الفرص والواقع المسار
من حيث نموذج التدريب، فإن التدريب اللامركزي لا يناسب جميع أنواع المهام. في بعض السيناريوهات، بسبب هيكل المهمة المعقد، ومتطلبات الموارد العالية جداً، أو صعوبة التعاون، فإنه ليس مناسباً بطبيعته لإكماله بكفاءة بين العقد الهجينة والموثوقة. على سبيل المثال، يعتمد تدريب النماذج الكبيرة غالباً على ذاكرة وصول عشوائي عالية، وزمن تأخير منخفض، وعرض نطاق ترددي عالي، مما يجعل من الصعب تقسيمه ومزامنته بفعالية في شبكة مفتوحة؛ كما أن المهام التي تتطلب خصوصية البيانات وقيود السيادة تتقيد بالقوانين والامتثال الأخلاقي، ولا يمكن مشاركتها بشكل مفتوح؛ بينما تفتقر المهام التي تفتقر إلى أساس حوافز التعاون إلى دوافع المشاركة الخارجية. تشكل هذه الحدود مجتمعة القيود الواقعية الحالية للتدريب اللامركزي.
لكن هذا لا يعني أن التدريب اللامركزي هو فكرة زائفة. في الواقع، في أنواع المهام الخفيفة الهيكل، سهلة التوازي، والمحفزة، يظهر التدريب اللامركزي آفاق تطبيق واضحة. بما في ذلك على سبيل المثال لا الحصر: ضبط LoRA، مهام التدريب بعد المحاذاة السلوكية، تدريب ووسم البيانات عبر الحشود، تدريب نماذج أساسية صغيرة قابلة للتحكم في الموارد، وكذلك سيناريوهات التدريب التعاوني بمشاركة الأجهزة الطرفية. تتميز هذه المهام عمومًا بارتفاع التوازي، وانخفاض الترابط، وقابلية تحمل القوة الحاسوبية غير المتجانسة، مما يجعلها مناسبة جدًا للتدريب التعاوني من خلال الشبكات P2P، بروتوكول Swarm، والمُحسِّنات الموزعة.
تحليل مشاريع التدريب الكلاسيكية اللامركزية
في الوقت الحالي، تشمل المشاريع البارزة في مجال التدريب اللامركزي والتعلم الفيدرالي، كل من Prime Intellect وPluralis.ai وGensyn وNous Research وFlock.io. من حيث الابتكار التكنولوجي وصعوبة التنفيذ الهندسي، قدمت Prime Intellect وNous Research وPluralis.ai العديد من الاستكشافات الأصلية في تصميم الأنظمة والخوارزميات، مما يمثل الاتجاهات الرائدة في الأبحاث النظرية الحالية؛ بينما المسارات التنفيذية لكل من Gensyn وFlock.io واضحة نسبياً، ويمكن رؤية تقدم أولي في الهندسة.
Prime Intellect: رائد الشبكات التعاونية للتعلم المعزز القابل للتحقق من مسارات التدريب
تسعى Prime Intellect لبناء شبكة تدريب AI لا تحتاج إلى ثقة، مما يسمح لأي شخص بالمشاركة في التدريب والحصول على مكافآت موثوقة مقابل مساهماته الحسابية. تأمل Prime Intellect من خلال ثلاثة وحدات هي PRIME-RL و TOPLOC و SHARDCAST، في بناء نظام تدريب AI لامركزي يتمتع بالتحقق، والانفتاح، وآلية التحفيز الكاملة.
هيكل كومة بروتوكول Prime Intellect والقيمة الأساسية للوحدات الرئيسية
تشمل الآلية الأساسية لـ Prime Intellect:
PRIME-RL: بنية مهمة التعلم المعزز غير المتزامن المفككة
PRIME-RL هو إطار نمذجة وتنفيذ المهام المخصص لسيناريوهات التدريب اللامركزية من قبل Prime Intellect، مصمم خصيصًا للشبكات المتنوعة والمشاركة غير المتزامنة. يعتمد على التعلم المعزز ككائن تكييف أولي، حيث يفصل بشكل هيكلي بين عمليات التدريب والاستدلال وتحميل الأوزان، مما يسمح لكل عقدة تدريب بإكمال دورة المهام بشكل مستقل محليًا، والتعاون من خلال واجهات موحدة وآليات التحقق والتجميع. بالمقارنة مع عمليات التعلم الخاضعة للإشراف التقليدية، فإن PRIME-RL أكثر ملاءمة لتحقيق التدريب المرن في بيئات بدون جدولة مركزية، مما يقلل أيضًا من تعقيد النظام ويضع الأساس لدعم المهام المتعددة بشكل متوازي وتطور السياسات.
TOPLOC: آلية التحقق من سلوك التدريب خفيف الوزن
TOPLOC هو آلية جوهرية للتحقق من قابلية التدريب اقترحها Prime Intellect، تُستخدم لتحديد ما إذا كان العقدة قد أكملت فعلاً تعلم استراتيجية صحيحة بناءً على بيانات المراقبة. على عكس الحلول الثقيلة مثل ZKML، لا يعتمد TOPLOC على إعادة حساب النموذج بالكامل، بل ينجز التحقق الهيكلي الخفيف من خلال تحليل المسارات المحلية للتوافق بين "سلسلة المراقبة ↔ تحديث الاستراتيجية". إنه يحول لأول مرة المسارات السلوكية خلال عملية التدريب إلى كائنات قابلة للتحقق، وهو الابتكار الرئيسي لتحقيق توزيع مكافآت التدريب بدون ثقة، مما يوفر مسارًا قابلاً للتطبيق لبناء شبكة تدريب تعاونية لامركزية يمكن تدقيقها وتحفيزها.
SHARDCAST: بروتوكول تجميع ونشر الوزن غير المتزامن
SHARDCAST هو بروتوكول انتشار وتجميع الوزن الذي صممه Prime Intellect، مصمم خصيصًا للبيئات الشبكية الحقيقية غير المتزامنة، ذات عرض النطاق الترددي المحدود وحالة العقد المتغيرة. يجمع بين آلية انتشار gossip واستراتيجية التزامن المحلي، مما يسمح لعدة عقد بتقديم تحديثات جزئية بشكل مستمر في حالة عدم التزامن، مما يحقق تقاربًا تدريجيًا للوزن وتطورات متعددة النسخ. مقارنةً بأساليب AllReduce المركزية أو المتزامنة، يُحسن SHARDCAST بشكل ملحوظ من قابلية التوسع والقدرة على تحمل الأخطاء في التدريب اللامركزي، ويعتبر الأساس الرئيسي لبناء توافق وزني مستقر وتكرار تدريب مستمر.
OpenDiLoCo: إطار الاتصال غير المتزامن المتناثر
OpenDiLoCo هو إطار عمل لتحسين الاتصالات تم تحقيقه بشكل مستقل ومفتوح المصدر من قبل فريق Prime Intellect استنادًا إلى مفهوم DiLoCo الذي اقترحته DeepMind، وهو مصمم خصيصًا للتحديات الشائعة في التدريب اللامركزي مثل قيود النطاق الترددي، والتنوع في الأجهزة، وعدم استقرار العقد. يعتمد هيكله على التوازي في البيانات، من خلال بناء هياكل تخطيطية نادرة مثل Ring وExpander وSmall-World، مما يتجنب العبء العالي للتزامن العالمي في الاتصالات، ويعتمد فقط على العقد المجاورة المحلية لإكمال تدريب النموذج بالتعاون. بالجمع بين التحديث غير المتزامن وآلية تحمل نقاط التوقف، يجعل OpenDiLoCo وحدات معالجة الرسوميات الاستهلاكية والأجهزة الحافة قادرة على المشاركة بشكل مستقر في مهام التدريب، مما يعزز بشكل كبير إمكانية المشاركة في التدريب العالمي، وهو أحد البنى التحتية الأساسية للاتصالات لبناء شبكة تدريب لامركزية.
PCCL: مكتبة الاتصالات التعاونية
PCCL هو مكتبة اتصالات خفيفة الوزن مصممة خصيصًا من قبل Prime Intellect لبيئة تدريب الذكاء الاصطناعي اللامركزية، تهدف إلى معالجة عنق الزجاجة في التكيف الذي تواجهه مكتبات الاتصالات التقليدية في الأجهزة غير المتجانسة والشبكات ذات النطاق الترددي المنخفض. يدعم PCCL التوبولوجيا المتناثرة، وضغط التدرجات، والتزامن منخفض الدقة، واستعادة النقاط، ويمكن تشغيله على GPU من الفئة الاستهلاكية والعقد غير المستقرة، وهو المكون الأساسي الذي يدعم القدرة على الاتصال غير المتزامن لبروتوكول OpenDiLoCo. لقد زاد بشكل كبير من تحمل عرض النطاق الترددي لشبكات التدريب وتوافق الأجهزة، مما فتح "آخر كيلومتر" من الأساسيات الاتصالية لبناء شبكة تدريب تعاونية مفتوحة حقًا وموثوقة.
Prime Intellect شبكة التحفيز وتقسيم الأدوار
بني Prime Intellect شبكة تدريبية قابلة للتحقق، بدون إذن، وتتميز بآلية حوافز اقتصادية، مما يسمح لأي شخص بالمشاركة في المهام والحصول على مكافآت بناءً على المساهمات الحقيقية. يعمل البروتوكول بناءً على ثلاث فئات من الأدوار الأساسية:
عقد التدريب: تنفيذ التدريب المحلي، تقديم تحديثات الوزن ومسارات المراقبة
عقد التحقق: استخدام آلية TOPLOC للتحقق من صحة سلوك التدريب والمشاركة في حساب المكافآت وتجميع الاستراتيجيات
تشمل العملية الأساسية للبروتوكول نشر المهام، تدريب العقد، التحقق من المسارات، تجميع الأوزان وتوزيع المكافآت، مما يشكل حلقة تحفيزية تدور حول "سلوك التدريب الحقيقي".
INTELLECT-2:إصدار أول نموذج تدريبي قابل للتحقق اللامركزية
أصدرت Prime Intellect INTELLECT-2 في مايو 2025، وهو أول نموذج كبير من التعلم المعزز في العالم تم تدريبه بواسطة عقد لا مركزية غير موثوقة ومتزامنة، حيث يصل حجم المعلمات إلى 32B. تم تدريب نموذج INTELLECT-2 بالتعاون مع أكثر من 100 عقدة GPU هوموجينية منتشرة عبر ثلاث قارات، باستخدام بنية غير متزامنة بالكامل، واستغرق التدريب أكثر من 400 ساعة، مما يظهر إمكانية واستقرار شبكة التعاون غير المتزامنة. هذا النموذج ليس فقط突破ًا في الأداء، بل هو أيضًا التطبيق النظامي الأول لنموذج "التدريب هو الإجماع" الذي اقترحته Prime Intellect. يتكامل INTELLECT-2 مع بروتوكولات أساسية مثل PRIME-RL وTOPLOC وSHARDCAST، مما يمثل أول تحقيق لفتح عملية التدريب في شبكة التدريب اللامركزية، والتحقق منها، وحلقة الحوافز الاقتصادية.
فيما يتعلق بالأداء، يعتمد INTELLECT-2 على QwQ-32B وتم تدريبه بشكل خاص في RL في الشفرة والرياضيات، وهو في مرحلة التعديل الدقيق لـ RL المفتوح المصدر الحالي.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 17
أعجبني
17
5
مشاركة
تعليق
0/400
DefiPlaybook
· منذ 3 س
هذه القوة الحوسبة للتدريب، أليست مثل TVL، إذا كانت مركزة للغاية، فإنها قد تتعرض للاختلاس؟
شاهد النسخة الأصليةرد0
DefiPlaybook
· منذ 16 س
وفقًا لتحليل TVL، فإن تكلفة التدريب حقًا خانقة...
شاهد النسخة الأصليةرد0
LiquidityWitch
· منذ 17 س
التكنولوجيا لا تواكب الخيال
شاهد النسخة الأصليةرد0
TokenVelocity
· منذ 17 س
هل يمكن تحويل هذه القوة الحوسبة؟ تدريب الكلاب أكثر متعة من ذلك.
شاهد النسخة الأصليةرد0
StakeOrRegret
· منذ 17 س
هل يجب أن تكون التدريب أيضًا على نمط ويب 3؟ هناك شيء ما
اللامركزية التدريب: مستقبل تطور الذكاء الاصطناعي والتحديات الواقعية
اللامركزية التدريب:探索圣杯 AI
في سلسلة القيمة الكاملة للذكاء الاصطناعي، يُعتبر تدريب النماذج المرحلة الأكثر استهلاكًا للموارد والأعلى من حيث العوائق التقنية، حيث يحدد بشكل مباشر الحد الأقصى لقدرات النموذج وفعالية تطبيقاته الفعلية. بالمقارنة مع الاستدعاءات خفيفة الوزن في مرحلة الاستدلال، يتطلب عملية التدريب استثمارًا مستمرًا من القوة الحاسوبية الكبيرة، وعمليات معالجة بيانات معقدة، ودعمًا قويًا لخوارزميات التحسين، مما يجعله "الصناعة الثقيلة" الحقيقية لبناء أنظمة الذكاء الاصطناعي. من منظور أنماط البنية، يمكن تقسيم طرق التدريب إلى أربع فئات: التدريب المركزي، التدريب الموزع، التعلم الفيدرالي، والتدريب اللامركزي الذي سنتناوله بشكل أساسي في هذه المقالة.
تعتبر التدريب المركزي هو الطريقة التقليدية الأكثر شيوعًا، حيث يتم تنفيذ جميع عمليات التدريب من قبل مؤسسة واحدة داخل مجموعة عالية الأداء محليًا، من الأجهزة، والبرمجيات الأساسية، ونظام جدولة المجموعة، إلى جميع مكونات إطار التدريب التي تنسقها نظام تحكم موحد. تمكّن هذه البنية التحتية العميقة المتناغمة من تحقيق أفضل كفاءة في مشاركة الذاكرة، ومزامنة التدرجات، وآلية تحمل الأخطاء، مما يجعلها مناسبة جدًا لتدريب النماذج الكبيرة مثل GPT و Gemini، حيث تتمتع بمزايا الكفاءة العالية، والموارد القابلة للتحكم، لكنها في نفس الوقت تواجه مشاكل احتكار البيانات، وحواجز الموارد، واستهلاك الطاقة، ومخاطر النقطة الواحدة.
التدريب الموزع هو الطريقة السائدة حاليًا في تدريب النماذج الكبيرة، حيث تتمثل الفكرة الرئيسية في تقسيم مهمة تدريب النموذج وتوزيعها على عدة آلات لتنفيذها بشكل متعاون، وذلك لتجاوز قيود الحوسبة والتخزين على جهاز واحد. على الرغم من أن لديها خصائص "اللامركزية" من الناحية الفيزيائية، إلا أن التحكم والتنسيق والتزامن لا يزال تحت سيطرة مؤسسة مركزية، وغالبًا ما تعمل في بيئة شبكة محلية سريعة، من خلال تقنية NVLink للحافلات عالية السرعة، حيث يقوم العقد الرئيسي بتنسيق المهام الفرعية بشكل موحد. تشمل الطرق الرئيسية ما يلي:
التدريب الموزع هو مزيج من "التحكم المركزي + التنفيذ الموزع"، مماثل لمدير واحد يقود عن بُعد موظفين من عدة "مكاتب" للتعاون في إكمال المهام. حاليًا، يتم تدريب جميع النماذج الكبيرة السائدة تقريبًا بهذه الطريقة.
اللامركزية التدريب تمثل مسارًا مستقبليًا أكثر انفتاحًا ومقاومةً للرقابة. تتمثل الخصائص الأساسية في: عدة عقد غير موثوقة تتعاون لإكمال مهام التدريب بدون منسق مركزي، وعادةً ما يتم دفع توزيع المهام والتعاون من خلال البروتوكولات، ويتم استخدام آلية التحفيز المشفرة لضمان نزاهة المساهمات. تشمل التحديات الرئيسية التي تواجه هذا النموذج:
يمكن فهم التدريب اللامركزي على أنه: مجموعة من المتطوعين من جميع أنحاء العالم، يساهمون كل منهم بقوة الحوسبة لتدريب النموذج بشكل تعاوني، لكن "التدريب اللامركزي على نطاق واسع الذي يمكن تحقيقه حقًا" لا يزال يمثل تحديًا هندسيًا نظاميًا، يتضمن بنية النظام، بروتوكولات الاتصال، أمان التشفير، الآليات الاقتصادية، والتحقق من النموذج على عدة مستويات، لكن ما إذا كان يمكن أن يكون "تعاونيًا فعالًا + تحفيزًا للصدق + نتائج صحيحة" لا يزال في مرحلة استكشاف النموذج الأولي المبكر.
تعتبر التعلم الفيدرالي شكلًا انتقاليًا بين التوزيع واللامركزية، حيث يركز على الاحتفاظ بالبيانات محليًا، وتجمع نموذج المعلمات مركزياً، مما يجعله مناسبًا للسيناريوهات التي تركز على الامتثال للخصوصية. يتمتع التعلم الفيدرالي بهيكل هندسي للتدريب الموزع وقدرة التعاون المحلي، وفي نفس الوقت يتضمن مزايا توزيع البيانات في التدريب اللامركزي، ولكنه لا يزال يعتمد على جهة تنسيق موثوقة، ولا يتمتع بخصائص الفتح الكامل ومقاومة الرقابة. يمكن اعتباره نوعًا من "اللامركزية الخاضعة للرقابة" في سياقات الامتثال للخصوصية، حيث يكون أكثر اعتدالًا في مهام التدريب، وهياكل الثقة، وآليات الاتصالات، مما يجعله أكثر ملاءمة كهيكل نشر انتقالي في الصناعة.
اللامركزية تدريب الحدود، الفرص والواقع المسار
من حيث نموذج التدريب، فإن التدريب اللامركزي لا يناسب جميع أنواع المهام. في بعض السيناريوهات، بسبب هيكل المهمة المعقد، ومتطلبات الموارد العالية جداً، أو صعوبة التعاون، فإنه ليس مناسباً بطبيعته لإكماله بكفاءة بين العقد الهجينة والموثوقة. على سبيل المثال، يعتمد تدريب النماذج الكبيرة غالباً على ذاكرة وصول عشوائي عالية، وزمن تأخير منخفض، وعرض نطاق ترددي عالي، مما يجعل من الصعب تقسيمه ومزامنته بفعالية في شبكة مفتوحة؛ كما أن المهام التي تتطلب خصوصية البيانات وقيود السيادة تتقيد بالقوانين والامتثال الأخلاقي، ولا يمكن مشاركتها بشكل مفتوح؛ بينما تفتقر المهام التي تفتقر إلى أساس حوافز التعاون إلى دوافع المشاركة الخارجية. تشكل هذه الحدود مجتمعة القيود الواقعية الحالية للتدريب اللامركزي.
لكن هذا لا يعني أن التدريب اللامركزي هو فكرة زائفة. في الواقع، في أنواع المهام الخفيفة الهيكل، سهلة التوازي، والمحفزة، يظهر التدريب اللامركزي آفاق تطبيق واضحة. بما في ذلك على سبيل المثال لا الحصر: ضبط LoRA، مهام التدريب بعد المحاذاة السلوكية، تدريب ووسم البيانات عبر الحشود، تدريب نماذج أساسية صغيرة قابلة للتحكم في الموارد، وكذلك سيناريوهات التدريب التعاوني بمشاركة الأجهزة الطرفية. تتميز هذه المهام عمومًا بارتفاع التوازي، وانخفاض الترابط، وقابلية تحمل القوة الحاسوبية غير المتجانسة، مما يجعلها مناسبة جدًا للتدريب التعاوني من خلال الشبكات P2P، بروتوكول Swarm، والمُحسِّنات الموزعة.
تحليل مشاريع التدريب الكلاسيكية اللامركزية
في الوقت الحالي، تشمل المشاريع البارزة في مجال التدريب اللامركزي والتعلم الفيدرالي، كل من Prime Intellect وPluralis.ai وGensyn وNous Research وFlock.io. من حيث الابتكار التكنولوجي وصعوبة التنفيذ الهندسي، قدمت Prime Intellect وNous Research وPluralis.ai العديد من الاستكشافات الأصلية في تصميم الأنظمة والخوارزميات، مما يمثل الاتجاهات الرائدة في الأبحاث النظرية الحالية؛ بينما المسارات التنفيذية لكل من Gensyn وFlock.io واضحة نسبياً، ويمكن رؤية تقدم أولي في الهندسة.
Prime Intellect: رائد الشبكات التعاونية للتعلم المعزز القابل للتحقق من مسارات التدريب
تسعى Prime Intellect لبناء شبكة تدريب AI لا تحتاج إلى ثقة، مما يسمح لأي شخص بالمشاركة في التدريب والحصول على مكافآت موثوقة مقابل مساهماته الحسابية. تأمل Prime Intellect من خلال ثلاثة وحدات هي PRIME-RL و TOPLOC و SHARDCAST، في بناء نظام تدريب AI لامركزي يتمتع بالتحقق، والانفتاح، وآلية التحفيز الكاملة.
هيكل كومة بروتوكول Prime Intellect والقيمة الأساسية للوحدات الرئيسية
تشمل الآلية الأساسية لـ Prime Intellect:
PRIME-RL: بنية مهمة التعلم المعزز غير المتزامن المفككة
PRIME-RL هو إطار نمذجة وتنفيذ المهام المخصص لسيناريوهات التدريب اللامركزية من قبل Prime Intellect، مصمم خصيصًا للشبكات المتنوعة والمشاركة غير المتزامنة. يعتمد على التعلم المعزز ككائن تكييف أولي، حيث يفصل بشكل هيكلي بين عمليات التدريب والاستدلال وتحميل الأوزان، مما يسمح لكل عقدة تدريب بإكمال دورة المهام بشكل مستقل محليًا، والتعاون من خلال واجهات موحدة وآليات التحقق والتجميع. بالمقارنة مع عمليات التعلم الخاضعة للإشراف التقليدية، فإن PRIME-RL أكثر ملاءمة لتحقيق التدريب المرن في بيئات بدون جدولة مركزية، مما يقلل أيضًا من تعقيد النظام ويضع الأساس لدعم المهام المتعددة بشكل متوازي وتطور السياسات.
TOPLOC: آلية التحقق من سلوك التدريب خفيف الوزن
TOPLOC هو آلية جوهرية للتحقق من قابلية التدريب اقترحها Prime Intellect، تُستخدم لتحديد ما إذا كان العقدة قد أكملت فعلاً تعلم استراتيجية صحيحة بناءً على بيانات المراقبة. على عكس الحلول الثقيلة مثل ZKML، لا يعتمد TOPLOC على إعادة حساب النموذج بالكامل، بل ينجز التحقق الهيكلي الخفيف من خلال تحليل المسارات المحلية للتوافق بين "سلسلة المراقبة ↔ تحديث الاستراتيجية". إنه يحول لأول مرة المسارات السلوكية خلال عملية التدريب إلى كائنات قابلة للتحقق، وهو الابتكار الرئيسي لتحقيق توزيع مكافآت التدريب بدون ثقة، مما يوفر مسارًا قابلاً للتطبيق لبناء شبكة تدريب تعاونية لامركزية يمكن تدقيقها وتحفيزها.
SHARDCAST: بروتوكول تجميع ونشر الوزن غير المتزامن
SHARDCAST هو بروتوكول انتشار وتجميع الوزن الذي صممه Prime Intellect، مصمم خصيصًا للبيئات الشبكية الحقيقية غير المتزامنة، ذات عرض النطاق الترددي المحدود وحالة العقد المتغيرة. يجمع بين آلية انتشار gossip واستراتيجية التزامن المحلي، مما يسمح لعدة عقد بتقديم تحديثات جزئية بشكل مستمر في حالة عدم التزامن، مما يحقق تقاربًا تدريجيًا للوزن وتطورات متعددة النسخ. مقارنةً بأساليب AllReduce المركزية أو المتزامنة، يُحسن SHARDCAST بشكل ملحوظ من قابلية التوسع والقدرة على تحمل الأخطاء في التدريب اللامركزي، ويعتبر الأساس الرئيسي لبناء توافق وزني مستقر وتكرار تدريب مستمر.
OpenDiLoCo: إطار الاتصال غير المتزامن المتناثر
OpenDiLoCo هو إطار عمل لتحسين الاتصالات تم تحقيقه بشكل مستقل ومفتوح المصدر من قبل فريق Prime Intellect استنادًا إلى مفهوم DiLoCo الذي اقترحته DeepMind، وهو مصمم خصيصًا للتحديات الشائعة في التدريب اللامركزي مثل قيود النطاق الترددي، والتنوع في الأجهزة، وعدم استقرار العقد. يعتمد هيكله على التوازي في البيانات، من خلال بناء هياكل تخطيطية نادرة مثل Ring وExpander وSmall-World، مما يتجنب العبء العالي للتزامن العالمي في الاتصالات، ويعتمد فقط على العقد المجاورة المحلية لإكمال تدريب النموذج بالتعاون. بالجمع بين التحديث غير المتزامن وآلية تحمل نقاط التوقف، يجعل OpenDiLoCo وحدات معالجة الرسوميات الاستهلاكية والأجهزة الحافة قادرة على المشاركة بشكل مستقر في مهام التدريب، مما يعزز بشكل كبير إمكانية المشاركة في التدريب العالمي، وهو أحد البنى التحتية الأساسية للاتصالات لبناء شبكة تدريب لامركزية.
PCCL: مكتبة الاتصالات التعاونية
PCCL هو مكتبة اتصالات خفيفة الوزن مصممة خصيصًا من قبل Prime Intellect لبيئة تدريب الذكاء الاصطناعي اللامركزية، تهدف إلى معالجة عنق الزجاجة في التكيف الذي تواجهه مكتبات الاتصالات التقليدية في الأجهزة غير المتجانسة والشبكات ذات النطاق الترددي المنخفض. يدعم PCCL التوبولوجيا المتناثرة، وضغط التدرجات، والتزامن منخفض الدقة، واستعادة النقاط، ويمكن تشغيله على GPU من الفئة الاستهلاكية والعقد غير المستقرة، وهو المكون الأساسي الذي يدعم القدرة على الاتصال غير المتزامن لبروتوكول OpenDiLoCo. لقد زاد بشكل كبير من تحمل عرض النطاق الترددي لشبكات التدريب وتوافق الأجهزة، مما فتح "آخر كيلومتر" من الأساسيات الاتصالية لبناء شبكة تدريب تعاونية مفتوحة حقًا وموثوقة.
Prime Intellect شبكة التحفيز وتقسيم الأدوار
بني Prime Intellect شبكة تدريبية قابلة للتحقق، بدون إذن، وتتميز بآلية حوافز اقتصادية، مما يسمح لأي شخص بالمشاركة في المهام والحصول على مكافآت بناءً على المساهمات الحقيقية. يعمل البروتوكول بناءً على ثلاث فئات من الأدوار الأساسية:
تشمل العملية الأساسية للبروتوكول نشر المهام، تدريب العقد، التحقق من المسارات، تجميع الأوزان وتوزيع المكافآت، مما يشكل حلقة تحفيزية تدور حول "سلوك التدريب الحقيقي".
INTELLECT-2:إصدار أول نموذج تدريبي قابل للتحقق اللامركزية
أصدرت Prime Intellect INTELLECT-2 في مايو 2025، وهو أول نموذج كبير من التعلم المعزز في العالم تم تدريبه بواسطة عقد لا مركزية غير موثوقة ومتزامنة، حيث يصل حجم المعلمات إلى 32B. تم تدريب نموذج INTELLECT-2 بالتعاون مع أكثر من 100 عقدة GPU هوموجينية منتشرة عبر ثلاث قارات، باستخدام بنية غير متزامنة بالكامل، واستغرق التدريب أكثر من 400 ساعة، مما يظهر إمكانية واستقرار شبكة التعاون غير المتزامنة. هذا النموذج ليس فقط突破ًا في الأداء، بل هو أيضًا التطبيق النظامي الأول لنموذج "التدريب هو الإجماع" الذي اقترحته Prime Intellect. يتكامل INTELLECT-2 مع بروتوكولات أساسية مثل PRIME-RL وTOPLOC وSHARDCAST، مما يمثل أول تحقيق لفتح عملية التدريب في شبكة التدريب اللامركزية، والتحقق منها، وحلقة الحوافز الاقتصادية.
فيما يتعلق بالأداء، يعتمد INTELLECT-2 على QwQ-32B وتم تدريبه بشكل خاص في RL في الشفرة والرياضيات، وهو في مرحلة التعديل الدقيق لـ RL المفتوح المصدر الحالي.