أصدر IT House مقالًا اليوم يفيد بأن حجم الكومة العمياء لنموذج الذكاء الاصطناعي ليس بالضرورة أفضل. فهو يعتمد أكثر على جودة بيانات التدريب.أصدرت Microsoft مؤخرًا نموذجًا لغويًا phi-1 مع 1.3 مليار معلمة باستخدام تدريب مجموعة البيانات عالية الجودة "مستوى الكتاب المدرسي" ، يُقال إن "التأثير الفعلي أفضل من GPT 3.5 مع 100 مليار متغير". يعتمد النموذج على بنية Transformer ، واستخدم فريق Microsoft بيانات "تصنيف الكتب المدرسية" من الويب و "محتوى صارم منطقيًا" تمت معالجته باستخدام GPT-3.5 ، بالإضافة إلى ثمانية وحدات معالجة رسومات Nvidia A100 ، لإكمال التدريب في 4 فقط أيام. قال فريق Microsoft أنه بدلاً من زيادة عدد معلمات النموذج ، فإن تحسين جودة مجموعة بيانات التدريب الخاصة بالنموذج قد يعزز دقة النموذج وكفاءته.لذلك ، استخدموا بيانات عالية الجودة لتدريب نموذج phi-1 . في الاختبار ، وصلت درجة phi-1 إلى 50.6٪ ، وهو أفضل من GPT-3.5 (47٪) مع 175 مليار متغير. صرحت Microsoft أيضًا أن phi-1 سيتم فتحه في HuggingFace بعد ذلك ، وهذه ليست المرة الأولى التي تطور فيها Microsoft LLM صغير. في السابق ، قاموا بإنشاء 13 مليار متغير Orca ، والتي تم تدريبها باستخدام البيانات الاصطناعية GPT-4. الأداء أفضل أيضًا من ChatGPT.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
أصدر IT House مقالًا اليوم يفيد بأن حجم الكومة العمياء لنموذج الذكاء الاصطناعي ليس بالضرورة أفضل. فهو يعتمد أكثر على جودة بيانات التدريب.أصدرت Microsoft مؤخرًا نموذجًا لغويًا phi-1 مع 1.3 مليار معلمة باستخدام تدريب مجموعة البيانات عالية الجودة "مستوى الكتاب المدرسي" ، يُقال إن "التأثير الفعلي أفضل من GPT 3.5 مع 100 مليار متغير". يعتمد النموذج على بنية Transformer ، واستخدم فريق Microsoft بيانات "تصنيف الكتب المدرسية" من الويب و "محتوى صارم منطقيًا" تمت معالجته باستخدام GPT-3.5 ، بالإضافة إلى ثمانية وحدات معالجة رسومات Nvidia A100 ، لإكمال التدريب في 4 فقط أيام. قال فريق Microsoft أنه بدلاً من زيادة عدد معلمات النموذج ، فإن تحسين جودة مجموعة بيانات التدريب الخاصة بالنموذج قد يعزز دقة النموذج وكفاءته.لذلك ، استخدموا بيانات عالية الجودة لتدريب نموذج phi-1 . في الاختبار ، وصلت درجة phi-1 إلى 50.6٪ ، وهو أفضل من GPT-3.5 (47٪) مع 175 مليار متغير. صرحت Microsoft أيضًا أن phi-1 سيتم فتحه في HuggingFace بعد ذلك ، وهذه ليست المرة الأولى التي تطور فيها Microsoft LLM صغير. في السابق ، قاموا بإنشاء 13 مليار متغير Orca ، والتي تم تدريبها باستخدام البيانات الاصطناعية GPT-4. الأداء أفضل أيضًا من ChatGPT.