Битва ста моделей: у сфері ШІ з'являються суперники, великі мовні моделі стикаються з викликами прибутковості

У сфері штучного інтелекту з'являються нові гравці, битва LLM у розпалі

Минулого місяця в світі ІТ спалахнула "війна тварин".

Одна зі сторін цього протистояння - модель Llama, розроблена компанією Meta. Завдяки своїй відкритій природі, Llama користується великою популярністю серед розробників. Японська компанія NEC, вивчивши статтю та код Llama, швидко розробила японську версію ChatGPT, вирішивши недоліки Японії в галузі штучного інтелекту.

Іншою стороною є великий модель під назвою Falcon. У травні цього року після виходу Falcon-40B він зайняв перше місце в рейтингу відкритих LLM. Цей рейтинг був створений спільнотою Hugging Face для оцінки можливостей LLM. Рейтинг в основному складається з чергування Llama та Falcon на першому місці.

Після випуску Llama 2, тимчасово було відновлено перевагу. Але на початку вересня Falcon випустив версію 180B, знову здобувши вищу позицію.

Цікаво, що розробники Falcon не є технологічною компанією, а знаходяться в Абу-Дабі в Інституті наукових досліджень інновацій у технологіях. Офіційні особи ОАЕ заявили, що вони беруть участь у цій сфері, щоб підривати основних гравців.

На наступний день після випуску версії 180B міністр штучного інтелекту ОАЕ потрапив до списку "100 найвпливовіших людей у сфері ШІ", складеного журналом "Тайм". Разом з ним до списку також увійшли "батько штучного інтелекту" Джеффрі Хінтон, Альтман з OpenAI та інші.

Сьогодні сфера штучного інтелекту увійшла в етап загального змагання. Країни та компанії з певними фінансовими можливостями намагаються створити власні великі мовні моделі. Лише в регіоні Затоки є не один гравець. У серпні Саудівська Аравія придбала понад 3000 чіпів H100 для навчання LLM для національних університетів.

Інвестор поскаржився: "Коли-небудь зневажав інновації бізнес-моделей в Інтернеті, вважав, що немає бар'єрів. Не думав, що стартапи на основі жорстких технологій все ще є битвою сотень моделей..."

Я думав, що це буде змагання з високими технологіями, як це стало змаганням, в якому може взяти участь кожен?

Transformer змінив правила гри

Незалежно від того, чи це американські стартапи, китайські технологічні гіганти чи близькосхідні нафтові магнати, здатність займатися розробкою великих моделей завдячує відомій статті: «Увага — це все, що вам потрібно».

У 2017 році 8 вчених з Google опублікували в цій статті алгоритм Transformer. Ця стаття наразі є третьою за кількістю цитувань в історії ШІ, а поява Transformer спричинила цю хвилю захоплення ШІ.

Сучасні різноманітні великі моделі, включаючи сенсаційну серію GPT, всі побудовані на основі Transformer.

До цього часу "Навчити машини читати" залишалося визнаною академічною проблемою. На відміну від розпізнавання зображень, під час читання людина не лише зосереджується на поточних словах і реченнях, але й враховує контекст для розуміння.

Проте ранні нейронні мережі приймали лише незалежні дані, не могли зрозуміти загальний зміст довгих статей, тому часто виникали проблеми з перекладом.

У 2014 році вчений з Google Ілля вперше досяг прориву. Він використовував рекурентні нейронні мережі (RNN) для обробки природної мови, що значно покращило продуктивність Google Translate.

RNN запропонував "циклічний дизайн", що дозволяє нейронам отримувати як поточний вхід, так і вхід з попереднього моменту, надаючи їм можливість "поєднувати контекст".

Поява RNN викликала захоплення в науковому світі, автори статті про Transformer, Шазель, також проводили глибокі дослідження. Але розробники швидко виявили, що у RNN є серйозні недоліки:

Цей алгоритм використовує послідовні обчислення, хоча вирішує проблему контексту, але його ефективність не висока і йому важко обробляти велику кількість параметрів.

Складний дизайн RNN набрид Шазелю. Тому з 2015 року Шазель і 7 його колег почали розробку заміни для RNN, в результаті чого з'явився Transformer.

На відміну від RNN, Transformer має дві великі революції:

По-перше, використання позиційного кодування замість циклічного дизайну дозволило реалізувати паралельні обчислення, що значно підвищило ефективність навчання, вивівши ШІ в еру великих моделей; по-друге, додатково посилило здатність розуміти контекст.

Transformer одним рухом вирішив кілька недоліків і поступово став стандартним рішенням у сфері NLP, створюючи відчуття, що "якщо не було б Transformer, NLP залишався б у вічній ночі". Навіть Ілля відмовився від RNN і перейшов до табору Transformer.

Іншими словами, Transformer є основою всіх великих моделей сьогодні, він перетворив великі моделі з теоретичних досліджень у чисто інженерну задачу.

У 2019 році OpenAI вразила науковий світ GPT-2, розроблену на основі Transformer. У відповідь Google швидко випустила більш потужну Meena.

В порівнянні з GPT-2, Meena не має алгоритмічних інновацій, лише збільшила кількість параметрів в 8,5 разів і обчислювальну потужність в 14 разів. Автор трансформера Шазел був вражений таким "насильницьким накопиченням" і написав меморандум "Meena поглинає світ".

Після появи Transformer швидкість інновацій у базових алгоритмах сповільнилася. Інженерія даних, масштаби обчислювальної потужності, архітектура моделей та інші інженерні елементи все більше стають ключовими у змаганні AI, і будь-яка компанія з певними технічними можливостями може розробити великий модель.

Тому в своїй промові в Стенфордському університеті вчений Ву Ен Да заявив: "Штучний інтелект є набором інструментів, що включає в себе навчання з наглядом, навчання без нагляду, підкріплене навчання та нинішній генеративний ШІ. Це все універсальні технології, подібно до електрики та Інтернету."

OpenAI все ще є орієнтиром для LLM, але аналітична компанія Semi Analysis вважає, що переваги GPT-4 походять з інженерного рішення — якщо код буде відкритим, будь-який конкурент зможе швидко його скопіювати.

Цей аналітик очікує, що інші великі технологічні компанії можуть незабаром розробити великі моделі, які за характеристиками будуть порівнянні з GPT-4.

Фортеця не є неприступною

Сьогодні "Битва за сто моделей" вже не є метафорою, а реальністю.

Згідно з доповіддю, станом на липень цього року, кількість великих моделей у Китаї досягла 130, перевищивши 114 у США, і різних міфів і легенд вже не вистачає, щоб називати їх китайські технологічні компанії.

Окрім Китаю та США, багато більш багатих країн також реалізували "одна країна - одна модель": окрім Японії та ОАЕ, є також Bhashini, ініційований урядом Індії, та HyperClova X, розроблений компанією Naver з Південної Кореї.

Ця ситуація нагадує сцени раннього бульбашкового божевілля в Інтернеті та капіталістичних гулянь.

Як вже згадувалося, Transformer перетворює великі моделі на чисто інженерну задачу; для їх розробки достатньо наявності кадрів, фінансування та обчислювальних ресурсів. Але легко увійти в гру, а стати гігантом ери ШІ - зовсім не просто.

На початку згадана "Битва тварин" є типовим прикладом: хоча Falcon тимчасово випереджає Llama, важко сказати, який саме вплив це матиме на Meta.

Відомо, що компанії відкривають свої досягнення, щоб поділитися благами технологій, а також сподіваються скористатися соціальними ресурсами. Оскільки академічні кола, дослідницькі установи та компанії постійно використовують і вдосконалюють Llama, Meta може застосовувати ці досягнення у своїх продуктах.

Для відкритих великих моделей активна спільнота розробників є основною конкурентною перевагою.

Ще в 2015 році, коли Meta створила лабораторію штучного інтелекту, вона визначила відкритий шлях; Цукерберг, якому насправді було вигідно працювати з соціальними медіа, краще розуміє важливість "налагодження відносин з громадськістю".

Наприклад, у жовтні Meta спеціально провела захід "Мотивація творців ШІ": розробники, які використовують Llama 2 для вирішення соціальних проблем, таких як освіта та екологія, мають можливість отримати фінансування в розмірі 500 000 доларів.

Сьогодні серія Llama від Meta стала еталоном відкритих LLM.

Станом на початок жовтня, в топ-10 відкритих рейтингів LLM від Hugging Face, 8 з них розроблено на базі Llama 2, використовуючи його відкриту ліцензію. Лише на Hugging Face кількість LLM, що використовують ліцензію Llama 2, вже перевищила 1500.

Звичайно, підвищення продуктивності, як у Falcon, також не є недоцільним, але наразі більшість LLM на ринку все ще мають помітну різницю з GPT-4.

Наприклад, нещодавно GPT-4 здобув першість в тестуванні AgentBench з оцінкою 4.41. AgentBench був спільно розроблений університетом Ціньхуа та кількома провідними університетами США для оцінки здатності LLM до міркування та прийняття рішень у багатовимірному відкритому середовищі, а тестові завдання включають операційні системи, бази даних, знання графіків, карткові битви та інші 8 різних середовищ.

Тестові результати показують, що друге місце зайняв Claude, отримавши лише 2.77 балів, різниця очевидна. Що стосується тих гучних відкритих LLM, їх результати зазвичай становлять близько 1 балу, що менше чверті від GPT-4.

Слід зазначити, що GPT-4 був випущений у березні цього року, і це все ще результат глобального змагання, яке триває більше півроку. Причиною цієї різниці є висококваліфікована дослідницька команда OpenAI та накопичений протягом тривалого часу досвід, що дозволяє їм постійно залишатися на передових позиціях.

Тобто, основна здатність великої моделі полягає не в параметрах, а в екосистемному будівництві ( відкритий код ) або чисто в можливостях виведення ( закритий код ).

З огляду на те, що відкриті спільноти стають все більш активними, продуктивність різних LLM може стати схожою, оскільки всі використовують подібні архітектури моделей і набори даних.

Ще одне більш наочне питання: крім Midjourney, здається, жодна велика модель не може отримувати прибуток.

Якір вартості

У серпні цього року стаття з назвою "OpenAI може збанкрутувати наприкінці 2024 року" привернула увагу. Основна ідея статті може бути узагальнена одним реченням: OpenAI витрачає гроші дуже швидко.

У тексті згадується, що з моменту розробки ChatGPT, збитки OpenAI швидко зростають, у 2022 році вони склали приблизно 540 мільйонів доларів, і компанія може покладатися лише на інвестиції Microsoft.

Хотя заголовок статьи звучит громко, він також відображає багато реалій постачальників великих моделей: витрати та доходи серйозно дисбалансовані.

Занадто високі витрати призвели до того, що наразі лише NVIDIA заробляє великі гроші на ШІ, і максимум ще Broadcom.

Згідно з оцінками консалтингової компанії Omdia, у другому кварталі цього року NVIDIA продала понад 300 тисяч чіпів H100. Це надзвичайно ефективний AI-чіп, який активно купується технологічними компаніями та дослідницькими установами по всьому світу. Якщо скласти ці 300 тисяч H100 один на одного, їхня вага буде дорівнювати 4,5 літакам Boeing 747.

Виручка NVIDIA різко зросла, порівняно з минулим роком зростання становить 854%, що шокувало Уолл-стріт. Варто зазначити, що H100 на вторинному ринку вже продається за 40-50 тисяч доларів, тоді як його собівартість лише близько 3000 доларів.

Високі витрати на обчислювальну потужність в певній мірі стали перешкодою для розвитку галузі. Sequoia Capital оцінювала, що технологічні компанії по всьому світу щорічно витрачатимуть 200 мільярдів доларів на інфраструктуру для великих моделей; у порівнянні, великі моделі можуть створити максимум 75 мільярдів доларів доходу на рік, існує щонайменше 125 мільярдів доларів дефіциту.

Крім того, за винятком небагатьох винятків, таких як Midjourney, більшість компаній з виробництва програмного забезпечення, вклавши величезні кошти, ще не знайшли прибуткову модель. Особливо з труднощами зіткнулися провідні компанії галузі Microsoft та Adobe.

AI інструмент для генерації коду GitHub Copilot, розроблений у співпраці Microsoft та OpenAI, хоча коштує 10 доларів на місяць, але через витрати на обслуговування Microsoft втрачає 20 доларів на користувача, а активні користувачі навіть призводять до місячних збитків у 80 доларів. З цього можна припустити, що Microsoft 365 Copilot, що коштує 30 доларів, може бути ще більш збитковим.

Те ж саме, щойно випущений інструмент Firefly AI від Adobe також швидко запровадив систему балів, щоб запобігти надмірному використанню з боку користувачів, що може призвести до збитків для компанії. Як тільки користувач перевищує щомісячно виділені бали, Adobe знижує швидкість обслуговування.

Потрібно знати, що Microsoft та Adobe вже є програмними гігантами з чітко визначеними бізнес-сценаріями та великою кількістю платних користувачів. А у більшості великих моделей, які накопичили безліч параметрів, найзначніше застосування все ще є спілкування.

Безумовно, якщо б не OpenAI та ChatGPT, ця революція AI, можливо, взагалі б не відбулася; але наразі цінність, створена під час навчання великих моделей, ймовірно, ще потребує обговорення.

А ще, зі збільшенням конкуренції за однорідністю та зростанням кількості відкритих моделей, прості постачальники великих моделей можуть зіткнутися з більшими викликами.

Успіх iPhone 4 не в тому, що в ньому використовується 45-нм процесор A4, а в тому, що він може грати в Plants vs. Zombies та Angry Birds.

GPT-1.88%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 7
  • Поділіться
Прокоментувати
0/400
DAOplomacyvip
· 2год тому
чесно кажучи, це просто ще одна нестійка гонка до дна... я вже бачив цей фільм раніше
Переглянути оригіналвідповісти на0
ThatsNotARugPullvip
· 07-25 12:40
Це лише боротьба на словах.
Переглянути оригіналвідповісти на0
ReverseTradingGuruvip
· 07-25 12:39
圈内невдахи一枚 大模型
Переглянути оригіналвідповісти на0
VitaliksTwinvip
· 07-25 12:38
Відкритий вихідний код модель має трохи захопитися
Переглянути оригіналвідповісти на0
MonkeySeeMonkeyDovip
· 07-25 12:36
Справжня битва починається
Переглянути оригіналвідповісти на0
AllInAlicevip
· 07-25 12:20
Знову одна битва розгортається
Переглянути оригіналвідповісти на0
AirdropSweaterFanvip
· 07-25 12:18
Хто б не виграв, я все одно буду спостерігати за шоу.
Переглянути оригіналвідповісти на0
  • Закріпити