Гонка відкритих вихідних кодів: «Момент Linux» великої моделі AI приходить

2023-06-01 06:14:52

Подивіться на майбутнє великих моделей штучного інтелекту з історії розробки еталонного тесту Linux з відкритим кодом.

Автори: Сон Цзяцзі, Сунь Шуан

Невдовзі після випуску ChatGPT Meta створила відкриту модель великої мови LLaMA, схожу на GPT. Відтоді було створено кілька великих моделей, таких як Alpaca, Vicuna та Koala. Вони досягли вражаючої продуктивності в модельному масштабі та коштують набагато нижче Це викликало занепокоєння інсайдерів галузі, що «ані Google, ані OpenAI не мають рову, а поріг великих моделей подолає відкритий вихідний код, і їх замінять, якщо вони не співпрацюватимуть». Ринок капіталу також звертає увагу на майбутню модель конкуренції великих моделей. Чи мала модель більше не вимагає великої обчислювальної потужності? Яку роль у ній відіграють дані? ... У цьому звіті зроблено спробу проаналізувати спільну основу цієї хвилі великих мовних моделей з відкритим кодом, переглянути історію розробки еталонного тесту Linux з відкритим кодом і відповісти на ці запитання.

**Загальна точка 1: починайте з відкритого коду. **Відкритий вихідний код ≠ безкоштовний. Бізнес-модель з відкритим вихідним кодом включає щонайменше: 1. Монетизацію за допомогою послуг. Одним із прикладів є Red Hat, корпоративна компанія з обслуговування Linux, яку колись було зареєстровано на біржі, а потім придбала IBM. Підприємства готові платити за більш стабільну та своєчасну технічну підтримку. 2. Реалізувати за рахунок ліцензійних платежів. Android є відкритим вихідним кодом, але Google стягує ліцензійні збори з виробників у ЄС за використання пакета Android Google. 3. Розробка ліцензій, стандартів і систем оцінки можливостей є каталізатором для поглиблення комерціалізації великих моделей з відкритим кодом. Ліцензійні угоди, ухвалені цією хвилею великих моделей з відкритим вихідним кодом, в основному стосуються Apache 2.0 і MIT, які не забороняють комерційне використання та не забороняють користувачам змінювати модель і потім закривати джерело, що допомагає компаніям застосовувати такі великі моделі.

** Загальна точка 2: менше параметрів і мініатюризація. **Порівняно з надвеликою моделлю GPT3+ зі 100 мільярдами параметрів, параметри цієї хвилі великих моделей з відкритим кодом зазвичай знаходяться на рівні від одного до десяти мільярдів. На даний момент не існує систематичної великомасштабної системи оцінки продуктивності моделі, і лише деякі завдання мають стандарти оцінки, що заслуговують на довіру. Серед великих моделей з відкритим вихідним кодом Vicuna також має більші можливості та може досягти 92% продуктивності GPT4 у деяких завданнях. Загалом, система OpenAI GPT залишається найкращою, але вартість навчання висока, і її важко відтворити. Велика модель з відкритим вихідним кодом забезпечує низьку вартість навчання та високу продуктивність за допомогою більших наборів даних навчання ідентифікаторів, DeepSpeed, RLHF тощо, а бар’єри для великих моделей нижче надвеликих моделей зникають.

** Загальна точка 3: набір даних надає великого значення вказівкам людини та є комерційно доступним. **Важливим фактором суттєвого покращення ChatGPT порівняно з GPT3 є використання RLHF (навчання з підкріпленням на основі зворотного зв’язку людини), тобто під час навчання використовуються відповіді, створені людиною, і сортування контенту, створеного штучним інтелектом, щоб дозволити ШІ «вирівняти» перевага людини. LLaMA не використовує тонке налаштування інструкцій, але велика кількість великих моделей після LLaMA використовують набори даних інструкцій з відкритим кодом і поступово вивчають набори даних інструкцій, створених самостійно, замість використання OpenAI з комерційними обмеженнями, що додатково знижує поріг для відтворення GPT і розширює комерційну доступність.

**Як дивитися на велику модель з відкритим кодом далі? **На хвилі великих моделей з відкритим кодом ми помітили дві тенденції: 1) Інтеграція з мультимодальністю, VisualGLM-6B університету Цінхуа є мультимодальною оновленою версією відомої моделі мови з відкритим кодом ChatGLM, ми вважаємо, що вона може локальне розгортання на основі відеокарт споживчого рівня є загальною тенденцією. 2) Модель з відкритим вихідним кодом + периферійні обчислення сприяють комерціалізації штучного інтелекту. Наприклад, модель китайської медичної консультації «Huatuo» Харбінського університету та її використання в транскордонній електронній комерції.

Інвестиційна пропозиція: Ми вважаємо, що погляди на великі моделі слід переглядати вчасно та пошарово. 1. У короткостроковій перспективі надвелика модель OpenAI GPT все ще перевершує інші великомасштабні моделі з відкритим вихідним кодом. Тому ми повинні зосередитися на Microsoft, яка тісно співпрацює з нею щодо капіталу та продуктів, Apple, яка може отримати Частка доходу ChatGPTiosApp і постачальники послуг обчислювальної потужності для надвеликих моделей. Nvidia тощо; 2. У середньостроковій та довгостроковій перспективі, якщо можливості деяких великих моделей з відкритим кодом будуть додатково перевірені, програми будуть швидко розгорнуті, і великі моделі сформують позитивний цикл для обчислювальної потужності 3. Інше: периферійна обчислювальна потужність, компанії з великими даними та відкритий вихідний код Широкомасштабна бізнес-модель обслуговування також заслуговує на увагу. Рекомендована увага: 1) Постачальники послуг оптичних модулів: Zhongji InnoLight, Xinyisheng, Tianfu Communication, Yuanjie Technology; 2) Постачальники послуг смарт-модулів: MeiG Smart, Fibocom; 3) Постачальники послуг Edge IDC: Longyu shares, Wangsu Technology; 4) Зв’язок AIoT виробники мікросхем та обладнання: ZTE, Tsinghua Unigroup, Ruijie Networks, Feiling Kesi, Fii, Aojie Technology, Chuling Information; 5) Маркування терміналів додатків: Yingying Network, Shenzhou Taiyue, Jiaxun Feihong, Zhongke Jincai тощо.

**Нагадування про ризик: етичний ризик, ризик ринкової конкуренції, ризик політики та правового нагляду. **

Вступ

Звіт викликав інтенсивний інтерес громадськості до великих мовних моделей з відкритим кодом.

1.1 «Ні Google, ні OpenAI не мають рову, і поріг великих моделей подолає відкритий код»

** «Якщо Google і OpenAI не змінять свого ставлення і не вирішать співпрацювати з спільнотою відкритих кодів, вони будуть замінені останніми», **Згідно з повідомленнями Bloomberg і SemiAnalysis, на початку квітня інженер Google Люк Сернау заявив, що в Велика мовна модель штучного інтелекту (Large Language Models, LLM, далі іменується як «велика модель»), Google і OpenAI, запуск ChatGPT, не мають рову, і спільнота з відкритим кодом виграє гонку.

Цей аргумент привернув увагу громадськості до кульмінації феномену «велика кількість великих моделей, які з’явилися після великої моделі Meta LLaMA з відкритим кодом на початку року». Серед трьох ключових елементів «моделі», «обчислювальної потужності» і "дані", якою буде майбутня модель конкуренції великих моделей? Чи велика модель більше не потребуватиме великої обчислювальної потужності, якщо модель маленька? Яку роль у цьому відіграють дані? ...У цьому звіті зроблено спробу проаналізувати спільну основу цієї хвилі великих моделей з відкритим вихідним кодом, переглянути історію розробки еталонного тесту Linux з відкритим кодом, відповісти на наведені вище запитання та з нетерпінням чекати майбутнього великих моделей.

1.2 Інтенсивно з’являються масштабні моделі з відкритим кодом, що можна назвати трендом

24 лютого Meta випустила велику модель LLaMA з відкритим вихідним кодом. З того часу на ринку з’явилася низка великих моделей, які можна умовно розділити на три категорії.

1.2.1 "LLaMA series": хороша продуктивність, але низький ступінь комерціалізації

LLaMA включає чотири різні версії параметрів (7 мільярдів/13 мільярдів/33 мільярди/65 мільярдів), комерційно недоступні, набір даних команд базується на OpenAI, а продуктивність моделі може бути рівною або кращою, ніж GPT-3**. **Серед них версії параметрів із 7 мільярдів і 13 мільярдів мають набір даних попереднього навчання, що містить 1 трильйон токенів; версії параметрів із 33 мільярдами та 65 мільярдами мають набір даних попереднього навчання, що містить 1,4 трильйона токенів. Порівняно з GPT-3, версія LLaMA-7 мільярдів параметрів працює на тому ж рівні, що й GPT-3, у завданнях на розумне мислення, завданнях з нульовим ударом, природних питаннях і розумінні прочитаного, тоді як модель версії з 13 мільярдами параметрів і вище Продуктивність у зазначених вище полях краща, ніж у GPT-3.

Сама модель LLaMA не використовує набір даних інструкцій, але враховуючи те, що ChatGPT, який є кращим за GPT-3, використовує набір даних інструкцій людини, набір великих моделей із відкритим кодом використовує набір даних інструкцій OpenAI для оптимізації продуктивності модель, заснована на моделі LLaMA. Включає Alpaca, GPT4All, Vicuna, Koala, Open Assistant і Hugging Chat. Оскільки набір даних інструкцій OpenAI не є комерційно доступним, ці великі моделі з відкритим кодом на основі LLaMA також недоступні для продажу.

1.2.2 Dolly2.0, RedPajama, StableLM тощо: високий ступінь комерціалізації

Ці великі моделі не використовують набір інструкцій OpenAI, тому вони комерційно доступні, але більшість з них все ще перебувають у стадії постійного розвитку.

1.2.3 Китайські Близнюки: ChatGLM-6B і MOSS

ChatGLM-6B і MOSS були запущені відповідними дослідницькими групами Університету Цінхуа та Університету Фудань відповідно, і добре відомі в китайській спільноті.

Моделі також мають деякі спільні риси, про які докладніше розповідається нижче.

Друге, спільна точка 1: починаючи з відкритого коду

** У цій хвилі, незалежно від того, чи йдеться про саму модель, чи про набір даних, який використовує модель, перше, що їх об’єднує – це «відкритий код». **

2.1 Чому відкритий код?

Важливе питання для ринку великих моделей з відкритим кодом полягає в тому, чому він має бути відкритим і чи не зашкодить це бізнес-моделі індустрії великих моделей. Ми відсортували самозвіти деяких великих моделей щодо причин відкритого вихідного коду та узагальнили їх таким чином.

2.1.1 Перспектива моделі: запобігання монополії великих компаній і порушення комерційних заборонних обмежень

З метою демократизації досліджень штучного інтелекту, подолання розриву в якості між відкритими та закритими моделями та усунення комерційних заборонних обмежень очікується, що енергійний розвиток великих моделей з відкритим кодом сприятиме досягненню вищезазначених цілей.

2.1.2 Перспектива даних: захистіть корпоративні секрети та зробіть можливим індивідуальне навчання даних

**Гарантує конфіденційність даних і дозволяє підприємствам налаштовувати розробку. **Для багатьох галузей промисловості дані є джерелом життєвої сили підприємств. Відкритий вихідний код великих моделей дозволяє підприємствам навчати власні набори даних на великих моделях, одночасно досягаючи контролю над даними та захищаючи конфіденційність корпоративних даних. У той же час велика модель з відкритим вихідним кодом дозволяє корпоративним розробникам здійснювати індивідуальну розробку на основі моделі, націлювати навчальні дані та фільтрувати певні теми, зменшуючи розмір моделі та вартість навчання даних.

2.1.3 Перспектива обчислювальної потужності: зменшити вартість обчислювальної потужності та зробити використання великих моделей «інклюзивним»

**Велика модель з відкритим вихідним кодом заощаджує споживання обчислювальної енергії на етапі навчання, зменшує витрати на обчислювальну потужність для підприємств і сприяє «інклюзивному» використанню великих моделей. **Загальна вимога до обчислювальної потужності = кількість сценаріїв* вимога до обчислювальної потужності для одного сценарію. Під час навчання та використання великих моделей споживання обчислювальної потужності поділяється на два сценарії, а саме витрати на навчання та витрати на логічний висновок.

З точки зору вартості навчання, вартість навчання великих моделей є високою, а ресурси обчислювальної потужності звичайних підприємств непідйомні, тоді як велика модель з відкритим вихідним кодом переважно економить обчислювальну потужність на етапі попереднього навчання підприємств. Однак через більш багаті сценарії навчання різних вертикальних категорій загальний попит на навчання зростає.
З точки зору вартості висновку, вартість висновку для великих моделей також висока, коли параметри величезні, і звичайним компаніям важко підтримувати свої щоденні витрати. Тому зменшення розміру параметрів моделі може ще більше зменшити міркування підприємств. при використанні модельної вартості.

2.2 Відкритий код, який тип ґрунту вам потрібен?

**Розквіт мегамоделей з відкритим кодом не без прецедентів, і Linux, найбільший у світі проект програмного забезпечення з відкритим кодом, має подібну історію. **Дослідження історії розробки Linux має довідкове значення для прогнозування майбутнього великої моделі з відкритим кодом.

2.2.1 Почнемо з тесту Linux з відкритим кодом

**Linux — це безкоштовна операційна система з відкритим вихідним кодом, випущена згідно з GNU General Public License (GPL). **Будь-хто може запускати, вивчати, ділитися та змінювати це програмне забезпечення. Змінений код також можна поширювати і навіть продавати, але тільки за тією ж ліцензією. Традиційні операційні системи, такі як Unix і Windows, є пропрієтарними системами, які заблоковані постачальником, постачаються як є та не можуть бути змінені.

Багато найбільших галузей і компаній світу покладаються на Linux. Сьогодні Linux є скрізь, від сайтів обміну знаннями, таких як Wikipedia, до Нью-Йоркської фондової біржі та мобільних пристроїв під управлінням Android, спеціального дистрибутива ядра Linux, що включає безкоштовне програмне забезпечення. Сьогодні Linux є не лише найпоширенішою операційною системою на загальнодоступних Інтернет-серверах, але й єдиною операційною системою, яка використовується на топ-500 найшвидших суперкомп’ютерів.

**На серверному ринку частка Linux значно перевищила частку «дідуся» операційної системи Unix, і стався «момент Linux». **На прикладі китайського ринку, згідно з даними CCID Consulting і статистикою встановленої потужності, з точки зору серверної архітектури, Linux є основним напрямком ринку, займаючи абсолютне лідерство з часткою ринку 79,1 %. Ринкова частка Windows впала до 20,1%, а Unix — лише 0,8%.

2.2.2 Linux не є самостійним твором, який використовує історію спільноти з відкритим кодом

*** Unix має відкритий вихідний код, забезпечуючи вогонь для Linux***

**Unix, творець сучасної операційної системи. **Операційна система стосується програмного забезпечення, яке безпосередньо керує апаратним забезпеченням системи та ресурсами (такими як ЦП, пам’ять і простір для зберігання). Вона розташована між програмами та апаратним забезпеченням і відповідає за встановлення зв’язків між усім програмним забезпеченням і відповідними фізичними ресурсами. Unix багато хто вважає прабатьком сучасних операційних систем.

**Колись Unix була з відкритим кодом. **Перший у світі комп’ютер загального призначення з’явився на світ у 1946 році, а Unix – у 1969 році. Протягом десяти років компанія AT&T, власник UNIX, ліцензувала вихідний код Unix академічним установам для дослідження або викладання з недорогими або навіть безкоштовними ліцензіями. Багато установ розширювали та вдосконалювали цей вихідний код, утворюючи так званий «Unix». варіанти». Пізніше AT&T усвідомила комерційну цінність Unix, більше не ліцензувала вихідний код Unix академічним установам і заявила про авторські права на попередню Unix та її варіанти.

Unix є надто дорогим після повернення до закритого коду, що призвело до розробки Linux

Linux був розроблений і запущений Linux Torvalds в 1991 році. На той час він ще навчався в коледжі і вважав, що популярна на той час комерційна операційна система Unix була занадто дорогою, тому він розробив Linux на основі Unix-подібної операційної системи Minix і відкрив його для таких людей, як він, які не могли собі цього дозволити.

Minix лише для навчання, надихнув на розробку Linux

Після того як AT&T приватизувала вихідний код, Таненбаум, професор Амстердамського університету Vrije в Нідерландах, вирішив розробити UNIX-сумісне домашнє завдання без використання будь-якого вихідного коду AT&T, щоб навчити студентів практичним деталям роботи операційної системи в класі. уникнути суперечок щодо авторських прав. Він назвав його MINIX зі значенням mini-UNIX (міні-UNIX). Перша версія MINIX була випущена в 1987 році, і вам потрібно лише купити її диск, щоб використовувати її. До того, як система Linux не мала власної рідної файлової системи, використовувалася файлова система Minix.

Спільнота з відкритим кодом, ліцензія та стандартна підтримка

** Відкритий код із самого початку. **У серпні 1991 року засновник Linux Лінус Торвальдс опублікував Linux у групі новин Minix Usenet. Потім він випустив Linux на FTP-сайт, тому що хотів, щоб більше людей разом розробляли ядро.

**Ліцензія допомагає екології процвітати та процвітати. **Linux базується на моделі ліцензії GNU GPL (Загальна публічна ліцензія GNU Not Unix, Загальна публічна ліцензія Genu Project). Ліцензія GPL надає чотири свободи, які надає користувачам «вільне програмне забезпечення» або «Copyleft (публічне авторське право)»:

Freedom Zero: свобода «використовувати» програмне забезпечення для будь-яких цілей.
Одна зі свобод: свобода «вивчати, як працює програмне забезпечення» та «модифікувати» програмне забезпечення відповідно до власних потреб користувача. Доступ до вихідного коду є необхідною умовою для цієї свободи.
Свобода 2: існує свобода «розповсюджувати копії програмного забезпечення», тому кожен може будувати добросусідство, розповсюджуючи безкоштовне програмне забезпечення.
Свобода 3: свобода «публікувати переглянуту версію», щоб уся спільнота могла отримати вигоду. Доступ до вихідного коду є необхідною умовою для цієї свободи.

Ліцензія GPL вимагає, щоб похідні роботи від програми GPL також відповідали моделі ліцензії GPL. Навпаки, такі ліцензії, як BSD-стиль, не забороняють перетворення похідних робіт у власне програмне забезпечення. GPL є найпопулярнішою ліцензією на безкоштовне програмне забезпечення з відкритим кодом. Відповідність ліцензії GPL дозволяє екосистемі Linux продовжувати процвітати, щоб не зайти в «глухий кут», де вона не може продовжувати розвиватися.

**Внутрішні стандарти роблять екологію «розпорошеною формою, але не розсіяною духом», і внутрішньо охоплюють «гігантського кита». **

**Внутрішній уніфікований стандарт. **Linux сформулювала стандарт LSB (Linux Standard Base, Linux Standard Base) для стандартизації розробки, щоб уникнути надто відмінних результатів розробки різних команд. Таким чином, різні інструменти розробки, похідні від Linux, відрізняються лише такими речами, як інструменти та режими керування пакетами. Ми вважаємо, що це робить розвиток спільноти Linux з відкритим кодом «дезінтегрованим, але не розпорошеним», тому розвиток екосистеми Linux не розпадеться.
**Зовнішня сумісність з Unix. **Щоб зробити Linux сумісним із програмним забезпеченням Unix, Лінус Торвальдс модифікував Linux із посиланням на стандарт POSIX (портативний операційний інтерфейс), що значно збільшило використання Linux. Цей стандарт був розроблений IEEE (Інститут інженерів з електротехніки та електроніки, Інститут інженерів з електротехніки та електроніки) у 1990-х роках. Це початковий етап Linux. Портативність забезпечує сприятливе середовище для просування Linux.

2.3 Відкритий код, як заробити гроші?

Основним питанням на ринку щодо «відкритого коду» є бізнес-модель. «Відкритий вихідний код» сам по собі є безкоштовним, але «відкритий вихідний код» є ґрунтом, і «спільнота відкритих вихідних кодів» розвинула різні бізнес-моделі, яким можна навчитися в екосистемі Linux.

2.3.1 Red Hat: Service First

Red Hat є лідером в екосистемі Linux. Понад 90% компаній зі списку Fortune 500 довіряють Red Hat. Red Hat має величезну комерційну цінність як компанія. У 1993 році була заснована Red Hat. У 1999 році Red Hat була зареєстрована на Nasdaq. Згідно з проспектом емісії Red Hat із посиланням на дані IDC, станом на 1998 рік 56% усіх авторизованих нових установок операційної системи Linux походили від Red Hat. У 2012 році Red Hat стала першою компанією з відкритим вихідним кодом із прибутком понад 1 мільярд доларів; у 2019 році IBM придбала Red Hat приблизно за 34 мільярди доларів.

Що стосується бізнес-моделі Linux і Red Hat, то це схоже на аналогію з Curiosity Daily. У певному сенсі ядро Linux з відкритим кодом схоже на безкоштовний і відкритий рецепт, а Red Hat схоже на ресторан. Люди все ще готові піти до ресторану, щоб скуштувати оброблені страви та насолодитися уважним обслуговуванням. Red Hat надає підприємствам операційні системи Linux і послуги за передплатою. Основні послуги включають: 1. Цілодобову технічну підтримку 24*7, 2. Співпраця з вищими спільнотами та виробниками апаратного забезпечення для підтримки широкого діапазону апаратних архітектур, таких як x86, ARM, IBM Power тощо; 3. Постійні сповіщення про вразливості, напрямки та послуги автоматичного відновлення; 4. Розгортання в кількох хмарах; 5. Функції захисту безпеки, такі як виправлення ядра в реальному часі та стандартна сертифікація безпеки; 6. Виявлення аномалій продуктивності та збірка комплексне уявлення про продуктивність системи та застосування попередньо встановлених профілів налаштування тощо.

2.3.2 Система Android (Android): підтримується Google, монетизується за допомогою реклами

Згідно з даними Statcounter, станом на квітень 2023 року Android (Android) є мобільною операційною системою номер один у світі з часткою ринку 69%, що значно перевищує друге місце (iOS, 31%). Android розроблений на основі ядра Linux і був придбаний Google у 2005 році. Згодом Google випустив вихідний код Android згідно з безкоштовною ліцензією з відкритим кодом Apache, що дозволило виробникам швидко випускати смартфони з Android, що прискорило популярність Android.

Що стосується бізнес-моделі, багато служб, попередньо встановлених на телефонах Android, надаються власними продуктами Google, такими як карти, магазин додатків Google Play, пошук і Google Mail (Gmail). Тому, хоча Android є безкоштовним із відкритим кодом, Google все ще може використовувати свій Мобільний ринок «облягає міста та території» та монетизує трафік користувачів.

Google також стягує ліцензійну плату безпосередньо з виробників мобільних телефонів Android. Починаючи з 29 жовтня 2018 року виробники з ЄС, які використовують мобільні телефони та планшети на базі Android, повинні сплачувати Google ліцензійну плату за кожен пристрій. Обладнання може коштувати до 40 доларів США.

2.4 Основна ліцензія великої моделі з відкритим кодом підтримує комерційне використання

Спільнота з відкритим кодом вже має добре відомі ліцензії, такі як GPL, BSD і Apache. Що стосується великих моделей, ми помітили, що LLaMA, яка була випущена в лютому 2023 року і очолила хвилю великих моделей з відкритим кодом, заборонена для комерційного використання та може використовуватися лише для досліджень. MetaAI буде надано державним службовцям, членам соціальних груп, академічного персоналу та галузевих дослідницьких експериментів відповідно до конкретних обставин кімната, доступ до моделі. Серед них код міркування LLaMA базується на ліцензії GPL3.0, що означає: 1) після того, як інші модифікують код міркування LLaMA, вихідний код не може бути закритий; 2) новий код також має прийняти ліцензію GPL. Однак ми помітили, що деякі розробники розробили варіанти моделей на основі LLaMA з різними типами ліцензій. Наприклад, впровадження Lit-LLaMA на основі LLaMA від nanoGPT додає деякі ваги моделі, а ліцензія, яка використовується цією частиною моделі, — Apache2.0.

**Протоколи, прийняті великою моделлю з відкритим вихідним кодом, це в основному ліцензії Apache 2.0 і MIT. **Alpaca, Vicuna, Dolly, OpenAssistant і MOSS знаходяться під ліцензією Apache 2.0, а Koala і GPT4 — під ліцензією MIT. Обидві ліцензії дозволяють комерційне використання. На жаль, Alpaca, Vicuna, Koala та GPT4all не є комерційно доступними через обмеження OpenAI або LLaMA. Водночас варто зазначити, що як ліцензії Apache2.0, так і MIT дозволяють змінювати вихідний код, а потім закривати.Компанія може розробити власну модель на основі моделі з відкритим вихідним кодом, або вона буде більш привабливою для компанія.

3. Загальна точка 2: велика модель з відкритим вихідним кодом з невеликою кількістю параметрів і мініатюризацією

«Розмір параметрів моделі» позитивно пов’язаний із «вимогами моделі до обчислювальної потужності».

3.1 Наскільки великі супервелика модель і велика модель?

**Попереднє навчання надає моделі базові можливості. **У обробці природної мови (NLP) попереднє навчання стосується навчання мовної моделі на великому текстовому корпусі перед тонким налаштуванням конкретного завдання, надаючи моделі основні можливості розуміння мови. Під час попереднього навчання модель навчається передбачати наступне слово в реченні на основі попереднього контексту. Це можна зробити, замаскувавши деякі слова у вхідних даних і попросивши модель передбачити їх, або за допомогою методів авторегресії (таких як GPT), коли наступне слово передбачається на основі попередніх слів у реченні.

Модель попереднього навчання зазвичай включає велику кількість параметрів і відповідних даних попереднього навчання (зазвичай вимірюється кількістю ідентифікаторів, а саме токенів). У 2017 році поява моделі Google Brain Team Transformer (трансформер) повністю змінила обличчя НЛП, дозволивши моделі краще розуміти та обробляти мову, а також підвищити ефективність і точність завдань НЛП.

**Наскільки великі дуже велика модель і велика модель? **Розмір мовної моделі вимірюється відповідно до її кількості параметрів, які в основному описують регульоване значення міцності зв’язку між нейронами. В даний час параметри великих мовних моделей зазвичай коливаються від десятків до десятків мільярдів.Ті, що мають понад 100 мільярдів параметрів, називаються "надвеликими моделями", наприклад GPT-3 (175 мільярдів параметрів).

3.2 Надвелика модель GPT має найсильнішу здатність, але її важко відтворити

** Критерії оцінки продуктивності великих моделей не уніфіковані. **Важливою причиною є те, що існує багато типів завдань для великих моделей для створення вмісту, і різні сценарії застосування та завдання можуть вимагати різних показників і методів для оцінки ефективності моделі. Деякі з цих завдань можуть мати дуже надійні стандарти оцінювання, наприклад BLEU у машинному перекладі, але більшість завдань не мають подібних стандартів.

** Нечіткий консенсус полягає в тому, що дуже великі моделі працюють добре. **Поточна тенденція розвитку великої мовної моделі стає все більшою (детальніше див. малюнок нижче), оскільки велика модель має кращу універсальність і стабільність після попереднього навчання. Наприклад, надвелика модель команди Google PaLM (540 мільярдів параметрів) має хороші результати як у тестах з нульовою вибіркою, так і в тестах з малою вибіркою (докладніше див. на малюнку нижче), і її продуктивність може покращитися, оскільки кількість ідентифікаторів навчання збільшується. Це неважко зрозуміти. Простіше кажучи, чим більше моделей ви побачите, тим більше дізнаєтеся.

** «Peer Review», велика модель на основі GPT «Peerless Beauty». **Наразі надвелика модель системи OpenAI GPT має потужні можливості та широкий спектр застосувань. Вона має високу точність і виразність під час виконання завдань природної мови. Вона використовується в багатьох сферах, таких як генерація тексту, питання системи автовідповідача та машинний переклад Усі вони досягли чудових результатів і стали одним із поточних еталонів у сфері обробки природної мови, а також використовуються як еталони порівняння різними великими моделями. Поріг для відтворення ChatGPT не було знижено. Більшість великих моделей з відкритим кодом працюють краще лише в деяких аспектах, а загальна якість все ще непорівнянна з ChatGPT. Це ще належить побачити.

Нещодавно ми також помітили наступні системи оцінювання. Методи оцінювання в основному включають машинне автоматичне оцінювання (наприклад, за допомогою GPT4), людське сліпе оцінювання тощо. Ми зосередимося на деяких із них та їхніх результатах оцінювання, але незалежно від системи оцінювання , система GPT. Великі моделі — усі першокласні.

за кордоном
Chatbot Arena університету Берклі використовує механізм кваліфікації гри, щоб дозволити людям сліпо оцінювати моделі в парах;
Набір інструментів Zeno Build з відкритим кодом через Hugging Face або онлайн-API використовує Critique для оцінки кількох великих моделей.
За кордоном
SuperCLUE — це всеосяжний еталонний тест для китайських великих моделей загального призначення, який намагається автоматично оцінити великі моделі;
C- 14 000 запитань із варіантами відповідей, що охоплюють 52 теми, використовуються для оцінки китайської мови моделі. Подібні стандарти все ще потребують часу та тестування на ринку.

3.2.1 Vicuna: Оцінка за допомогою GPT-4

**На даний момент продуктивність більшості великих моделей з відкритим кодом систематично не оцінювалася, а інші знаходяться на початковій стадії експериментування. **Серед великих моделей з відкритим кодом для оцінки ефективності оцінка за допомогою GPT-4 у звіті Vicuna є відносно систематичною, а результати є найбільш вражаючими.

3.2.2 Оцінка збірки Zeno: новіша та повніша

Zeno Build оцінив сім моделей GPT-2, LLaMA, Alpaca, Vicuna, MPT-Chat, Cohere Command і ChatGPT (gpt-3.5-turbo), і результати були подібні до результатів GPT-4. ChatGPT має явну перевагу, а Vicuna працює найкраще серед моделей з відкритим кодом.

3.2.3 C-: Комплексний набір для оцінки базової китайської моделі

C- Результати оцінювання показують, що навіть з точки зору китайської здатності GPT-4 є найкращим, але GPT-4 може досягти лише правильного показника 67%. Наразі китайська здатність обробки великої моделі все ще є значною простору для вдосконалення.

3.2.4 Витрати на навчання надвеликої моделі GPT високі, і її важко відтворити в короткостроковій перспективі

**ChatGPT вимагає значної обчислювальної потужності та витрат на навчання. **Не враховуйте обчислювальну потужність, необхідну для процесу міркування, який тісно пов’язаний із повсякденною діяльністю, враховуйте лише процес навчання, відповідно до розрахунків у статті «Мовні моделі мало хто вивчає», GPT-3 попереднього покоління ChatGPT. (175 мільярдів параметрів версії) Необхідна обчислювальна потужність становить 3640 PF-днів (тобто, якщо один квадрильйон операцій з плаваючою комою виконується за секунду, її потрібно обчислити протягом 3640 днів), і відомо, що обчислення потужність однієї відеокарти Nvidia A100 становить приблизно 0,6 PFLOPS, тоді тренуйте GPT-3 один раз (версія 175 мільярдів параметрів), потрібно близько 6000 графічних карт Nvidia A100. Якщо врахувати втрату з’єднання, потрібні близько десятків тисяч A100 Ціна одного чіпа A100 становить близько 100 000 юанів, а у масштабне навчання потрібно інвестувати близько 1 мільярда юанів. OpenAI витратив понад 4 мільйони доларів на навчання GPT-3 (175 мільярдів параметрів), а також для підтримки роботи ChatGPT і GPT4 (кількість параметрів не повідомляється, очікується, що вона буде більшою), що теоретично більше кожного місяць.

3.3 Великі моделі з відкритим вихідним кодом є економічно ефективними, і бар’єри для великих моделей нижче надвеликих моделей зникають

**Тенденція мініатюризації великих моделей з відкритим кодом очевидна, а параметри сягають десятків мільярдів Зменшення собівартості – ось сенс питання. **Великі моделі з відкритим кодом зазвичай мають менше параметрів і вимагають відносно низьких ресурсів і витрат на проектування, навчання та розгортання. Параметри цієї хвилі великих моделей з відкритим кодом, як правило, невеликі, на рівні від одного до десяти мільярдів.

«Човен маленький і його легко розвернути», точне налаштування на основі існуючої моделі попереднього навчання з відкритим кодом також є однією з переваг великої моделі з відкритим кодом. Тонке налаштування та оптимізація на основі попередньо навченої моделі для адаптації до різних завдань і сценаріїв застосування, цей метод може не тільки значно скоротити час навчання та вартість моделі, але й покращити продуктивність і ефективність моделі.

**З додатковими навчальними даними ідентифікаторів і новими технологіями бар’єри для великих моделей нижче надвеликих моделей, як правило, зникають. **LLaMA є «відкритим кодом», тому кожен має велику модель, яку можна використовувати, а з розвитком таких технологій, як DeepSpeed і RLHF, десятки мільярдів моделей можна розгорнути на графічних процесорах споживчого рівня.

Більше даних про навчання ідентифікаторів може бути важливішим, ніж більше параметрів: дослідження DeepMind «Training Compute-Optimal Large Language Models», опубліковане 29 березня 2022 року, показує нам, що розмір моделі Співвідношення між і розміром навчальних даних:
Великі моделі часто недостатньо навчені, що призводить до великої втрати обчислювальної потужності.
Більш повне тренування з меншими моделями може досягти кращої продуктивності, ніж більші моделі. Наприклад, модель Chinchilla від DeepMind має лише 70 мільярдів параметрів.Після навчання з набором навчальних даних із 1,4 трильйона ідентифікаторів результат тестування кращий, ніж у Gopher від DeepMind (280 мільярдів параметрів, 300 мільярдів набору навчальних даних ідентифікаторів) і GPT OpenAI. -3 (175 мільярдів параметрів, 300 мільярдів ідентифікаторів навчального набору даних).
Щоб досягти кращої продуктивності моделі, кожного разу, коли кількість параметрів моделі подвоюється, розмір набору даних для навчання ідентифікаторів також має відповідно подвоюватися.
Менші моделі також означають менші витрати на тонке налаштування та логічні висновки.
Технологія DeepSpeed : дозволяє значно скоротити час і вартість навчання великих моделей;
RLHF (навчання з підкріпленням на основі зворотного зв’язку людини): може покращити продуктивність і точність моделі за допомогою невеликого навчання ідентифікатора.

По-четверте, третє спільне: великі набори даних із відкритим вихідним кодом надають значення людським інструкціям і стоять самостійно

«Розмір набору даних» також позитивно пов’язаний з «обчислювальною потужністю, необхідною для моделі».

4.1 Вивчіть методологію ChatGPT і ознайомтеся з набором даних інструкцій для людей

**Налаштування — це швидкий шлях для покращення конкретної продуктивності. **Тонке налаштування стосується подальшого невеликого навчання на попередньо навченій моделі з використанням набору даних для конкретного завдання з позначеними даними. Тонка настройка може зробити модель більш адаптованою до даних і сценаріїв, що стосуються конкретного завдання, за невеликих витрат на обчислювальну потужність, тим самим підвищуючи продуктивність і точність моделі. Наразі тонке налаштування — це здебільшого тонке налаштування інструкцій, і набори даних інструкцій поступово стали стандартною конфігурацією великих моделей з відкритим кодом.

RLHF (Reinforcement Learning from Human Feedback, Reinforcement Learning from Human Feedback, навчання з підкріпленням на основі зворотного зв’язку людини) — це новий метод тонкого налаштування, який використовує методи навчання з підкріпленням для навчання мовних моделей і коригує вихід моделі на основі зворотного зв’язку людини. RLHF (навчання з підкріпленням на основі зворотного зв’язку людини) — це функція, якої немає в ранній версії ChatGPT GPT3, завдяки чому InstructGPT лише з 1,3 мільярда параметрів демонструє кращу автентичність, нешкідливість і людські інструкції, ніж GPT-3 із 175 мільярдами параметрів. Ступінь відповідності більш визнаний анотаторами без шкоди для впливу GPT-3 на аспект академічної оцінки.

RLHF (Reinforcement Learning Based on Human Feedback) поділяється на три етапи: 1) Контрольоване тонке налаштування (SFT): дозвольте анотатору відповідати на запитання людини та використовуйте ці дані анотації для навчання GPT; 2) Навчання моделі винагороди (RM): Нехай анотатор Сортує відповіді машини, у порівнянні з генеративним маркуванням, у якому анотатор безпосередньо записує відповідь на першому кроці, вартість сортування як дискримінаційної мітки нижча. Використовуйте цю мітку для навчання моделі та дозвольте їй імітувати 3) Немає анотованої, точно налаштованої моделі з проксимальним алгоритмом оптимізації політики (PPO).

Розміри наборів даних, що відповідають цим трьом крокам, становлять 13 000, 33 000 і 31 000 відповідно.

Для компаній з великим обсягом даних і певною обчислювальною потужністю використання власних даних для тонкого налаштування може продемонструвати можливості спеціалізації моделі та використовувати менше обчислювальної потужності для досягнення ефекту, близького до великої моделі. Наприклад, мовна модель Vicuna, спільно розроблена кількома школами на основі моделі версії параметрів LLaMA-13 мільярдів Meta, налагодила діалогові інструкції ChatGPT, якими поділилися 70 000 користувачів, і досягла 92% ефекту GPT4 у деяких завданнях. . Він не може перевершити супервелику модель з точки зору універсальності та стабільності, але він може посилити свої можливості в деяких аспектах за допомогою тонкого налаштування.Економічні характеристики вищі, і він більше підходить для малих і середніх компаній.

4.2 Набори даних для комерційного використання

Набори даних є важливою основою та підтримкою для розробки мовних моделей і зазвичай збираються, організовуються або безпосередньо купуються компаніями чи організаціями. Навпаки, набори даних з відкритим вихідним кодом здебільшого спільно підтримуються спільнотою чи академічними колами, їх обсяг і типи даних більші, але можуть виникати певні проблеми з якістю даних і відмінності у застосуванні.

4.2.1 Невелика кількість наборів даних перед навчанням є комерційно доступною

**Відкритий код набору даних перед навчанням дуже важливий для комерційного використання моделі. ** В епоху після LLaMA великі моделі з відкритим кодом виникали як гриби після дощу, але незабаром усі виявили, що через обмеження LLaMA та OpenAI моделі на їх основі недоступні для продажу (Alpaca, Koala, GPT4All, Vicuna), щоб подолати цю ситуацію, Dolly2.0 взяла на себе ініціативу: «Щоб вирішити цю проблему, ми почали шукати шляхи створення нового, незабрудненого набору даних для комерційного використання. ’ а потім Red Pyjama та MOSS.

4.2.2 Частина набору даних інструкцій є комерційно доступною

**Створіть екологію з відкритим кодом, кожен бере те, що йому потрібно. **У ранніх проектах з відкритим кодом, через дані інструкцій і переважно з генерації ChatGPT або вмісту діалогів, він не був комерційно доступним через обмеження OpenAI. На додаток до тонкого налаштування для дослідницьких цілей, все більше і більше моделей вирішують створювати власні набори даних інструкцій, щоб обійти це обмеження.

**Набори даних інструкцій різноманітні, і набори даних інструкцій для деяких моделей є комерційно доступними. **Згідно з наведеною вище класифікацією великих моделей у цій партії, за винятком LLaMA, моделей, розроблених на основі LLaMA, і StableLM з використанням наборів даних інструкцій OpenAI, набори даних інструкцій інших великих моделей не базуються на OpenAI, тому ці комерційні наявність наборів даних інструкцій для великих моделей прискорить еволюцію та розробку таких великих моделей з використанням парадигми навчання RLHF (Reinforcement Learning with Human Feedback).

5. Outlook

Ми помітили, що мегамоделі з відкритим кодом прямують до подібного перетину.

5.1 Мультимодальність: стимулювання розвитку загального штучного інтелекту (AGI)

**Почали з’являтися мультимодальні великі моделі з відкритим вихідним кодом, які підштовхують великі моделі до нової кульмінації та допомагають людям рухатися до загального штучного інтелекту. Мультимодальність означає інтеграцію різних режимів, таких як зображення, звуки та тексти. Мультимодальні моделі базуються на методах машинного навчання, які можуть обробляти й аналізувати кілька типів вхідних даних, що робить великі моделі більш універсальними. Спираючись на багатодоменні знання, побудуйте уніфіковану багатосценарну та багатозадачну модель і сприяйте людям в еру загального штучного інтелекту (AGI). **

Дебют 5.1.1 ImageBind, який використовує зображення для відкриття 6 режимів

** Велика модель ImageBind з відкритим вихідним кодом може вийти за рамки одного чуттєвого досвіду, дозволяючи машинам мати можливість «асоціюватися». ** 9 травня Meta Corporation анонсувала мультимодальну велику модель із відкритим кодом ImageBind. Модель використовує зображення як ядро та може підключатися до 6 режимів, включаючи зображення (картинка/відео), температуру (інфрачервоне зображення), текст, аудіо, інформацію про глибину (3D), датчик захоплення руху (IMU). Відповідний вихідний код розміщено на GitHub. Команда повідомила, що в майбутньому також будуть додані такі модальності, як дотик, нюх і сигнали магнітного резонансу мозку.

Технічно ImageBind використовує мережеві дані (наприклад, зображення, текст) і поєднує їх із природними парними даними (наприклад, аудіо, інформацією про глибину тощо) для вивчення єдиного спільного простору для вбудовування, щоб ImageBind неявно поєднував текст. Вбудовування узгоджуються з іншими модальностями, уможливлюючи нульове розпізнавання цих модальностей без явного семантичного чи текстового сполучення.

Типові випадки використання ImageBind наразі включають: введення в модель звуку гавкання собаки, модель виводить зображення собаки і навпаки; введення в модель зображення птаха та шуму океанських хвиль, а модель виводить зображення птаха на березі моря, і навпаки.

5.1.2 Багатомодальне дослідження великих моделей з відкритим кодом зосереджується на зображеннях, але прогрес є швидким

Наразі вивчення мультимодальності у великих моделях із відкритим вихідним кодом все ще перебуває в зародковому стані. За винятком ImageBind, який відкрив шість модальностей, більшість із них усе ще досліджують поєднання тексту та зображень, але швидкість досить висока. Ми відсортував деякі з них.

VisualGLM-6B: можливість локального розгортання на споживчих відеокартах

Команда: VisualGLM-6B — це мультимодальна оновлена версія великої мовної моделі ChatGLM-6B з відкритим кодом, яка підтримує зображення китайською та англійською мовами, і була випущена Групою розробки знань та аналізу даних Університету Цінхуа. *Технологія: VisualGLM-6B є комбінацією мовної моделі ChatGLM-6B і моделі зображення BLP2-Qformer.Параметри після комбінації двох становлять 7,8 мільярда (6,2 мільярда + 1,6 мільярда). Набір даних перед навчанням, який використовує модель, складається з 30 мільйонів високоякісних пар «китайське зображення-текст» і 300 мільйонів «англійське зображення-текст» у наборі даних CogView. На етапі тонкого налаштування модель навчається на довгому візуальному наборі даних із відповідями на питання, щоб генерувати відповіді, які відповідають уподобанням людини.
Продуктивність: згідно з DataLearner, VisualGLM-6B інтегрує технологію квантування моделі, і користувачі можуть розгортати моделі локально на відеокартах споживчого класу.Рівень квантування INT4 вимагає лише 8,7 ГБ відеопам’яті. Це означає, що навіть користувачі з ігровими ноутбуками можуть швидко та конфіденційно розгорнути модель, вперше для ChatGPT-подібної моделі такого розміру.

UniDiffuser: UniDiffuser, система імовірнісного моделювання, розроблена для мультимодальності

Команда: команда TSAIL під керівництвом професора Чжу Цзюня з факультету комп’ютерних наук Університету Цінхуа 12 березня опублікувала статтю «Один трансформатор підходить для всіх розподілів у мультимодальній дифузії в масштабі» та провела кілька мультимодальних досліджень.
Технологія: UniDiffuser прийняв мережеву архітектуру U-ViT на основі трансформатора, запропоновану командою, і навчив модель з одним мільярдом параметрів на версії з 5 мільярдами параметрів великомасштабного набору графічних даних LAION з відкритим вихідним кодом, дозволяючи йому бути високим -якість виконання різноманітних завдань генерації.
Функція: Простіше кажучи, на додаток до одностороннього vin-генерованого графіка, модель також може реалізовувати кілька функцій, таких як генерований графом текст, спільне створення граф-тексту, безумовне створення граф-тексту, переписування граф-тексту тощо ., і реалізує взаємне перетворення між довільними режимами .

LLaVA: продуктивність деяких інструкцій порівнянна з GPT-4

Команда: LLaVA, спільне виробництво Університету Вісконсіна-Медісон, Microsoft Research і Колумбійського університету, має відкритий код, моделі та набори даних на GitHub.
Техніка: LLaVA — це наскрізна мультимодальна велика модель, яка поєднує відеокодер і велику мовну модель для загального бачення та розуміння мови.
Функція:
Текстові завдання: LLaVA може обробляти й аналізувати текст, дозволяти користувачам ставити запитання, спілкуватися з ними в чаті або виконувати завдання, введені користувачами, такі як вилучення резюме документів, аналіз настроїв, розпізнавання об’єктів тощо.
Завдання на основі зображень: LLaVA може аналізувати зображення, описувати зображення, виконувати розпізнавання об’єктів, аналізувати та розуміти сцени.
Продуктивність: перші експерименти показують, що можливості мультимодального чату LLaVA інколи можуть виводити продуктивність, порівнянну з GPT-4 на невидимих зображеннях/командах, і порівнянну з GPT-4 на синтетичних мультимодальних наборах даних із дотриманням команд, отримавши відносну оцінку 85,1%.

MiniGPT-4: мультимодальна велика модель з відкритим кодом, створена на основі LLaMA, «заміна» GPT-4 для окремих користувачів

Команда: Випуск мультимодальної великої моделі GPT-4 підштовхнув громадський ентузіазм щодо великих моделей до нової кульмінації. Однак GPT-4 не є абсолютно безкоштовним для окремих осіб. Якщо ви хочете використовувати GPT-4, вам потрібно або пройти офіційне запрошення, або оновити обліковий запис до платного. Але навіть якщо ви платите, деякі регіони не можуть придбати відповідні послуги. У цьому середовищі Деяо Чжу, Цзюнь Чен та інші з Науково-технологічного університету короля Абдулли 23 квітня випустили MiniGPT-4, метою якого є об’єднання візуальної інформації з попередньо підготовлених візуальних кодерів із передовими моделями великої мови.
Технологія: Зокрема, MiniGPT-4 використовує той самий попередньо навчений компонент зору, що й BLIP-2, який складається з ViT-G/14 і Q-Former EVA-CLIP, а за допомогою налаштування великої мовної моделі Vicuna може виконувати різні складні мови. завдання.
Функція: MiniGPT-4 може реалізувати багато способів гри, наприклад, завантажити фотографію бенкету з морепродуктами, ви можете отримати рецепт; завантажити зображення візуалізації продукту, ви можете отримати копію з товарами; HTML-код. Відповідно до відгуків людей, які ним користувалися, загальний ефект MiniGPT-4 хороший, але поточну підтримку китайської мови потрібно покращити.

mPLUG-Owl: модульна мультимодальна велика модель

Команда: mPLUG-Owl є останньою розробкою серії mPLUG Академії Alibaba DAMO. Вона продовжує ідею модульного навчання серії mPLUG і переносить великі мовні моделі в мультимодальні великі моделі.
Технологія: mPLUG-Owl використовує CLIP ViT-L/14 як базовий візуальний модуль, використовує структуру, ініціалізовану LLaMA, як текстовий декодер, і використовує структуру Perceiver Resampler, подібну до Flamingo, для реорганізації візуальних функцій. Крім того, mPLUG-Owl вперше пропонує комплексний тестовий набір Owl для оцінки інструкцій, пов’язаних із зором.
Функція: mPLUG-Owl має сильну здатність багатоповоротного діалогу, здатність аргументувати та інтерпретувати жарт. Крім того, дослідницька група також помітила, що mPLUG-Owl почав демонструвати деякі несподівані можливості, такі як асоціація кількох зображень, багатомовність, розпізнавання тексту та розуміння документів.
Продуктивність: експерименти доводять, що mPLUG-Owl перевершує BLIP2, LLaVA та MiniGPT4 у завданнях відповіді на команди, пов’язані із зором.

5.2 Спеціалізація: низька екологічна сила, точне налаштування моделі для конкретних завдань

Відкритий вихідний код великих моделей надає чудову можливість для бурхливого зростання нижньої екології.В умовах розвитку підрозділених галузей великі моделі починають розвиватися далі для конкретних завдань і змінюють життя людини. Після запуску великої моделі LLaMA з відкритим вихідним кодом почали з’являтися спеціалізовані моделі на основі попереднього навчання LLaMA, такі як Huatuo у сфері медичних консультацій.

Команда: Hua Tuo — це модель точного налаштування інструкцій LLaMa, заснована на китайських медичних знаннях. Вона добре працює на рівні інтелектуального опитування та може генерувати більш надійні відповіді з медичних знань. У біомедичній сфері опубліковані великі моделі мовних моделей працюють погано через відсутність певних корпусів медичної експертизи. 14 квітня команда з Харбінського технологічного інституту випустила Hua Tuo, інтелектуальну консультаційну модель з відкритим кодом для галузі медицини, отриману після тонкого налаштування моделі LLaMa.
Технологія: LLaMA має кілька версій, включаючи параметри від 7 до 65 мільярдів. Щоб навчатися швидше й ефективніше й заощадити витрати на навчання, Huatuo використовує версію LLaMA із 7 мільярдами параметрів як базову модель. Щоб забезпечити точність моделі у відповідях на запитання в галузі медицини, дослідники витягли відповідні медичні знання з китайського графа медичних знань CMeKG, згенерували різноманітні дані інструкцій і зібрали понад 8000 даних інструкцій для контрольованого точного налаштування. переконатися, що модель відповідає Фактична правильність питання.

Продуктивність: з точки зору продуктивності моделі HuaTuo порівнюють з трьома іншими еталонними моделями. Щоб оцінити продуктивність моделі, дослідники залучили п’ятьох професійних лікарів з медичною освітою для оцінки за трьома вимірами безпеки, зручності використання та стаціонарності (SUS). Шкала SUS змінюється від 1 (неприйнятно) до 3 (добре), де 2 означає прийнятну відповідь. Середній бал SUS показано на графіку нижче. Результати показують, що модель HuaTuo значно покращує доступність знань без шкоди для безпеки.

У майбутньому Huatuo може стати парадигмою для розробки конкретних моделей завдань після великої моделі з відкритим вихідним кодом, тобто використання невеликої великої моделі з відкритим кодом із низьким обсягом параметрів як базової моделі та навчання з даними з конкретних професійних сфер щоб отримати кращу продуктивність сегментації моделі домену.

6. Інвестиційні поради

Розробка великих моделей із відкритим кодом має далекосяжні наслідки. У цьому звіті вибрано деякі напрямки, які можуть принести користь і привернути увагу ринку.

6.1 Microsoft: поглиблена співпраця з OpenAI

Ми вважаємо, що в короткостроковій перспективі система ChatGPT залишається найефективнішою великою моделлю, і Microsoft виграє від її поглибленої співпраці.

Equity On, згідно з повідомленнями журналу «Fortune», після того, як перша партія інвесторів OpenAI відновить початковий капітал, Microsoft матиме право на 75% прибутку OpenAI, доки Microsoft не відшкодує вартість інвестицій ($13 мільярдів); Після прибутку OpenAI у 92 мільярди доларів частка Microsoft впаде до 49%. У той же час інші венчурні інвестори та співробітники OpenAI також матимуть право на 49% прибутку OpenAI, поки не зароблять близько 150 мільярдів доларів. Якщо ці обмеження будуть досягнуті, акції Microsoft та інвесторів будуть повернуті некомерційному фонду OpenAI.
Про продукт, окрім дозволу пошуковій системі Bing інтегрувати ChatGPT, у січні 2023 року Microsoft оголосила про запуск служби Azure OpenAI. Корпоративні клієнти Azure Global Edition можуть безпосередньо викликати моделі OpenAI на хмарній платформі, 5. Моделі Codex і DALL.E, незабаром після цього Microsoft оголосила про інтеграцію GPT4 у нову версію оновлення Bing і Office Copilot.

6.2 Nvidia: великі моделі з відкритим вихідним кодом створюють популярність програм, а попит на обчислювальну потужність стрімко зростає

Сервіс обчислювальної потужності – це напрямок, який має значну перевагу та впевненість у хвилі великих моделей з відкритим кодом. Він має явну передову перевагу в інтеграції програмного та апаратного забезпечення та є поточним лідером у обчислювальній потужності ШІ.

6.2.1 Попит на обчислювальну потужність надвеликих моделей підтримуватиме високі темпи зростання

Надвелика модель має надзвичайні переваги якості, і ринок продовжуватиме шукати її, а його попит на обчислювальну потужність продовжуватиме зростати. Надвеликі моделі мають сильну виразну силу та високу точність, а також мають переваги в якості, і ринок продовжуватиме шукати такі моделі. Масштаби надвеликих моделей, наборів даних і повсякденної діяльності продовжують розширюватися, а необхідна обчислювальна потужність продовжуватиме зростати.

6.2.2 Швидке наздоганяння великих моделей з відкритим кодом також сприятиме обчислювальній потужності

У короткостроковій перспективі ринок займе вичікувальну позицію щодо великих моделей з відкритим кодом. Великі моделі з відкритим вихідним кодом мають низьку універсальність і не можуть конкурувати з великомасштабними моделями за короткий проміжок часу. Крім того, наразі важко систематично оцінювати конкретну продуктивність моделей. Ринок займає вичікувальну позицію до великих моделей з відкритим вихідним кодом, чекаючи, поки вони доведуть свою ефективність і переваги.

** У середньостроковій та довгостроковій перспективі очікується, що великі моделі з відкритим кодом ще більше підвищать продуктивність, зайнявши таким чином більшу частку на ринку. **Порівняно з надвеликими моделями, великомасштабні моделі з відкритим вихідним кодом мають менші вимоги до обчислювальної потужності та легші в розгортанні. Їх також можна оптимізувати для певних професійних сфер за допомогою швидкого тонкого налаштування та інших методів, які є привабливими та практичними . У середньостроковій та довгостроковій перспективі, якщо існує велика модель з відкритим вихідним кодом, яка може наблизитися до ChatGPT або перевершити її за якістю, ринковий попит на такі моделі може швидко зрости. Відповідно, попит на цей тип обчислювальної потужності швидко зросте.

6.2.3 Catalyst: Розробка ліцензій, стандартів і системи оцінки можливостей з відкритим кодом великої моделі

Ліцензія: ми вважаємо, що довго розроблена система ліцензій у спільноті з відкритим кодом збагатила вибір розробників і допомогла великим моделям вибрати власні ліцензії, сприяючи таким чином комерційним програмам. Процвітання та розвиток великих моделей, очевидно, стимулюватиме ринковий попит на обчислювальну потужність.
Стандарти: ми очікуємо, що спільнота великих моделей також може створити стандарти, подібні до стандарту розробки Linux LSB. Належна стандартизація запобіжить надмірній фрагментації екології великих моделей. Ми з оптимізмом дивимося на постійну життєздатність спільноти з відкритим кодом для підвищення продуктивності постачальників послуг обчислювальної потужності, таких як Nvidia.
Система оцінки можливостей великої моделі: Надійна система оцінки можливостей великої моделі допоможе ринку швидко відрізнити великі моделі та сприятиме розробці треків великих моделей.

6.3 Мета: «Авангард» з відкритим вихідним кодом, переваги екології з відкритим кодом

Озираючись на історію розвитку Android, ми оптимістично дивимося на роль Google у системі «Google-Android». У цій системі Google, як розробник операційної системи Android з відкритим кодом, використовує відкритий код як інструмент стимулювати розвиток екології вгорі та вниз за течією, а також покращувати її власну експозицію послуг для кінцевих споживачів.

У зв’язку з великою моделлю ми вважаємо, що Мета LLaMA з відкритим вихідним кодом може поглибити співпрацю з наступними великими виробниками розробки моделей через LLaMA та продавати запатентовані продукти у власній системі клієнтам.

6.4 Інше

6.4.1 Edge Computing Power + Open Source Model: Landing Accelerator for AI Applications

Граничні обчислювальні потужності можуть розміщувати аргументовані обчислення на пристрої користувача, що може не тільки підвищити швидкість і ефективність обробки даних, тим самим зменшивши вартість міркувань, але й захистити конфіденційність і безпеку користувачів.

Розумний модуль: як найкраща модель для передової обчислювальної потужності, він є найбільш детермінованим і гнучким різновидом у великому обсязі майбутніх інтелектуальних продуктів. Рекомендується звернути увагу на MeiG Intelligence і Fibocom.
Edge IDC: завдяки своїм перевагам у часовій затримці та вартості, це ефективне доповнення для задоволення «сходового» розподілу обчислювальної потужності. Рекомендується звернути увагу на акції Longyu і Wangsu Technology.
Оптичний модуль: Zhongji InnoLight, Xinyisheng, Tianfu Communication, Yuanjie Technology.
Виробники традиційних комунікаційних чіпів IoT: очікується, що вони отримають вигоду від процесу зростання галузі. Рекомендується звернути увагу на: ZTE, Fii, Tsinghua Unigroup, Ruijie Networks, Feiling Kesi, Aojie Technology, Chuling Information.

6.4.2 Компанії, що займаються великими даними: з оптимізмом дивляться на поєднання «великої моделі з відкритим кодом + масивних даних у власній власності»

Для підприємств, які «мають багато даних, але недостатню обчислювальну потужність», використання власних даних для повного попереднього навчання та тонкого налаштування комерційних моделей з відкритим кодом є економічно ефективнішим. Це може підвищити точність і застосовність моделі, а також може значно скоротити час і вартість навчання моделі. Крім того, налаштована модель може краще відповідати конкретним потребам і бізнес-сценаріям підприємства, тим самим підвищуючи конкурентоспроможність та інноваційні можливості підприємства. З безперервним розвитком і популяризацією технологій незалежні моделі точного налаштування стали важливим засобом для підприємств, щоб використовувати власні дані для швидкої реалізації інтелектуальних програм.

6.4.3 Постачальник послуг великої моделі з відкритим вихідним кодом: перш за все послуга

Озираючись на історію розвитку Red Hat, ми вважаємо, що навіть якщо велика модель вступає в еру відкритого вихідного коду, цілодобові послуги, орієнтовані на клієнта, залишаються важливими, особливо для підприємств. Ми оптимістично дивимося на постачальників послуг великої моделі з відкритим кодом.

6.4.4 Apple: отримайте частку доходу від програми ChatGPT

ChatGPT розміщено в App Store, і згідно з практикою App Store, Apple отримає частку доходу.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

0/400

Немає коментарів

Тема
#Gate Releases August Reserves Report
9k Популярність
#BTC Hits New ATH
97k Популярність
#Show My Alpha Points
126k Популярність
#ETH Countdown To A New High
6k Популярність
#Circle Launches ARC
4k Популярність

Закріпити

карта сайту