Хто стоїть за китайським стартапом DeepSeek і чому розробники надали вільний доступ до своєї передової ШІ-моделі DeepSeek R1? Видання WIRED поспілкувалося з експертами зі штучного інтелекту в Китаї та вивчило інтерв’ю із засновником DeepSeek Лян Веньфеном, щоб зрозуміти історію стрімкого успіху стартапу. Forbes переказує головне.
DeepSeek — відносно невідомий стартап з Китаю, що займається розробкою штучного інтелекту, 20 січня представив ШІ-модель з відкритим кодом DeepSeek R1. Його поява вже обвалила світові фондові ринки, поставивши під сумнів технологічне домінування США, писав Bloomberg. Кремнієва долина стоїть на вухах, адже результат роботи DeepSeek свідчить, що можна розробляти потужні ШІ-моделі, які коштують дешевше.
Своїми можливостями DeepSeek R1 перевершує наявні провідні ШІ-моделі, як от OpenAI o1, за кількома математичними показниками та показниками міркувань, пише WIRED. Фактично, за багатьма показниками: можливості, вартість, відкритість. Це виклик західним ШІ-компаніям. DeepSeek R1 вже піднявся на вершину чартів завантажень Apple Store.
Успіх DeepSeek — це непередбачуваний результат технологічної холодної війни між США та Китаєм, зазначає WIRED.
Експортний контроль з боку США змусив китайські фірми відмовитися від традиційного підходу до розробки ШІ-моделей, що базується на масштабуванні апаратних ресурсів. Більшість китайських компаній зосередилися на вже присутніх на ринку ШІ-моделях, а не на створенні власних. DeepSeek використав конкурентний спосіб — оптимізувати базову структуру ШІ-моделей та використовувати обмежені ресурси, пише WIRED.
«DeepSeek відрізняється фокусом на програмній оптимізації та використанні відкритого коду», — аналізує підхід стартапу Марина Чжан, доцентка Технологічного університету Сіднея. Такий підхід, на її думку, сприяє інноваціям і дозволяє стартапу виділитися серед конкурентів, які залежать від закритих систем та потужного апаратного забезпечення.
Зірковий хедж-фонд у Китаї
DeepSeek — нестандартний гравець китайської індустрії штучного інтелекту, зазначає WIRED. Компанія починала свій шлях як Fire-Flyer, дослідницький підрозділ з глибокого навчання в одному з найуспішніших хедж-фондів Китаю — High-Flyer. Заснований у 2015 році, High-Flyer став першим у країні хедж-фондом, що залучив понад 100 млрд юанів ($15 млрд). Хоча з 2021 року цей показник впав до $8 млрд, фонд залишається важливим гравцем у фінансовій сфері.
У 2023 році засновник DeepSeek Лян Веньфен, магістр з комп’ютерних наук, вирішив використати ресурси High-Flyer для створення нової компанії, яка б розробляла передові моделі штучного інтелекту з амбіціями досягти штучного загального інтелекту. Рішення було продиктоване науковою цікавістю, а не комерційною вигодою, адже інвестиції в базові дослідження мають низьку рентабельність, пояснював Лян.
На відміну від провідних китайських ШІ-компаній, DeepSeek не отримує фінансування від технологічних гігантів, таких як Baidu, Alibaba чи ByteDance, зазначає WIRED.
Молода та ідейна команда геніїв
Формуючи команду для DeepSeek, Веньфен зробив ставку на молодих науковців, а не досвідчених інженерів. До неї увійшли аспіранти провідних китайських університетів, таких як Пекінський і Цінхуа. Багато з них публікувалися у провідних журналах і мали нагороди міжнародних наукових конференцій, писало китайське технологічне видання QBitAI. Але їм бракувало досвіду роботи в галузі. Більшість із них закінчили навчання протягом останніх одного-двох років.
Такий підхід Веньфеня створив у стартапі культуру співпраці, де дослідники мали доступ до значних обчислювальних ресурсів для експериментів із нестандартними проєктами. Це кардинально відрізняється від підходу великих китайських компаній, де команди часто змагаються за ресурси.
Молоді дослідники більш схильні до високоризикованих і малоприбуткових наукових проєктів, адже на ранніх етапах кар’єри вони здатні повністю зосередитися на місії без прагматичних міркувань, зазначав Веньфень. Його основний заклик до потенційних працівників — вирішувати найскладніші завдання у світі, пояснює WIRED.
Ця нова генерація китайських дослідників має сильне відчуття патріотизму, зазначили WIRED експерти з ШІ-ринку. Їхня мотивація долати технологічні обмеження, пов’язані з американськими санкціями, відображає як особисті амбіції, так і прагнення зміцнити позиції Китаю як лідера глобальних інновацій.
Інновації, народжені в кризі
У жовтні 2022 року уряд США ввів експортні обмеження, які ускладнили доступ китайських ШІ-компаній до передових американських чипів, таких як Nvidia H100. Для DeepSeek це стало викликом: компанія мала запас із 10 000 таких чипів, але цього було недостатньо для конкуренції з OpenAI чи Meta. Ключовою проблемою для DeepSeek є не фінансування, а експортні обмеження, заявляв у 2024 році Лян Веньфен.
У відповідь DeepSeek розробила більш ефективні методи навчання ШІ-моделей. Серед застосованих підходів – оптимізація архітектури моделей, зменшення обсягу даних для економії пам’яті, вдосконалення комунікації між чипами та використання методу Mix-of-Experts, пише WIRED. Завдяки цим підходам остання ШІ-модель DeepSeek виявилася настільки ефективною, що для її навчання знадобилася лише десята частина обчислювальної потужності, необхідної для Llama 3.1 від Meta, згідно з даними Epoch AI.
DeepSeek досягла успіху в розробці Multi-head Latent Attention (MLA) та Mixture-of-Experts – технологій, які знижують потребу в обчислювальних ресурсах і роблять моделі економічно ефективнішими.
Готовність DeepSeek ділитися своїми інноваціями у відкритому доступі викликала позитивну реакцію в глобальній спільноті дослідників ШІ. Відкритість залучає користувачів і розробників, допомагаючи моделям швидше вдосконалюватися. Цей підхід демонструє, що передові моделі можна створювати за менших фінансових ресурсів, оптимізуючи чинні методи, пояснили ШІ-експерти виданню WIRED.
Ці досягнення ставлять під сумнів ефективність експортних обмежень США, адже вони можуть недооцінювати, скільки обчислювальної потужності має Китай і як ефективно він її використовує.