Китайский стартап в области искусственного интеллекта DeepSeek вызвал волну обсуждений в Кремниевой долине и на Уолл-стрит, представив модели ИИ, которые по своим возможностям сопоставимы с разработками OpenAI, но при этом требуют значительно меньших затрат на обучение и энергопотребление.
На прошлой неделе компания из Ханчжоу, основанная чуть более года назад, опубликовала результаты своей новой модели с открытым исходным кодом — DeepSeek-R1. Эта модель продемонстрировала производительность, сравнимую с моделями OpenAI, такими как o1-mini и o1. При этом затраты на обучение и разработку DeepSeek-R1 составили всего $5,6 млн, в то время как американские конкуренты, такие как OpenAI и Meta, тратят десятки миллиардов долларов на передовые чипы от Nvidia.
Эти новости спровоцировали массовую распродажу акций технологических компаний. 27 января фьючерсы на индексы Nasdaq, Dow Jones Industrial Average и S&P 500 показали значительное снижение.
Что такое DeepSeek?
DeepSeek — это китайский стартап в сфере искусственного интеллекта, основанный в 2023 году Ляном Вэньфэном, соучредителем хедж-фонда High-Flyer. Компания специализируется на разработке моделей ИИ с открытым исходным кодом, что позволяет разработчикам свободно использовать и модифицировать их программное обеспечение.
Что представил DeepSeek?
На прошлой неделе DeepSeek анонсировала свои языковые модели первого поколения — DeepSeek-R1-Zero и DeepSeek-R1. По словам компании, предыдущая модель была обучена с использованием крупномасштабного обучения с подкреплением, что позволило ей демонстрировать «замечательные мыслительные способности», хотя и с некоторыми ограничениями в области «разборчивости» и поддержки нескольких языков.
Мобильное приложение DeepSeek, основанное на ИИ, быстро стало лидером по загрузкам в App Store от Apple. Однако наплыв пользователей привел к сбоям на сайте компании, что вынудило временно ограничить регистрацию новых пользователей.
Чат-бот DeepSeek работает на базе модели DeepSeek-V3, которая, по заявлениям компании, по производительности сравнима с Llama 3.1 от Meta и GPT-4o от OpenAI. В отличие от ChatGPT, DeepSeek объясняет свои ответы, что делает его более прозрачным для пользователей. Однако, как и многие китайские ИИ-решения, он избегает ответов на политически чувствительные темы, такие как Тайвань или президент Си Цзиньпин.
Как DeepSeek конкурирует с OpenAI и Meta?
Согласно данным DeepSeek, модель R1 показала результаты, сопоставимые с моделями OpenAI и Meta, в ведущих тестах, таких как AIME 2024 (оценка математических способностей) и Massive Multitask Language Understanding (MMLU, оценка общих знаний).
В рейтинге Chatbot Arena, составленном сообществом, DeepSeek-R1 занимает позицию ниже моделей Gemini 2.0 Flash Thinking от Google и ChatGPT-4o. При этом DeepSeek-V3 немного уступает моделям o1-preview и full o1 от OpenAI.
Meta, которая также разрабатывает модели с открытым исходным кодом, выразила обеспокоенность тем, что следующая версия ее флагманской модели Llama может отстать от разработок DeepSeek. Исследовательские команды Meta уже изучают модели DeepSeek в поисках способов улучшения своих технологий.
Почему акции технологических компаний падают?
DeepSeek сообщила, что для обучения своей модели V3 использовала кластер из более чем 2000 графических процессоров (GPU) от Nvidia. Это значительно меньше, чем десятки тысяч чипов, которые закупают американские компании для обучения аналогичных моделей.
Эффективность и конкурентоспособность DeepSeek ставят под сомнение необходимость таких масштабных инвестиций в чипы Nvidia. Это вызвало падение акций Nvidia и других технологических компаний.
На прошлой неделе генеральный директор Meta Марк Цукерберг заявил, что компания планирует инвестировать от $60 до $65 млрд в капитальные затраты на ИИ в 2025 году. Он также отметил, что модель Llama 4 от Meta должна стать «ведущей современной моделью» в этом году.
Тем временем OpenAI, SoftBank и Oracle объявили о плане создания инфраструктуры ИИ стоимостью $500 млрд под названием Stargate. Этот проект предполагает значительные инвестиции в развитие ИИ-технологий в США.
Влияние на ограничения США
Успех DeepSeek не только ставит под сомнение экономическую целесообразность крупных инвестиций в чипы для ИИ, но и бросает вызов усилиям США по ограничению экспорта передовых технологий в Китай.
Администрация Байдена недавно ужесточила меры экспортного контроля, направленные на ограничение поставок чипов ИИ в Китай. Новые правила включают три уровня ограничений, которые предоставляют дружественным странам полный доступ к чипам, произведенным в США, но ужесточают контроль для других.
Однако успехи DeepSeek показывают, что Китай способен создавать конкурентоспособные ИИ-решения даже в условиях ограничений, что может изменить баланс сил на мировом рынке технологий.