В августе 2025 года китайская компания DeepSeek представила DeepSeek V3.1 — обновлённую открытую LLM, способную конкурировать с лучшими мировыми моделями. Сочетание низкой стоимости обучения, высокой мощности и гибкости сделало её важным шагом в развитии направления «AI Китай».
Технические характеристики модели
DeepSeek V3.1 имеет сразу несколько ключевых особенностей:
- 685 млрд параметров — масштаб, сопоставимый с топовыми закрытыми системами.
- Контекстное окно 128 000 токенов — поддержка длинных диалогов и анализа больших документов.
- Форматы тензоров BF16, F8, F32 — оптимизация под разные режимы вычислений.
- Mixture-of-Experts (MoE) — выбор активных экспертов сокращает нагрузку и снижает стоимость работы модели.
- Формат Safetensors — безопасное и простое развёртывание.
Благодаря этому DeepSeek V3.1 стала удобным инструментом для бизнеса, исследований и стартапов.
Эффективность и стоимость обучения
Предыдущая версия — DeepSeek V3 — обучалась за 2,8 миллиона GPU-часов с использованием Nvidia H800, что обошлось в 5,6 млн долларов. Для сравнения, сопоставимые западные модели стоили в 10–15 раз дороже.
DeepSeek V3.1 унаследовала эту стратегию — высокая производительность при доступной цене. Это делает её особенно привлекательной для компаний, которые хотят внедрить AI, но не имеют миллиардных бюджетов.
DeepSeek на фоне мировой конкуренции
На рынке ИИ Китай активно демонстрирует амбиции. Выход DeepSeek V3.1 стал знаковым событием:
- В тестах reasoning-задач модель сопоставима с GPT-4o и Claude 3.5 Sonnet.
- По качеству генерации кода V3.1 сравнима с Claude, но работает быстрее.
- В математических задачах показывает уровень OpenAI O1 Mini и превосходит многие открытые LLM.
Таким образом, DeepSeek V3.1 укрепляет позиции Китая как ведущего игрока в глобальной AI-гонке.
Практические применения модели
1. Кодогенерация
Одна из сильных сторон — генерация кода. Модель не только пишет программы, но и умеет исправлять ошибки, оптимизировать скрипты и предлагать варианты реализации.
2. Образование и наука
Благодаря расширенному контексту, DeepSeek V3.1 применяется для обработки больших текстов, написания научных обзоров, генерации задач и объяснения решений.
3. Бизнес-аналитика
Компаниям модель помогает анализировать документы, создавать отчёты и автоматизировать рутинные задачи.
Ограничения и вызовы
Несмотря на очевидные плюсы, у DeepSeek V3.1 есть и ограничения:
- Цензура и фильтрация — в онлайн-версии многие политически чувствительные запросы блокируются.
- Уязвимости безопасности — исследования показали, что модели DeepSeek подвержены атакам и могут выдавать нежелательные ответы.
- Зависимость от Nvidia — хотя Китай развивает Huawei Ascend, обучение V3.1 всё же прошло на американских GPU.
Значение для AI и будущего
DeepSeek уже сравнивают с «Sputnik-моментом» в AI-разработках. Если OpenAI и Anthropic делают ставку на дорогие закрытые модели, то китайская компания показывает: LLM мирового уровня может быть открытой и доступной.
DeepSeek V3.1 — это:
- мощная открытая LLM с 685 млрд параметров,
- инструмент для кодогенерации, аналитики и науки,
- символ нового этапа «AI Китай».
Модель сочетает в себе Mixture-of-Experts, низкую стоимость обучения и высокую производительность. Она уже влияет на мировой рынок и задаёт вектор развития — в сторону открытых и доступных технологий.

Ничего себе заявка… Китайцы прям вырываются вперед. Открытая модель такого калибра это очень сильный ход, который подстегнет всю отрасль. Ваще круто.
Здорово, что такая технология теперь доступна. Это может привести к созданию новых полезных приложений и сервисов и возможности для обычных пользователей.
Это правда здорово ,крутой ии)
Здорово, что такая технология теперь доступна. Это может привести к созданию новых полезных приложений и сервисов и возможности для обычных пользователей. Это отлично
В чём уникальность гибридной структуры DeepSeek V3.1, объединяющей “думающий” и “быстрый” режимы?
Вот это да, китайцы реально набирают обороты! 😮 Интересно, что у них получилось — может, скоро будем пользоваться не только ChatGPT, но и DeepSeek каждый день
Интересно наблюдать как открытые модели становятся всё мощнее. Я уже пробовал ранние версии DeepSeek для анализа документации и был удивлён скоростью. Если V3.1 ещё и код пишет лучше то это серьёзный шаг вперёд.