Китайская компания DeepSeek представила улучшенную версию своей флагманской языковой модели DeepSeek-V3, которая демонстрирует значительный прирост производительности и эффективности. Новое обновление не только превосходит предыдущую версию в бенчмарках, но и оптимизировано для работы на менее мощных системах, включая Mac Studio.

🔥 Что нового в DeepSeek-V3?
1. Рекордная эффективность при меньших затратах
Модель использует архитектуру с выборочной активацией параметров (MoE, Mixture of Experts), что позволяет задействовать только 37 млрд параметров из 671 млрд во время работы. Это резко снижает нагрузку на вычислительные ресурсы без потери качества.
2. 4-битное квантование — экономия памяти без потерь
DeepSeek применила 4-битное квантование, что позволяет модели занимать меньше места в оперативной памяти, сохраняя высокую точность. Это особенно важно для локального запуска на устройствах с ограниченными ресурсами.
3. Лучшая производительность в программировании и математике
- Точность в задачах кодинга выросла на несколько процентных пунктов по сравнению с предыдущей версией.
- В математических тестах модель приближается к специализированным алгоритмам.
💻 Запуск на Mac Studio: 20 токенов в секунду
Научный сотрудник Apple Авни Ханнун подтвердил, что DeepSeek-V3 успешно работает на Mac Studio (M3 Ultra, 512 ГБ RAM) со скоростью >20 токенов в секунду благодаря оптимизации под MLX-LM.
«The new DeepSeek V3 0324 in 4-bit runs at >20 toks/sec on a 512GB M3 Ultra with mlx-lm!»
— Awni Hannun (@awnihannun)
Это делает DeepSeek-V3 одной из самых производительных open-source моделей, способных работать локально без облачных вычислений.
📜 Переход на лицензию MIT: свобода для разработчиков
DeepSeek официально перевела модель на лицензию MIT, что означает:
✅ Бесплатное использование (включая коммерческие проекты)
✅ Возможность модификации и перераспространения
✅ Никаких скрытых ограничений
Этот шаг усиливает позиции DeepSeek в open-source-сообществе, где модель уже сравнивают с Llama 3 и Mistral.
💰 Сколько стоило обучение модели?
В начале года DeepSeek заявила, что обучение DeepSeek-V3 обошлось всего в $6 млн, что вызвало шок на рынке (для сравнения: обучение GPT-4 оценивается в $100+ млн).
Однако позже аналитики уточнили:
- $6 млн — это только затраты на активное время GPU.
- Полная стоимость (инфраструктура, зарплаты, хранение данных) могла достигать сотен миллионов.
Тем не менее, даже с учётом этих поправок, DeepSeek остается одним из самых экономичных игроков в области больших языковых моделей.
🚀 Что дальше?
- Расширение API — модель уже доступна для корпоративных клиентов.
- Интеграция в облачные сервисы (ожидается поддержка AWS и Google Cloud).
- Публичный релиз весов модели — в ближайшие месяцы.
«DeepSeek-V3 доказывает, что open-source-модели могут быть не только дешевле, но и эффективнее проприетарных решений» — Аналитик SemiAnalysis.
Обновлённая DeepSeek-V3 — это не просто шаг вперёд, а новая веха в развитии open-source ИИ. С оптимизацией под локальные устройства, улучшенной производительностью и свободной лицензией, она становится главной альтернативой закрытым моделям вроде GPT-4o и Claude 3.
🔗 Следите за новостями DeepSeek — впереди ещё больше сюрпризов!