Компания Meta* анонсировала новое поколение моделей Llama 4, включая Scout, Maverick и Behemoth, позиционируя их как прорыв в области мультимодального ИИ. Однако, несмотря на амбиции Meta, китайский стартап DeepSeek продолжает демонстрировать превосходство в ключевых аспектах, от эффективности до специализированных возможностей. Рассмотрим, почему DeepSeek сохраняет лидерство.
1. Эффективность обучения и стоимость
DeepSeek R1, выпущенный в январе 2025 года, стал шоком для индустрии: модель превзошла Llama 3.3 Meta, будучи обученной в 10 раз дешевле — всего за несколько миллионов долларов . Для сравнения, Llama 4 Behemoth, даже находясь в стадии обучения, требует 32 тыс. GPU и FP8-точности, что значительно увеличивает затраты .
DeepSeek также спровоцировал ценовую войну в Китае, предлагая модели по $0.14 за 1 млн токенов, тогда как Llama 4 Maverick оценивается в $0.19–$0.49 . Это делает DeepSeek более доступным для малого бизнеса и разработчиков.
2. Производительность в специализированных задачах
Хотя Llama 4 Behemoth демонстрирует сильные результаты в STEM-тестах (MATH-500: 95.0), DeepSeek R1 превосходит его по ключевым метрикам:
- MATH-500: 97.3 у DeepSeek vs. 95.0 у Behemoth .
- MMLU: 90.8 у DeepSeek vs. 82.2 у Behemoth .
- Рассуждения и кодирование: DeepSeek V3.1 сохраняет лидерство в LiveCodeBench (45.8 vs. 43.4 у Maverick) .
Кроме того, Llama 4 не является специализированной моделью рассуждений, в отличие от DeepSeek R1 и OpenAI o1, что ограничивает её применение в задачах, требующих цепочек логических выводов .
3. Архитектурные инновации
Meta впервые внедрила архитектуру MoE (Mixture of Experts) в Llama 4, что повысило эффективность. Например, Maverick активирует только 17 млрд параметров из 400 млрд . Однако DeepSeek уже использовал аналогичные подходы в своих моделях, добиваясь большей производительности при меньших параметрах. Например, DeepSeek V3.1 (45.8B параметров) конкурирует с Maverick (17B активных параметров), сохраняя преимущество в точности .
4. Ограничения Meta и преимущества DeepSeek
- Геополитика: Llama 4 недоступна в ЕС из-за регуляторных ограничений, а компании с 700 млн+ пользователей должны получать спецлицензию . DeepSeek, будучи открытой моделью, свободно распространяется в Азии и других регионах.
- Мультимодальность: Llama 4 поддерживает текст, изображения и видео, но аудио не упоминается . DeepSeek фокусируется на углубленной обработке текста и логики, что критично для научных и инженерных задач.
- Этика и предвзятость: Несмотря на заявления Meta о снижении политической предвзятости в Llama 4, DeepSeek изначально проектировался как нейтральный инструмент, избегая спорных тем без ущерба для функциональности .
5. Стратегия и будущее
Meta делает ставку на открытый исходный код, но её модели остаются частично проприетарными. DeepSeek, напротив, полностью открыт и ориентирован на достижение AGI (искусственного общего интеллекта), что привлекает глобальное сообщество разработчиков .
Инвестиции Meta в инфраструктуру (2ГВт дата-центры) впечатляют, но DeepSeek доказал, что инновации возможны и при скромных бюджетах, благодаря «лабораторной» структуре и фокусу на эффективность .
Заключение
Llama 4 — важный шаг для Meta, но DeepSeek сохраняет преимущество в ключевых областях: стоимость, эффективность, специализация и открытость. Пока Meta пытается догнать конкурентов, DeepSeek задает новые стандарты, доказывая, что будущее ИИ определяется не только масштабом ресурсов, но и умением их оптимизировать.
Meta* и ее продукты (Facebook, Instagram) запрещены на территории Российской Федерации