Китайская компания DeepSeek представила чат-бота с возможностью поиска данных в интернете без необходимости специальной подписки. Сервис доступен для пользователей из России.
В ноябре 2024 года DeepSeek открыла доступ к своей крупной языковой модели DeepSeek V3. Разработчики заявляют, что их чат-бот способен конкурировать с ChatGPT, а создатели компании ставят перед собой амбициозную цель — разработать «сверхразумный» искусственный интеллект. В этой статье мы расскажем, что представляет собой DeepSeek V3, какие возможности она предлагает и как с ней работать.
Содержание:
- Что такое DeepSeek V3
- Возможности модели
- Как пользоваться
- Примеры использования
Что такое DeepSeek V3
DeepSeek V3 — это большая языковая модель с открытым исходным кодом, которая включает 671 миллиард параметров и обучена на 14,8 триллионах токенов. Модель способна анализировать тексты, выполнять переводы, писать эссе и даже создавать программный код.
Особенности DeepSeek V3 заключаются в ее уникальной архитектуре и методах обучения:
- Multi-token Prediction (MTP): Модель предсказывает несколько слов одновременно, анализируя разные части предложения. Это повышает точность и производительность.
- Mixture of Experts (MoE): Используется 256 специализированных нейросетей-«экспертов», из которых для обработки каждого токена активируются восемь. Это ускоряет обучение и повышает эффективность.
- Multi-head Latent Attention (MLA): Механизм внимания, который позволяет модели выделять ключевые части текста несколько раз, минимизируя вероятность упущения важной информации.
Обучение модели заняло 2,788 миллиона часов (около двух месяцев) на графических процессорах Nvidia H800 и обошлось в 5,5миллиона.Длясравнения,OpenAIпотратила5,5миллиона.Длясравнения,OpenAIпотратила78 миллионов на обучение GPT.
Разработчики утверждают, что DeepSeek V3 превосходит GPT-4 от OpenAI, Llama 3 от Meta (запрещена в России) и Claude 3.5 Sonnet от Anthropic в задачах программирования и обработки текста.
Возможности DeepSeek V3
Модель поддерживает контекстное окно в 128 тысяч токенов, что позволяет анализировать до 300 страниц текста. Основные функции включают:
- генерацию текстов различных жанров и объемов;
- поиск информации в интернете;
- расшифровку диаграмм и объяснение изображений;
- написание и форматирование кода на языках C++, Go, Java, JavaScript, Python и Rust;
- режим DeepThink для рассуждений, аналогичный GPT.
DeepSeek V3 поддерживает множество языков, включая русский, с высоким уровнем понимания китайского и английского. Однако модель пока не может анализировать материалы по ссылкам, работая только с загруженными текстами.
Как пользоваться DeepSeek V3 в России
Доступ к модели предоставляется через:
- открытые модели на Hugging Face;
- бесплатную версию на сайте DeepSeek с контекстным окном до 32 тысяч токенов;
- API для коммерческого использования;
- локальное развертывание;
- мобильные приложения для iOS и Android.
Бесплатная версия на сайте:
- Перейдите на сайт DeepSeek и нажмите Start Now.
- Зарегистрируйтесь (можно через Google).
- Откроется диалоговое окно с чат-ботом. Доступны опции DeepThink для рассуждений и Search для поиска в интернете. Также можно загрузить до 50 файлов (до 100 МБ каждый) для анализа.
Мобильное приложение:
В декабре 2024 года DeepSeek выпустила бесплатное приложение, доступное в App Store и Google Play. После установки нужно согласиться с условиями использования, зарегистрироваться, и откроется диалоговое окно с чат-ботом.
Примеры использования DeepSeek
- Генерация текста: Модель создала статью о трендах развития нейросетей в 2025 году объемом 4,5 тысячи знаков.
- Поиск источников: DeepSeek V3 подобрала 41 англоязычный ресурс для статьи, включая arXiv, IEEEXplore и Nature.
- Анализ литературы: Чат-бот объяснил смысл предисловия к рассказу Эдгара Аллана По «Лигейя».
- Подборка афиш: Нейросеть подготовила список из десяти ресурсов с афишами культурных мероприятий Москвы.
- Театральные премьеры: DeepSeek V3 отобрала самые интересные премьеры зимнего сезона.
- Анализ текста: Модель кратко пересказала сюжет «Маленького принца», выделив главных героев и основные темы.
- Программирование: Чат-бот решил задачу по поиску минимального числа линий для построения диаграммы, предоставив алгоритм на Python и объяснение решения.
DeepSeek V3 демонстрирует высокий уровень в обработке текстов, программировании и анализе данных, оставаясь доступной для широкого круга пользователей.