Китайская компания DeepSeek, специализирующаяся на разработке больших языковых моделей (LLM), объявила о выпуске экспериментальной версии своей ИИ-модели DeepSeek-V3.2-Exp, сообщает телеграм-канал «Китайская панорама».
Эта модель основана на архитектуре предшественника — DeepSeek-V3.1-Terminus, который был представлен в конце июля 2025 года и фокусировался на улучшении поддержки агентов и минимизации ошибок в многоязычном выводе.
V3.1-Terminus стал значительным шагом в развитии семейства V3, дебютировавшего в декабре 2024 года, с акцентом на гибридный режим мышления и расширение контекста.
DeepSeek-V3.2-Exp вводит инновационную технологию DeepSeek Sparse Attention (DSA), которая обеспечивает разреженное внимание на гранулярном уровне. Это позволяет:
- повысить скорость обучения и инференса (то есть использования уже обученной нейросети для получения предсказаний или выводов на основе новых, ранее не виденных данных);
- снизить потребление вычислительных ресурсов;
- ускорить генерацию текста;
- улучшить качество ответов при обработке расширенных входных данных без существенной потери производительности.
По результатам бенчмарков (анализ и сравнение полученных результатов с лучшими достижениями других компаний), модель демонстрирует сопоставимые показатели с V3.1-Terminus в различных доменах.
В компании позиционируют DeepSeek-V3.2-Exp как промежуточный этап на пути к следующему поколению архитектуры искусственного интеллекта.
Модель доступна для пользователей через официальное мобильное приложение и веб-сервис DeepSeek, а также по API для интеграции в внешние проекты.
Стоимость использования снижена: входные токены — 0,28 доллара за миллион, выходные — 0,42 доллара за миллион (по сравнению с 0,56 и 1,68 доллара для V3.1 соответственно).
СПРАВКА
Компания DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd. была основана в мае 2023 года в Ханчжоу (провинция Чжэцзян, Китай) Лян Вэньфэном, выпускником Университета Чжэцзяна по специальности «электронная инженерия» и сооснователем хедж-фонда High-Flyer, который выступает основным инвестором и владельцем компании.
High-Flyer, созданный в 2015 году, изначально фокусировался на количественном трейдинге и накоплении вычислительных мощностей, что позволило DeepSeek развиваться в условиях ограничений на экспорт AI-чипов в Китай.
С момента основания DeepSeek ориентируется на создание открытых (open-weight) LLM с акцентом на эффективность: первая модель вышла в ноябре 2023 года.
Ключевые релизы включают DeepSeek-V3 (декабрь 2024) и прорывную DeepSeek-R1 (январь 2025), которая обошла GPT-4 по ряду бенчмарков при затратах в 6 млн. долларов (против 100+ млн. для аналогов) и использовании лишь 2000 GPU.
Эти достижения вызвали глобальный резонанс, включая падение акций Nvidia на 17% и обсуждения в контексте «AI-гонки» между США и Китаем.
Компания нанимает таланты из ведущих китайских вузов, подчеркивая локальный подход, и продолжает итерации моделей под лицензией MIT для коммерческого использования.
Комментарии: