Qwen3.6-35b-a3b: открытая moe‑модель для локальных ИИ‑агентов с контекстом 1 млн токенов

Alibaba представила Qwen3.6-35B-A3B - открытую MoE‑модель нового поколения для локальных ИИ-агентов с гигантским контекстом до 1 млн токенов. Это первая открытая модель линейки Qwen3.6: веса доступны, архитектура подробно описана, а требования к железу позволяют запускать её на одной мощной видеокарте при квантизации.

Что за модель Qwen3.6-35B-A3B

Qwen3.6-35B-A3B - это языково-визуальная модель на 35 млрд параметров с архитектурой Mixture of Experts (MoE) и примерно 3 млрд активных параметров на каждый сгенерированный токен. Суффикс A3B расшифровывается как Active 3 Billion: вместо того чтобы прогонять весь 35‑миллиардный блок, модель динамически выбирает ограниченный набор "экспертов".

Для локальных ИИ-агентов это сочетание даёт три ключевых преимущества:

- производительность уровня крупных проприетарных моделей;
- сниженные требования к VRAM за счёт активных 3 млрд параметров;
- возможность реальной работы с длинным контекстом до 1 010 000 токенов.

Mixture of Experts: как устроена A3B

Внутри Qwen3.6-35B-A3B работает классическая для MoE логика: есть общий "shared" эксперт и множество специализированных блоков, из которых роутер выбирает наиболее подходящие к текущему токену.

Основные факты по архитектуре MoE в этой модели:

- всего 256 экспертов;
- на каждый токен активируется 8 экспертов плюс общий;
- суммарно при инференсе задействуется около 3 млрд параметров из 35 млрд.

Это позволяет добиться высокого качества генерации, близкого к полноразмерным dense-моделям, но без обязательного требования в десятки и сотни гигабайт видеопамяти для каждого шага.

Гибридная архитектура: DeltaNet + полное внимание

Qwen3.6-35B-A3B использует гибридную структуру слоёв. Модель состоит из 10 повторяющихся блоков, в каждом из которых сочетаются:

- три последовательности Gated DeltaNet → MoE;
- одна последовательность Gated Attention → MoE.

Gated DeltaNet - вариант линейного внимания. Его задача - дешёвая по памяти и времени обработка очень длинных контекстов, где обычное квадратичное внимание становится слишком дорогим. Однако линейные приближения теряют точность в сложных фрагментах, где важны тонкие зависимости между токенами.

Поэтому часть слоёв построена на полном квадратном внимании (Gated Attention). Такие слои остаются более точными на трудных участках текста и компенсируют приближения, которые вводит линейное внимание. В сумме получается баланс:

- линейное внимание - скорость и масштаб;
- полное внимание - точность и устойчивость рассуждений.

Контекст: от 262k до 1 млн токенов

Базовый "родной" контекст модели - 262 144 токена. Уже этого достаточно для больших репозиториев, длинной технической документации или лога сложного диалога агента.

Но Qwen3.6-35B-A3B специально оптимизирована для сверхдлинных сессий. Alibaba рекомендует использовать расширение контекста через YaRN для растяжения RoPE, чтобы выйти примерно до 1 010 000 токенов:

- до 262k модель работает в базовой конфигурации;
- при росте до ~1M токенов включается RoPE-растяжение (YaRN), чтобы не потерять способность "держать в голове" хвост диалога и дальние зависимости.

Без такого растяжения на миллионном токене модель начнёт "забывать" начало и промежуточные шаги рассуждений, что критично для долгоживущих агентов.

Улучшения относительно Qwen3.5: код и рассуждения

Alibaba подчёркивает две главные линии прогресса по сравнению с Qwen3.5-35B-A3B.

1. Agentic Coding: модель как полноценный кодовый агент

В серии 3.6 акцент сделан на агентном программировании. Модель лучше справляется с задачами, где:

- нужно анализировать весь репозиторий целиком, а не один файл;
- требуется пересобирать фронтенд-воркфлоу: цепочки компонентов, роутинг, состояние;
- важно понимать архитектуру проекта и связи между модулями.

По внутренним бенчмаркам Alibaba, на задачах программирования прирост качества относительно Qwen3.5-ветки заметен именно в сценариях:

- рефакторинга крупных кодовых баз;
- пошаговой разработки фич;
- навигации по проекту в стиле "IDE-помощника".

Это делает модель особенно интересной как "мозг" для локального кодового ассистента, работающего поверх существующих IDE и инструментов.

2. Thinking Preservation: сохранение хода мыслей

Во второй ветке улучшений Qwen3.6 решена важная проблема долгих диалогов. В Qwen3.5 так называемые reasoning-токены (внутренние размышления модели) не сохранялись между шагами диалога - каждый новый запрос фактически обнулял контекст рассуждений, даже если история сообщений оставалась.

В Qwen3.6 появилась опция Thinking Preservation:

- промежуточные выводы и логические шаги могут оставаться в истории;
- сохраняется не только "что сделать", но и "почему так решить";
- это включается отдельным параметром сэмплера при инференсе.

Для агентных сценариев это критично: многошаговый агент на шаге 5 может опираться на логику, сформированную на шаге 2, а не пересобирать выводы каждый раз. В результате сценарии вроде поэтапной разработки, сложного планирования или многоходовой отладки кода становятся стабильнее и предсказуемее.

Визуально-языковая модель: Qwen3.6-35B-A3B как VLM

Qwen3.6-35B-A3B - это не только текстовая, но и Vision Language Model. Визуальный энкодер встроен прямо в архитектуру модели, что позволяет:

- читать и интерпретировать скриншоты интерфейсов;
- разбирать диаграммы из документации;
- анализировать графики, схемы, формулы на изображениях.

По внутренним замерам Alibaba, на ряде визуальных бенчмарков модель опережает закрытую Claude Sonnet 4.5, в том числе на задачах:

- мультимодального понимания (MMMU);
- визуальной математики (Mathvista);
- реальных сцен и фотографий (RealWorldQA);
- устойчивости к "галлюцинациям" в визуальных задачах (HallusionBench).

Для разработчиков агентов это особенно важно. Появляется возможность:

- локально запускать ассистента, который читает скриншоты UI и подсказывает изменения;
- строить системы, анализирующие сканы документов;
- делать агенты, проверяющие диаграммы архитектуры или блок-схемы без передачи данных в облако.

Практический кейс: "pelican on a bicycle"

Саймон Уиллисон, известный разработчик и автор утилиты для работы с языковыми моделями, прогнал Qwen3.6-35B-A3B через свой полушутливый, но популярный тест "pelican on a bicycle". Задача - сгенерировать SVG-иллюстрацию по описанию.

По его оценке, квантизованная версия модели (около 21 ГБ) на MacBook Pro M5 через локальное приложение справилась лучше, чем свежий закрытый Claude Opus 4.7 от Anthropic. Несмотря на неформальность теста, результат показателен:

- open-weight‑ветка Qwen3.6 по качеству уже сопоставима с топовыми проприетарными моделями;
- при этом остаётся возможность локального запуска без отправки данных в чужое облако.

Запуск и инференс: поддерживаемые фреймворки

Alibaba официально заявляет поддержку четырёх основных стеков инференса:

- Transformers - классический путь для гибкой интеграции и экспериментов;
- vLLM - оптимизированный сервер инференса с OpenAI-совместимым API;
- SGLang - ориентирован на высокую производительность и сложные пайплайны;
- KTransformers - ещё один вариант для ускоренного инференса.

Для развёртывания локального сервера с API, совместимым с протоколом OpenAI, наиболее удобен vLLM: он позволяет быстро поднять сервис, на который затем можно указывать IDE, агенты и инструменты разработки.

После запуска сервера модель принимает запросы по OpenAI-подобному API. Инструменты вроде Aider и Cursor могут работать с таким эндпоинтом напрямую, просто указывая соответствующий URL и ключ (если настроен).

Интеграция с Claude Code

Claude Code ожидает протокол, совместимый с Anthropic API. Поэтому для подключения Qwen3.6-35B-A3B потребуется прокси-слой, который:

- принимает запросы в формате Anthropic;
- перенаправляет их в локальный vLLM-сервер в формате OpenAI;
- конвертирует ответы обратно.

Подобный роутер превращает Qwen3.6-35B-A3B в фактическую "замену" удалённого Claude Code в сценариях, где важны приватность данных и независимость от облака.

Модель поддерживает нативный function calling, поэтому может выступать не просто генератором текста, а полноценным агентом, умеющим вызывать инструменты, API и выполнять сложные цепочки действий.

Требования к железу и квантизация

Несмотря на общий размер в 35 млрд параметров, по ресурсам Qwen3.6-35B-A3B ближе к моделям на 3-7 млрд, именно благодаря MoE-архитектуре и активации только части параметров.

Основные цифры:

- в формате BF16 модель занимает примерно 70 ГБ VRAM;
- официально доступна GPTQ-Int4 квантизация, которая помещается в 24 ГБ VRAM;
- при использовании AWQ/GPTQ и FlashAttention инференс реалистично запускать на:
- RTX 4090 (24 ГБ);
- L40S (48 ГБ);
- серверных A100/H100 - с запасом и для больших батчей.

Для максимально длинного контекста (~1 млн токенов) и пакетной обработки запросов лучше иметь:

- две карты уровня 4090/L40S,
- или серверный GPU со сверхбольшим объёмом памяти.

Но для одиночных сессий разработки, локального агента и умеренных запросов к контексту вполне достаточно одной топовой потребительской карты с квантизованной моделью.

Qwen3.6-Plus и Qwen3.6-35B-A3B: две ветки одной линейки

Серия Qwen3.6 делится на:

- Qwen3.6-Plus - закрытая коммерческая flagship-модель, доступная через API;
- Qwen3.6-35B-A3B - первая открытая версия с опубликованными весами и кодом.

Общие черты:

- единое поколение архитектуры и обучающих подходов;
- ориентированность на агентные сценарии, код и длинный контекст;
- мультимодальность (текст + изображение) на уровне, конкурентном топовым проприетарным моделям.

Отличия:

- Plus остаётся полностью облачной и проприетарной: архитектура и точные параметры не раскрываются;
- 35B-A3B - open-weight: её можно скачать, развернуть локально, модифицировать пайплайны и эксперименты.

По сути, Qwen3.6-35B-A3B - это "локальный брат" коммерческого флагмана, ориентированный на разработчиков, которым важен контроль над средой, приватность и возможность кастомизации.

Для кого пригодится Qwen3.6-35B-A3B

Модель особенно интересна следующим аудиториям:

- Разработчики локальных ИИ-агентов
Нужен "мозг" агента, который умеет:
- держать в памяти огромный контекст;
- вызывать инструменты и API;
- не терять ход рассуждений между шагами;
- работать локально, без отправки данных внешним провайдерам.

- Инженеры, строящие кодовые ассистенты
Модель способна:
- анализировать репозиторий целиком;
- понимать фронтенд- и бэкенд-воркфлоу;
- рассуждать над несколькими файлами и слоями архитектуры;
- связывать логи, конфиги, код и документацию.

- Команды, работающие с чувствительными данными
Когда код, документация, схемы и скриншоты не могут покидать периметр инфраструктуры, локальный запуск open-weight модели с визуальными возможностями становится практически единственным вариантом уровня топовых проприетарных решений.

- Исследователи и ML-инженеры
MoE-архитектура, гибридные слои внимания, поддержка длинного контекста и open-weight-формат делают модель удобной площадкой:
- для исследований по эффективности MoE;
- для экспериментов с RoPE-растяжением и контекстными трюками;
- для обучения специализированных агентных сценариев.

Что это меняет на практике

Появление Qwen3.6-35B-A3B заметно сдвигает баланс между закрытыми облачными моделями и локальными решениями:

- локальный ассистент на одной RTX 4090 перестаёт быть компромиссом по качеству - по ряду задач он догоняет или даже превосходит коммерческие модели;
- мультимодальность и длинный контекст становятся доступными без подписок и расходования кредитов;
- разработчики и компании получают больше контроля: можно строить свои пайплайны, не подстраиваясь под ограничения внешнего провайдера.

Если у вас уже есть мощная рабочая станция или серверный GPU, Qwen3.6-35B-A3B превращает его в полноценную платформу для современных ИИ-агентов: от кодовых помощников до систем, анализирующих документацию, изображения и большие массивы текстов в едином длинном контексте.

1
1
Прокрутить вверх