~/wiki / новости / minimax-m3-release-msa-1m-context-multimodal

MiniMax M3 — 1M токенов, мультимодальность и frontier-кодинг в одной открытой модели

◷ 5 мин чтения 02.06.2026

Основной чат

Чат для вайбкодеров: новости, гайды, поиск исполнителей, маркетплейс и разбор реальных кейсов.

$ cd раздел/ $ join vibe dev

1 июня 2026 года шанхайская лаборатория MiniMax официально выпустила MiniMax M3 — следующую модель в серии после M2.7. API работает уже сейчас, веса и технический отчёт обещаны в течение 10 дней.

Главный тезис MiniMax: M3 — первая открытая модель, которая одновременно закрывает три frontier-задачи: кодинг уровня лидеров, контекст в 1 миллион токенов и нативный мультимодальный вход. До этого момента каждое из этих трёх свойств было либо у закрытых моделей, либо по отдельности.

Архитектура: MSA вместо полного внимания

Центральное нововведение M3 — MSA (MiniMax Sparse Attention), новый разреженный механизм внимания, разработанный специально для работы с очень длинными контекстами.

Проблема стандартного полного внимания известна: вычислительная сложность растёт квадратично с длиной контекста. Удвоили контекст — получили вчетверо больше вычислений. При 1 миллионе токенов это делает инференс неприемлемо медленным и дорогим.

MSA решает это на уровне оператора через подход «KV outer gather Q»: блоки KV-кэша служат внешним циклом, агрегируя запросы. Каждый блок читается один раз, доступ к памяти непрерывен, арифметическая интенсивность значительно выше. По данным MiniMax, MSA работает в 4+ раза быстрее открытых реализаций sparse attention (Flash-Sparse-Attention, flash-moba) на конфигурации голов M3.

На практике это даёт при контексте в 1M токенов:

  • в 9.7× быстрее стадия prefill по сравнению с M2
  • в 15.6× быстрее стадия decoding по сравнению с M2
  • вычислительные затраты на один токен — 1/20 от M2

На большинстве бенчмарков MSA показывает результаты, сопоставимые с полным вниманием — экономия достигается без заметной потери качества.

Кодинг и агентные задачи

Это основной фокус M3. Результаты на агентных бенчмарках на момент релиза:

Бенчмарк MiniMax M3
SWE-Bench Pro 59.0%
Terminal Bench 2.1 66.0%
SWE-fficiency 34.8%
KernelBench Hard 28.8%
MCP Atlas 74.2%

На SWE-Bench Pro M3 набирает 59.0% — это выше, чем 58.6% у GPT-5.5. Для открытой модели это заметный результат.

MCP Atlas (74.2%) — бенчмарк на агентное использование инструментов через MCP-протокол. Это прямо релевантно для вайбкодинга: агент с M3 должен лучше справляться с многошаговыми задачами, вызовами инструментов и восстановлением после ошибок.

Мультимодальность и управление компьютером

M3 принимает на вход текст, изображения и видео без дополнительных адаптеров — нативно, в рамках единой архитектуры. Отдельная возможность — управление десктопным компьютером как встроенная функция, не внешний плагин.

Контекст в 1M токенов открывает практические сценарии, которые раньше были недоступны: загрузить весь репозиторий целиком, передать несколько часов видео, работать с большими кодовыми базами без разбивки на чанки. API поддерживает до 1 миллиона токенов контекста, с гарантированным минимумом 512K токенов высокого качества.

Доступность и цены

M3 доступен через MiniMax Code, токен-планы и стандартный API. Открытые веса и технический отчёт обещаны примерно через 10 дней на Hugging Face и GitHub.

Цена через API: $0.60 за миллион входных токенов — одна из самых низких среди frontier-класса моделей.

Также доступен через OpenRouter (модель minimax/minimax-m3).

Что это значит для вайбкодеров

Три практических следствия релиза M3:

Весь репозиторий в контекст. 1M токенов — это ~750K слов или несколько сотен тысяч строк кода. Большинство реальных проектов помещается целиком. Агент видит весь контекст сразу, а не скользящее окно.

Дешёвый frontier-кодинг через API. $0.60 за миллион токенов при результатах выше GPT-5.5 на SWE-Bench — соотношение цена/качество заметно лучше большинства альтернатив.

Агентные петли без деградации. Одна из ключевых проблем агентов при длинных сессиях — re-prefilling при каждом вызове инструмента. Архитектура MSA специально оптимизирована для решения этой проблемы — «latency killer» в агентных циклах, когда агент многократно вызывает инструменты в растущем контексте.

## Текущий статус

API живой, можно подключать прямо сейчас. Веса и технический отчёт — в течение 10 дней с 1 июня. Когда веса выйдут, появится возможность локального запуска и файнтюнинга.

Страница модели: minimaxi.com OpenRouter: minimax/minimax-m3 Контекст: 1M токенов (гарантия 512K) Цена: от $0.60 / 1M input tokens

$ cd ../ ← назад к Новости