MiniMax M3 — 1M токенов, мультимодальность и frontier-кодинг в одной открытой модели
Main chat
A chat for vibe coders: news, guides, live cases, marketplace, and finding executors.
1 июня 2026 года шанхайская лаборатория MiniMax официально выпустила MiniMax M3 — следующую модель в серии после M2.7. API работает уже сейчас, веса и технический отчёт обещаны в течение 10 дней.
Главный тезис MiniMax: M3 — первая открытая модель, которая одновременно закрывает три frontier-задачи: кодинг уровня лидеров, контекст в 1 миллион токенов и нативный мультимодальный вход. До этого момента каждое из этих трёх свойств было либо у закрытых моделей, либо по отдельности.
Архитектура: MSA вместо полного внимания
Центральное нововведение M3 — MSA (MiniMax Sparse Attention), новый разреженный механизм внимания, разработанный специально для работы с очень длинными контекстами.
Проблема стандартного полного внимания известна: вычислительная сложность растёт квадратично с длиной контекста. Удвоили контекст — получили вчетверо больше вычислений. При 1 миллионе токенов это делает инференс неприемлемо медленным и дорогим.
MSA решает это на уровне оператора через подход «KV outer gather Q»: блоки KV-кэша служат внешним циклом, агрегируя запросы. Каждый блок читается один раз, доступ к памяти непрерывен, арифметическая интенсивность значительно выше. По данным MiniMax, MSA работает в 4+ раза быстрее открытых реализаций sparse attention (Flash-Sparse-Attention, flash-moba) на конфигурации голов M3.
На практике это даёт при контексте в 1M токенов:
- в 9.7× быстрее стадия prefill по сравнению с M2
- в 15.6× быстрее стадия decoding по сравнению с M2
- вычислительные затраты на один токен — 1/20 от M2
На большинстве бенчмарков MSA показывает результаты, сопоставимые с полным вниманием — экономия достигается без заметной потери качества.
Кодинг и агентные задачи
Это основной фокус M3. Результаты на агентных бенчмарках на момент релиза:
| Бенчмарк | MiniMax M3 |
|---|---|
| SWE-Bench Pro | 59.0% |
| Terminal Bench 2.1 | 66.0% |
| SWE-fficiency | 34.8% |
| KernelBench Hard | 28.8% |
| MCP Atlas | 74.2% |
На SWE-Bench Pro M3 набирает 59.0% — это выше, чем 58.6% у GPT-5.5. Для открытой модели это заметный результат.
MCP Atlas (74.2%) — бенчмарк на агентное использование инструментов через MCP-протокол. Это прямо релевантно для вайбкодинга: агент с M3 должен лучше справляться с многошаговыми задачами, вызовами инструментов и восстановлением после ошибок.
Мультимодальность и управление компьютером
M3 принимает на вход текст, изображения и видео без дополнительных адаптеров — нативно, в рамках единой архитектуры. Отдельная возможность — управление десктопным компьютером как встроенная функция, не внешний плагин.
Контекст в 1M токенов открывает практические сценарии, которые раньше были недоступны: загрузить весь репозиторий целиком, передать несколько часов видео, работать с большими кодовыми базами без разбивки на чанки. API поддерживает до 1 миллиона токенов контекста, с гарантированным минимумом 512K токенов высокого качества.
Доступность и цены
M3 доступен через MiniMax Code, токен-планы и стандартный API. Открытые веса и технический отчёт обещаны примерно через 10 дней на Hugging Face и GitHub.
Цена через API: $0.60 за миллион входных токенов — одна из самых низких среди frontier-класса моделей.
Также доступен через OpenRouter (модель minimax/minimax-m3).
Что это значит для вайбкодеров
Три практических следствия релиза M3:
Весь репозиторий в контекст. 1M токенов — это ~750K слов или несколько сотен тысяч строк кода. Большинство реальных проектов помещается целиком. Агент видит весь контекст сразу, а не скользящее окно.
Дешёвый frontier-кодинг через API. $0.60 за миллион токенов при результатах выше GPT-5.5 на SWE-Bench — соотношение цена/качество заметно лучше большинства альтернатив.
Агентные петли без деградации. Одна из ключевых проблем агентов при длинных сессиях — re-prefilling при каждом вызове инструмента. Архитектура MSA специально оптимизирована для решения этой проблемы — «latency killer» в агентных циклах, когда агент многократно вызывает инструменты в растущем контексте.
## Текущий статус
API живой, можно подключать прямо сейчас. Веса и технический отчёт — в течение 10 дней с 1 июня. Когда веса выйдут, появится возможность локального запуска и файнтюнинга.
Страница модели: minimaxi.com
OpenRouter: minimax/minimax-m3
Контекст: 1M токенов (гарантия 512K)
Цена: от $0.60 / 1M input tokens