MiniMax M3 — 1M токенов, мультимодальность и frontier-кодинг в одной открытой модели

◷ 5 min read 6/2/2026

Main chat

A chat for vibe coders: news, guides, live cases, marketplace, and finding executors.

English translation is being prepared. Russian version is shown.

1 июня 2026 года шанхайская лаборатория MiniMax официально выпустила MiniMax M3 — следующую модель в серии после M2.7. API работает уже сейчас, веса и технический отчёт обещаны в течение 10 дней.

Главный тезис MiniMax: M3 — первая открытая модель, которая одновременно закрывает три frontier-задачи: кодинг уровня лидеров, контекст в 1 миллион токенов и нативный мультимодальный вход. До этого момента каждое из этих трёх свойств было либо у закрытых моделей, либо по отдельности.

Архитектура: MSA вместо полного внимания

Центральное нововведение M3 — MSA (MiniMax Sparse Attention), новый разреженный механизм внимания, разработанный специально для работы с очень длинными контекстами.

Проблема стандартного полного внимания известна: вычислительная сложность растёт квадратично с длиной контекста. Удвоили контекст — получили вчетверо больше вычислений. При 1 миллионе токенов это делает инференс неприемлемо медленным и дорогим.

MSA решает это на уровне оператора через подход «KV outer gather Q»: блоки KV-кэша служат внешним циклом, агрегируя запросы. Каждый блок читается один раз, доступ к памяти непрерывен, арифметическая интенсивность значительно выше. По данным MiniMax, MSA работает в 4+ раза быстрее открытых реализаций sparse attention (Flash-Sparse-Attention, flash-moba) на конфигурации голов M3.

На практике это даёт при контексте в 1M токенов:

в 9.7× быстрее стадия prefill по сравнению с M2
в 15.6× быстрее стадия decoding по сравнению с M2
вычислительные затраты на один токен — 1/20 от M2

На большинстве бенчмарков MSA показывает результаты, сопоставимые с полным вниманием — экономия достигается без заметной потери качества.

Кодинг и агентные задачи

Это основной фокус M3. Результаты на агентных бенчмарках на момент релиза:

Бенчмарк	MiniMax M3
SWE-Bench Pro	59.0%
Terminal Bench 2.1	66.0%
SWE-fficiency	34.8%
KernelBench Hard	28.8%
MCP Atlas	74.2%

На SWE-Bench Pro M3 набирает 59.0% — это выше, чем 58.6% у GPT-5.5. Для открытой модели это заметный результат.

MCP Atlas (74.2%) — бенчмарк на агентное использование инструментов через MCP-протокол. Это прямо релевантно для вайбкодинга: агент с M3 должен лучше справляться с многошаговыми задачами, вызовами инструментов и восстановлением после ошибок.

Мультимодальность и управление компьютером

M3 принимает на вход текст, изображения и видео без дополнительных адаптеров — нативно, в рамках единой архитектуры. Отдельная возможность — управление десктопным компьютером как встроенная функция, не внешний плагин.

Контекст в 1M токенов открывает практические сценарии, которые раньше были недоступны: загрузить весь репозиторий целиком, передать несколько часов видео, работать с большими кодовыми базами без разбивки на чанки. API поддерживает до 1 миллиона токенов контекста, с гарантированным минимумом 512K токенов высокого качества.

Доступность и цены

M3 доступен через MiniMax Code, токен-планы и стандартный API. Открытые веса и технический отчёт обещаны примерно через 10 дней на Hugging Face и GitHub.

Цена через API: $0.60 за миллион входных токенов — одна из самых низких среди frontier-класса моделей.

Также доступен через OpenRouter (модель minimax/minimax-m3).

Что это значит для вайбкодеров

Три практических следствия релиза M3:

Весь репозиторий в контекст. 1M токенов — это ~750K слов или несколько сотен тысяч строк кода. Большинство реальных проектов помещается целиком. Агент видит весь контекст сразу, а не скользящее окно.

Дешёвый frontier-кодинг через API. $0.60 за миллион токенов при результатах выше GPT-5.5 на SWE-Bench — соотношение цена/качество заметно лучше большинства альтернатив.

Агентные петли без деградации. Одна из ключевых проблем агентов при длинных сессиях — re-prefilling при каждом вызове инструмента. Архитектура MSA специально оптимизирована для решения этой проблемы — «latency killer» в агентных циклах, когда агент многократно вызывает инструменты в растущем контексте.

## Текущий статус

API живой, можно подключать прямо сейчас. Веса и технический отчёт — в течение 10 дней с 1 июня. Когда веса выйдут, появится возможность локального запуска и файнтюнинга.

Страница модели: minimaxi.com OpenRouter: minimax/minimax-m3 Контекст: 1M токенов (гарантия 512K) Цена: от $0.60 / 1M input tokens

MiniMax M3 — 1M токенов, мультимодальность и frontier-кодинг в одной открытой модели

Архитектура: MSA вместо полного внимания

Кодинг и агентные задачи

Мультимодальность и управление компьютером

Доступность и цены

Что это значит для вайбкодеров

## Текущий статус

AI Integration Contract Tests: How to Stabilize APIs

How to get AI to connect the API correctly the first time

Clean architecture: how not to turn a project into spaghetti

MiniMax M3 — 1M токенов, мультимодальность и frontier-кодинг в одной открытой модели

## Архитектура: MSA вместо полного внимания

## Кодинг и агентные задачи

## Мультимодальность и управление компьютером

## Доступность и цены

## Что это значит для вайбкодеров

## ## Текущий статус

Архитектура: MSA вместо полного внимания

Кодинг и агентные задачи

Мультимодальность и управление компьютером

Доступность и цены

Что это значит для вайбкодеров

## Текущий статус