MiniMax выпустила M3: открытая мультимодальная модель с контекстом 1M токенов

На бенчмарках M3 показывает результаты, близкие к топовым закрытым моделям. На SWE-Bench Pro, который проверяет умение решать реальные задачи из GitHub-репозиториев, модель набирает 59,0%, на Terminal Bench 2.1 (выполнение команд в терминале) — 66,0%. Самый заметный результат — на BrowseComp, тесте на автономный веб-поиск и сбор информации: здесь M3 набирает 83,5% и опережает Claude Opus 4.7 с его 79,3%. В наборе агентных и инструментальных бенчмарков вроде MCP Atlas (74,2%) и BankerToolBench (76,1%) M3 идет вровень с лидерами, хотя на части тестов — например, на KernelBench Hard — все еще уступает закрытым конкурентам.

Длинный контекст в M3 обеспечивает собственная архитектура внимания MiniMax Sparse Attention (MSA): API поддерживает окно до 1 миллиона токенов с гарантированным минимумом в 512 тысяч. Такой объем нужен прежде всего для длительных агентных сессий, работы с большими кодовыми базами и анализа длинных видео. Цена при этом очень демократичная — 0,60 доллара за миллион входных токенов и 2,40 доллара за миллион выходных в режиме до 512 тысяч; на стандартное использование первые семь дней действует скидка 50%.

В техническом отчете MiniMax приводит несколько примеров работы модели на длинных задачах. В одном из них M3 поручили самостоятельно воспроизвести научную статью с конференции ICLR 2025: модель проработала почти 12 часов без вмешательства человека, сделала 18 коммитов и построила 23 экспериментальных графика, повторив ключевые эксперименты. В другом тесте M3 оптимизировала вычислительное ядро для GPU NVIDIA — за примерно сутки она выполнила 147 итераций и почти две тысячи вызовов инструментов, подняв загрузку оборудования с 7,6% до 71,3%, то есть ускорив работу в 9,4 раза. На бенчмарке PostTrainBench, где модель должна сама обучить другие модели, M3 заняла третье место, уступив только Opus 4.7 и GPT-5.5.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник