Sakana Fugu обогнала Opus 4.8 и GPT-5.5, не обучив ни одной большой модели

В тестах Sakana AI преимущество выглядит убедительно. На инженерном SWE Bench Pro Fugu Ultra набирает 73.7 против 69.2 у Opus 4.8 и 58.6 у GPT-5.5. На Humanity’s Last Exam — одном из самых сложных тестов общих знаний — Fugu Ultra берет 50.0 и впритык обходит Opus 4.8 (49.8). На GPQA-D обе версии показывают 95.5, выше всех конкурентов. Любопытно, что на части тестов (SciCode, τ³ Banking, длинный контекст) обычная Fugu обходит даже старшую Ultra. Единственный тест, где Fugu уступает, — MRCRv2: здесь первым остается GPT-5.5 с 94.8 против 93.6 у Fugu Ultra.

Но все результаты — со слов самой Sakana AI, независимой проверки пока нет. И главное: Fable 5 и Mythos Preview от Anthropic, формально самые сильные модели на рынке, в пул Fugu не входят — просто потому что недоступны публично. Именно вокруг этого построена реклама Sakana AI: компания прямо ссылается на экспортные ограничения, наложенные на Fable и Mythos, и предлагает Fugu как страховку — фронтир-уровень без риска, что доступ к модели исчезнет за одну ночь из-за смены регуляторных правил. Если один провайдер закрывает доступ, Fugu перенаправляет работу на оставшиеся модели в пуле.

Это продолжение давней линии Sakana AI — от эволюционного слияния моделей до автономного AI Scientist. Сооснователь лаборатории Дэвид Ха называет будущее ИИ «коллективным интеллектом». Что за этим стоит, показывает один из примеров Sakana: ИИ-агент на Fugu Ultra сам прогнал 123 эксперимента примерно за 14 часов на одной видеокарте H100, перебирая размер батча, глубину сети и настройки оптимизатора, и улучшил обучающий рецепт небольшой модели сильнее, чем все три анонимных фронтир-бейзлайна.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник