
Почему лучшие нейросети не могут решить детские задачки?
Исследователи MathArena
решили «отправить ИИ в школу» — и дать ему задачи из популярной во всем мире детской олимпиады «Кенгуру».
Чтобы исключить «утечку» данных, взяли албанскую версию заданий за март 2025 года — 168 задач от 1-го до 12-го класса. Их перевели на английский и представили в виде одного изображения — с текстом, рисунком и вариантами ответов, как на реальной олимпиаде. Это заставило модель «смотреть глазами», а не просто читать текст.
Тестировали восемь моделей, включая закрытые GPT-5, Gemini 2.5 Pro, Claude Sonnet 4.5, Grok 4, а также две открытые — GLM-4.5V и Qwen3-VL-235B.

Неожиданный результат
Казалось бы, чем старше ученики, тем сложнее задачи — и тем труднее моделям. Однако из задач для 1-2 классов модели решили от 32% до 69%, а для 11-12 классов — до 95%!
В младших классах 80% задач требуют анализа картинки — определить цвет сектора или посчитать кубики. У старших классов большинство задач — текстовые. Но дело не только в изображениях: даже если из набора задач убрать вопросы с картинками, разрыв сохраняется.
Корень ошибок LLM кроется в типе мышления. Для малышей важны низкоуровневые навыки — зрительное восприятие и пространственное воображение, которые трудно даются нейросетям. Для старших — абстрактные рассуждения, где ИИ чувствует себя как дома. Это наглядный пример парадокса Моравека: машинам легче взять интеграл, чем отличить зеленый треугольник от синего квадрата. И чтобы «понимать мир глазами», моделям нужно развивать не интеллект, а восприятие.
Подпишитесь на Hi, AI!