ai

Точность ИИ в математике: что означают бенчмарки и чему доверять

Поставщики приводят результаты на MATH, GSM8K и MMLU так, будто это баллы SAT. Вот что эти числа на самом деле измеряют, где они вводят в заблуждение и как самостоятельно оценить инструмент математики на базе ИИ.
AI-Math Editorial Team

By AI-Math Editorial Team

Published 2026-05-14

Каждый инструмент математики на базе ИИ рекламирует число-бенчмарк — «набирает 92 % на MATH», «возглавляет таблицу лидеров по арифметике». Для большинства учеников эти числа — шум. Их сообщают без контекста, на тестах с очень специфическим стилем, и они редко говорят, поможет ли инструмент с вашей домашней работой. Это руководство расшифровывает четыре бенчмарка, которые вы будете видеть чаще всего, объясняет, где каждый из них даёт сбой, и даёт вам 15-минутный тест, который вы можете провести сами, прежде чем доверять любому ИИ-инструменту для математики.

Четыре бенчмарка, которые любят поставщики

GSM8K — текстовые задачи начальной школы

GSM8K — это набор из 8 500 текстовых задач уровня начальной школы с многошаговой арифметикой. Оценка 90 %+ на GSM8K означает, что модель надёжна в многошаговой арифметике, сформулированной на английском. Большинство современных ИИ переходят здесь отметку 90 %; ниже 80 % — серьёзный тревожный сигнал.

Что это говорит вам: ИИ умеет прочитать рассказ и выполнить арифметику.

Что это скрывает: это не проверяет алгебру, анализ или что-либо визуальное.

MATH — задачи олимпиадного стиля

Бенчмарк MATH содержит 12 500 задач, взятых из американских школьных математических олимпиад (AMC, AIME). Оценка 50 %+ здесь по-настоящему впечатляет — эти задачи требуют изобретательных, а не механических решений.

Что это говорит вам: ИИ способен на нетривиальные рассуждения на уровне школьных олимпиад.

Что это скрывает: рутинная домашняя работа в стиле учебника всё ещё может сбить ту же модель с толку, если она ожидает «изобретательной» тактики там, где задача требует решения «в лоб».

MMLU (математическое подмножество)

MMLU включает сотни вопросов с выбором ответа по школьным и вузовским предметам, в том числе по математике. Полезно для широты, меньше — для глубины: выбор ответа поощряет отбрасывание неверных вариантов, а домашняя работа устроена иначе.

Что это говорит вам: ИИ знает факты и стандартные методы.

Что это скрывает: ничего о том, как модель справляется с одной трудной задачей в свободной форме.

MiniF2F / бенчмарки доказательств

Только для продвинутых пользователей — измеряет, способен ли ИИ выдавать формальные доказательства, проверяемые средством доказательства теорем. Большинству учеников это не понадобится, но если вы изучаете действительный анализ или абстрактную алгебру, это значимый сигнал.

Почему числа-бенчмарки могут вводить в заблуждение

  1. Загрязнение теста: если бенчмарк находился в открытом интернете во время обучения, ИИ мог его запомнить. Более новые бенчмарки (после 2024 года) частично спроектированы так, чтобы этого избежать.
  2. Одна попытка против лучшей из N: некоторые результаты сообщаются после того, как модели дают десять попыток и засчитывают лучшую. Это число резко падает для первой попытки, которую вы на самом деле и получаете.
  3. Несоответствие стиля: ИИ, который щёлкает MATH олимпиадного стиля, может иначе справляться с вашим обычным учебником. И наоборот, ИИ, настроенный под учебный стиль, может споткнуться на творческих задачах.
  4. Нет частичного зачёта: бенчмарки обычно оценивают только финальный ответ. Решение с одним неверным шагом, но (по счастливой случайности) верным ответом, оценивается так же, как чистый вывод. Настоящие учителя так не работают.
  5. Пробелы по темам: модель может набрать 90 % в целом и всё равно иметь 30 % по геометрии, если тест состоит в основном из алгебры.

Более точная мысленная модель

Относитесь к числам-бенчмаркам как к полу, а не как к потолку:

  • Ниже 70 % на GSM8K → ненадёжен в арифметике. Пропускайте.
  • Ниже 40 % на MATH → нормально для рутинной домашней работы, слаб на более трудных задачах.
  • 50–70 % на MATH → очень способный; покрывает большинство школьных и студенческих потребностей.
  • Выше 70 % на MATH → передовой уровень, включая большинство задач вузовского уровня.

Движок рассуждений MathCore проходит внутренний бенчмаркинг на наборе, согласованном с учебной программой — охватывающем учебники K-12, AP Calculus, а также вузовские математический анализ и линейную алгебру — а не только на олимпиадных задачах, потому что именно с этим ученики и сталкиваются.

15-минутный тест, который вы можете провести сами

Забудьте про бенчмарки. Потратьте 15 минут, дав любому ИИ-кандидату четыре задачи, ответы на которые вы уже знаете:

  1. Рутинную арифметическую текстовую задачу из рабочей тетради 4-го класса. Проверяет базовое чтение + арифметику.
  2. Учебное квадратное уравнение или систему из вашей собственной домашней работы. Проверяет надёжность алгебры.
  3. Определённый интеграл с неочевидным методом вроде x2exdx\int x^2 e^x\, dx. Проверяет анализ + выбор метода.
  4. Многошаговую текстовую задачу, которая показалась вам каверзной. Проверяет реальную полезность.

Оцените его по трём осям:

ОсьЧто проверять
Финальный ответВерный или неверный?
ШагиКаждый шаг законен? Или ИИ отделывается общими словами?
ОбъяснениеСможет ли запутавшийся одноклассник за ним проследить?

Инструмент, который проходит 4/4 на вашем тесте, заслуживает больше доверия, чем тот, который набирает 92 % на бенчмарке, который вы не можете прочитать.

Распространённые утверждения, к которым стоит относиться скептически

  • «Лучший ИИ для математики» без указания бенчмарка.
  • «Точность 100 %» — ни одна модель такой не обладает. Циклы верификатора резко повышают надёжность, но никогда не достигают 100 %.
  • «Превосходит GPT-X» — бессмысленно без указания, какая версия, на каком бенчмарке, в каком режиме.
  • «Решает любую задачу» — даже у лучших моделей есть слабые темы; честные инструменты сообщают вам, когда они не уверены.

Попробуйте AI-Math на своём собственном бенчмарке

Возьмите четыре задачи выше (или свою последнюю контрольную) и прогоните их через решатель AI-Math. Если вы опубликуете учебный проект, сравнивающий ИИ-инструменты, мы будем рады его увидеть — напишите нам со страницы контактов.

Читайте дальше

AI-Math Editorial Team

By AI-Math Editorial Team

Published 2026-05-14

A small team of engineers, mathematicians, and educators behind AI-Math, focused on making step-by-step math help accessible to every student.