Всего лишь имитатор: эти ошибки делает даже самый продвинутый ИИ

Современные языковые модели впечатляют достижениями в генерации текстов и написании кода, однако их способность к абстрактному мышлению и адаптации к неизвестным условиям по-прежнему остается под большим вопросом.

Масштабный тест с прохождением бенчмарка ARC-AGI-3, устроенный специалистами ARC Prize Foundation, для  моделей OpenAI GPT-5.5 и Anthropic Opus 4.7, вскрыл фундаментальные ограничения текущей архитектуры ИИ.

Результаты весьма удручающие: обе передовые модели не смогли преодолеть барьер успешности в 1% (GPT-5.5 — 0.43%, Opus 4.7 — 0.18%) и оказались не в состоянии решить те задачи, которые обычный человек решает даже без предварительной подготовки.

Не пропустите! ИИ-боты не умеют работать с новостями — СМИ негодуют

Более того, последующий анализ т.н. «следов рассуждений», в которых ИИ документирует процесс принятия решений, выявил целых три систематические ошибки «умных ботов».

И паттерны эти весьма наглядно доказывают, что работа даже самых продвинутых моделей ИИ по-прежнему основывается лишь на статистическом распознавании образов, а не на построение причинно-следственных связей.

Фрагментарное восприятие: детали без общей картины

Первая и самая распространенная системная ошибка заключается в неспособности моделей интегрировать локальные эффекты в актуальную модель мира. ИИ успешно фиксирует отдельные изменения, но не может собрать из них последовательный алгоритм действий.

Показательный пример продемонстрировал Opus 4.7 в одном из тестов: к четвертому шагу модель «заметила», что определенное действие вращает контейнер, а к шестому — что другое действие наливает краску.

Однако ИИ так и не смог объединить эти наблюдения в логическую цепочку «сначала выровнять ведро, затем налить краску», чтобы воспроизвести целевое изображение. Opus 4.7 увидел механику, но так и не понял ее конечного назначения.

Стресс у ChatGPT: что это, и как успокоить умного бота

Заложники дата-сетов: ложные аналогии

Второй паттерн указывает на критическую зависимость ИИ от обучающей выборки. Столкнувшись с абсолютно новой средой, модели отчаянно пытаются втиснуть нее в знакомые шаблоны.

В ходе тестов ИИ неоднократно путал неизвестные механики с классическими играми вроде Tetris, Frogger, Breakout или Pong. При этом даже отдаленное визуальное сходство заставляет модель генерировать развернутые, но абсолютно ложные теории игрового процесса.

Так, GPT-5.5 в среде, основанной на комбинациях клавиш, решил, что играет в Breakout, предположив наличие «ракеток» и «мячей». Что полностью блокировало дальнейший прогресс.

Человек, знакомый с Breakout, просто отвергает эту гипотезу, ИИ же слепо следует статистическим ассоциациям.

Не пропустите! Скрытая реклама в ответах чат-бота: как не хлопать ушами

Случайный успех не формирует понимания

Третья ошибка является наиболее опасной для практического применения ИИ-агентов: успешное решение задачи не означает, что модель поняла, как она это сделала. ИИ не анализирует причины своего успеха, что приводит к быстрому укоренению в его «мышлении» ложных теорий.

В одном из тестов Opus 4.7 прошел первый уровень за 37 шагов, опираясь на ошибочную теорию о телепортации объектов кликом, хотя реальная механика требовала сопоставления форм. Первый уровень был пройден лишь благодаря простоте, случайно совпавшей с неверными действиями. Вместо анализа модель восприняла успех как подтверждение своей ложной теории и на втором уровне окончательно зашла в тупик, пытаясь «телепортировать» объекты.

Это доказывает отсутствие механизма рефлексии: без понимания причин успеха модели переносят ложные концепции на следующие этапы.

Разница в поведении: упрямство Opus и нерешительность GPT-5.5

Интересно, что модели демонстрируют разные стратегии провала. Opus 4.7 быстрее схватывает механики, но агрессивно цепляется за ложные гипотезы. Сформировав неправильную теорию, эта модель будет упорно кликать в ее рамках, игнорируя противоречия.

GPT-5.5 страдает от противоположной проблемы. Модель генерирует широкий спектр гипотез и чаще находит правильный подход, но не может превратить его в план действий. Определив верную механику, GPT-5.5 продолжает перебирать варианты — от Тетриса до Ханойской башни, так и не решаясь остановиться на правильном пути.

Как отмечают исследователи, Opus сжимает наблюдения в уверенную, но ложную теорию, тогда как GPT-5.5 вообще испытывает трудности с концептуальным сжатием.

Значение за пределами бенчмарков

Эти ошибки имеют прямое отношение к созданию реальных ИИ-агентов. Способность ориентироваться в неизвестной среде, формулировать гипотезы и корректировать их при столкновении с противоречиями — это базовые требования для работы с новыми сайтами, внутренними инструментами или API без документации.

Тесты ARC-AGI-3 подтверждают аргументы скептиков: современные LLM остаются сложными инструментами сопоставления паттернов, интерполирующими между заученными шаблонами, но не способными к построению абстрактных правил и причинно-следственных моделей мира. via

Youtube видео

Что будем искать? Например,VPN

Мы в социальных сетях