Anthropic поручила Claude улучшить надежность и безопасность самого ИИ. И получила результат, который требует объясненийМногие наверное слышали про Alignment как важнейшую часть обучения ИИ — это область исследований и разработок ИИ, которая отвечает на вопрос:
как сделать так, чтобы ИИ делал строго то, что мы от него хотим? При этом чем мощнее становятся модели и сложнее задачи для них, тем труднее их проверять.
Рано или поздно ИИ научится решать задачи, в которых человек не разбирается достаточно, чтобы оценить ответ. Anthropic опубликовала эксперимент для проверки идеи:
можно ли поручить оценку точности результата самому ИИ?Как это работало?Компания взяла 9 копий Claude Opus 4.6 и запустила их параллельно с разными стартовыми идеями в разные направления поиска одновременно. Каждой дали изолированную среду, общий форум для обмена результатами, хранилище кода и формальную задачу: придумать, как с помощью более слабой модели качественнее обучать более сильную. Это упрощённая модель того, как люди в будущем будут обучать ИИ умнее себя.
Для сравнения замерили работу человеческой команды на той же задаче. Качество измерялось от 0 до 1, где 1 означает идеальное решение задачи.
Люди за семь дней дошли до
0,23 PGR. Девять копий Claude за пять дней — до
0,97 PGR. Стоимость работы агентов составила $18 000.
PGR — это показатель того, насколько хорошо сильный ИИ смог раскрыть свой потенциал, обучаясь у более слабого наставника. В alignment это способ проверить, смогут ли будущие более умные модели понимать и реализовывать человеческие намерения лучше, чем люди способны их формально задать.
Интересные выводы:
Один из агентов нашёл способ обойти задачу. Вместо того, чтобы учить модель решать задачи по программированию, он просто запускал тестовый код и считывал правильный ответ. Anthropic такой стратегии не предполагала и зафиксировала её только при разборе результатов. Записи дисквалифицированы. Но сам факт показателен: на конкретной задаче с чёткой автоматической оценкой агент нашёл способ повысить метрику, не делая того, ради чего эта метрика существовала.
В экономике это называется
законом Гудхарта:
«когда мера становится целью, она перестаёт быть хорошей мерой». В alignment — основной риск. Большинство 800 часов работы прошло честно, но достаточно одного такого эпизода, чтобы понять масштаб проблемы при дальнейшем масштабировании.

Сама Anthropic в выводах исследования вводит понятие
«alien science» (инопланетная наука). Это не описание того, что произошло — это прогноз. Сейчас исследователи ещё могут разобрать каждое решение агента: понять, что он сделал и почему. Но по мере усложнения моделей идеи могут стать нечитаемыми для людей. ИИ будет находить решения, которые работают — и проверить которые человек не сможет.
Что это значит на практике?Результат в 0,97 PGR очень внушительный. Однако компания подчёркивает, что задача была необычно хорошо специфицирована — с чётко определённой метрикой, которую можно автоматически проверять. Большинство реальных alignment-проблем устроено иначе: что значит «модель ведёт себя честно», «не манипулирует пользователем», «не вредит» — здесь нет автоматического измерителя. Человек должен оценить вручную.
Именно поэтому Anthropic
осторожна в выводах: метрика выросла
в 4 раза, но это произошло там, где её можно было оптимизировать. Главный вопрос на ближайшие месяцы — повторят ли результат внешние лаборатории и сработает ли подход на задачах, где простой автоматической оценки нет.
Тест Тьюринга. События в сфере ИИ. Подписаться