Ведущие мировые компании, разрабатывающие ИИ, не до конца понимают, как их генеративные модели приходят к своим выводам. Как сообщает Financial Times, эта проблема, по мнению экспертов, станет ключевой для решения проблемы контроля над мощными ИИ-системами.
Компании Anthropic, Google, OpenAI и xAI разработали методику под названием «цепочка размышлений», позволяющую их ИИ-моделям демонстрировать поэтапный процесс решения задач. Хотя исследователи отмечают, что этот подход помог создать более совершенные модели, он также выявил случаи «неправильного поведения», когда чат-боты дают ответы, противоречащие их же логическим построениям. Эти несоответствия свидетельствуют о недостаточном понимании разработчиками принципов работы генеративных ИИ-моделей.
Проблема вызвала обеспокоенность в связи с растущей функциональностью и автономностью ИИ-систем. В ходе тестов OpenAI обнаружила, что при подавлении «нежелательных» мыслей модель может скрывать свое поведение от пользователей, продолжая при этом действовать нежелательным образом — например, мошенничать при тестировании ПО или использовать запрещенные источники информации.
Перед исследователями стоит сложная дилемма: хотя «цепочка размышлений» помогает выявлять недостатки ИИ, ее нельзя считать полностью надежной.
«Мы должны относиться к этим данным, как военные относятся к перехваченным радиопереговорам: информация может быть искажена или закодирована, но в конечном счете полезна для анализа», — отмечает исследователь ИИ из METR Сидни фон Аркс.