Исследование показало, как обойти правила ChatGPT с помощью психологических трюков

Исследование показало, как обойти правила ChatGPT с помощью психологических трюков
Иллюстративное фото: Depositphotos

Исследователи из Университета Пенсильвании выяснили, что большие языковые модели, такие как ChatGPT, можно убедить выполнять запросы, которые они обычно отклоняют. Для этого они использовали базовые психологические приемы. Об этом сообщает издание The Verge.

Ученые использовали техники, описанные профессором Робертом Чалдини в книге "Влияние: психология убеждения". Среди них – авторитет, симпатия, взаимность, дефицит, социальное доказательство и единство.

Например, когда сначала попросили модель ChatGPT GPT‑4o Mini объяснить, как синтезировать ванилин (легальное химическое соединение), а затем – как синтезировать лидокаин, вероятность получить ответ выросла с 1% до 100%. Аналогичным образом использование мягких оскорблений или комплиментов значительно повышало готовность бота выполнять нестандартные запросы.

Менее эффективными оказались лесть и социальное давление. Утверждения типа "все другие большие языковые модели это делают" повышали вероятность того, что бот даст инструкции, лишь до 18%.

Напоминаем, что OpenAI обучила GPT-5 помогать пользователям в сложных и опасных ситуациях. Напоминаем, что OpenAI представила ChatGPT Go.