Большие языковые модели (LLM), модели на основе глубокого обучения, обученные генерировать, обобщать, переводить и обрабатывать письменные тексты, привлекли значительное внимание после выпуска диалоговой платформы ChatGPT от Open AI. Хотя ChatGPT и подобные платформы в настоящее время широко используются для широкого спектра приложений, они могут быть уязвимы для определенного типа кибератак, вызывающих предвзятую, ненадежную или даже оскорбительную реакцию.
Исследователи из Гонконгского университета науки и технологий, Университета науки и технологий Китая, Университета Цинхуа и Microsoft Research Asia недавно провели исследование, изучающее потенциальное воздействие этих атак и методов, которые могут защитить модели от них. Их статья , опубликованная в журнале Nature Machine Intelligence , представляет новую технику, вдохновленную психологией, которая может помочь защитить ChatGPT и аналогичные диалоговые платформы на основе LLM от кибератак.
«ChatGPT — это социально значимый инструмент искусственного интеллекта, имеющий миллионы пользователей и интегрированный в такие продукты, как Bing», — пишут Юэци Се, Цзинвэй И и их коллеги в своей статье. «Однако появление джейлбрейк- атак серьезно угрожает его ответственному и безопасному использованию. Джейлбрейк-атаки используют состязательные подсказки для обхода этических гарантий ChatGPT и вызывают вредные реакции».
Основная цель недавней работы Се, Йи и их коллег заключалась в том, чтобы подчеркнуть влияние, которое джейлбрейк-атаки могут оказать на ChatGPT, и представить жизнеспособные стратегии защиты от этих атак. Атаки с помощью джейлбрейка по существу используют уязвимости LLM для обхода ограничений, установленных разработчиками, и получения ответов модели, которые обычно были бы ограничены.
«В этой статье исследуются серьезные, но недостаточно изученные проблемы, создаваемые побегами из тюрьмы, а также потенциальные методы защиты», — объясняют Се, Йи и их коллеги в своей статье. «Мы представляем набор данных для взлома с различными типами подсказок для взлома и вредоносными инструкциями».
Сначала исследователи собрали набор данных, включающий 580 примеров подсказок для взлома, предназначенных для обхода ограничений, которые не позволяют ChatGPT предоставлять ответы, которые считаются «аморальными». Сюда входят ненадежные тексты, которые могут способствовать дезинформации, а также токсичный или оскорбительный контент.
Когда они протестировали ChatGPT на этих подсказках для взлома, они обнаружили, что он часто попадает в их «ловушку», создавая запрошенный ими вредоносный и неэтичный контент. Затем Се, Йи и их коллеги приступили к разработке простой и в то же время эффективной техники, которая могла бы защитить ChatGPT от тщательно спланированных джейлбрейк-атак.
Созданная ими техника черпает вдохновение из психологической концепции самонапоминаний, подталкиваний, которые могут помочь людям вспомнить задачи, которые им необходимо выполнить, события, которые они должны посетить, и так далее. Защитный подход исследователей, называемый самонапоминанием в системном режиме, аналогичным образом предназначен для напоминания Chat-GPT о том, что ответы, которые он предоставляет, должны соответствовать конкретным правилам.
«Этот метод инкапсулирует запрос пользователя в системную подсказку, которая напоминает ChatGPT о необходимости ответить ответственно», — пишут исследователи. «Результаты эксперимента показывают, что самонапоминания значительно снижают вероятность успеха джейлбрейк-атак на ChatGPT с 67,21% до 19,34%».
На данный момент исследователи проверили эффективность своей методики, используя созданный ими набор данных, и обнаружили, что она дает многообещающие результаты, снижая вероятность успеха атак, хотя и не предотвращая их все. В будущем эту новую технику можно будет усовершенствовать, чтобы снизить уязвимость LLM к этим атакам, а также потенциально стимулировать разработку других аналогичных стратегий защиты.
«Наша работа систематически документирует угрозы, исходящие от джейлбрейк-атак, представляет и анализирует набор данных для оценки защитных мер и предлагает психологически мотивированную технику самонапоминания, которая может эффективно и действенно смягчать последствия джейлбрейков без дальнейшего обучения», — резюмируют исследователи в своей статье.
Теги: ИИ, хакеры