Наука и технологии

Представлен метод защиты ChatGPT от джейлбрейк-атак

Published

26.04.2024

Представлен метод защиты ChatGPT от джейлбрейк-атак

Большие языковые модели (LLM), модели на основе глубокого обучения, обученные генерировать, обобщать, переводить и обрабатывать письменные тексты, привлекли значительное внимание после выпуска диалоговой платформы ChatGPT от Open AI. Хотя ChatGPT и подобные платформы в настоящее время широко используются для широкого спектра приложений, они могут быть уязвимы для определенного типа кибератак, вызывающих предвзятую, ненадежную или даже оскорбительную реакцию.

Исследователи из Гонконгского университета науки и технологий, Университета науки и технологий Китая, Университета Цинхуа и Microsoft Research Asia недавно провели исследование, изучающее потенциальное воздействие этих атак и методов, которые могут защитить модели от них. Их статья , опубликованная в журнале Nature Machine Intelligence , представляет новую технику, вдохновленную психологией, которая может помочь защитить ChatGPT и аналогичные диалоговые платформы на основе LLM от кибератак.

«ChatGPT — это социально значимый инструмент искусственного интеллекта, имеющий миллионы пользователей и интегрированный в такие продукты, как Bing», — пишут Юэци Се, Цзинвэй И и их коллеги в своей статье. «Однако появление джейлбрейк- атак серьезно угрожает его ответственному и безопасному использованию. Джейлбрейк-атаки используют состязательные подсказки для обхода этических гарантий ChatGPT и вызывают вредные реакции».

Основная цель недавней работы Се, Йи и их коллег заключалась в том, чтобы подчеркнуть влияние, которое джейлбрейк-атаки могут оказать на ChatGPT, и представить жизнеспособные стратегии защиты от этих атак. Атаки с помощью джейлбрейка по существу используют уязвимости LLM для обхода ограничений, установленных разработчиками, и получения ответов модели, которые обычно были бы ограничены.

«В этой статье исследуются серьезные, но недостаточно изученные проблемы, создаваемые побегами из тюрьмы, а также потенциальные методы защиты», — объясняют Се, Йи и их коллеги в своей статье. «Мы представляем набор данных для взлома с различными типами подсказок для взлома и вредоносными инструкциями».

Сначала исследователи собрали набор данных, включающий 580 примеров подсказок для взлома, предназначенных для обхода ограничений, которые не позволяют ChatGPT предоставлять ответы, которые считаются «аморальными». Сюда входят ненадежные тексты, которые могут способствовать дезинформации, а также токсичный или оскорбительный контент.

Когда они протестировали ChatGPT на этих подсказках для взлома, они обнаружили, что он часто попадает в их «ловушку», создавая запрошенный ими вредоносный и неэтичный контент. Затем Се, Йи и их коллеги приступили к разработке простой и в то же время эффективной техники, которая могла бы защитить ChatGPT от тщательно спланированных джейлбрейк-атак.

Созданная ими техника черпает вдохновение из психологической концепции самонапоминаний, подталкиваний, которые могут помочь людям вспомнить задачи, которые им необходимо выполнить, события, которые они должны посетить, и так далее. Защитный подход исследователей, называемый самонапоминанием в системном режиме, аналогичным образом предназначен для напоминания Chat-GPT о том, что ответы, которые он предоставляет, должны соответствовать конкретным правилам.

«Этот метод инкапсулирует запрос пользователя в системную подсказку, которая напоминает ChatGPT о необходимости ответить ответственно», — пишут исследователи. «Результаты эксперимента показывают, что самонапоминания значительно снижают вероятность успеха джейлбрейк-атак на ChatGPT с 67,21% до 19,34%».

На данный момент исследователи проверили эффективность своей методики, используя созданный ими набор данных, и обнаружили, что она дает многообещающие результаты, снижая вероятность успеха атак, хотя и не предотвращая их все. В будущем эту новую технику можно будет усовершенствовать, чтобы снизить уязвимость LLM к этим атакам, а также потенциально стимулировать разработку других аналогичных стратегий защиты.

«Наша работа систематически документирует угрозы, исходящие от джейлбрейк-атак, представляет и анализирует набор данных для оценки защитных мер и предлагает психологически мотивированную технику самонапоминания, которая может эффективно и действенно смягчать последствия джейлбрейков без дальнейшего обучения», — резюмируют исследователи в своей статье.

Представлен метод защиты ChatGPT от джейлбрейк-атак

Теги: ИИ, хакеры

In this article:

Наука и технологии

Токсичность в сообществе открытого исходного кода отличается от других интернет-форумов

Тролли, ненавистники, флеймеры и другие уродливые персонажи, к сожалению, являются реальностью большей части Интернета. Их уродство разрушает социальные сети и такие сайты, как Reddit и...

localpodcast12.02.2024

Обнаружена лазейка в системе безопасности, позволяющая использовать Wi-Fi, чтобы видеть сквозь стены

Наука и технологии

Обнаружена лазейка в системе безопасности, позволяющая использовать Wi-Fi, чтобы видеть сквозь стены

Исследовательская группа из Университета Ватерлоо разработала устройство на базе дронов, которое может использовать сети Wi-Fi, чтобы видеть сквозь стены. Устройство по прозвищу Wi-Peep может...

localpodcast12.02.2024

Activision выплатит около млн для урегулирования иска

Наука и технологии

Activision выплатит около $50 млн для урегулирования иска

Гигант видеоигр Activision Blizzard намерен выплатить около 50 миллионов долларов для урегулирования иска калифорнийского регулятора, сообщило в пятницу сообщение американских новостей. В 2021 году...

localpodcast11.02.2024

Пенсия сестры Маликова: артистка будет получать выплаты в свои 44 года

Шоу-бизнес

Пенсия сестры Маликова: артистка будет получать выплаты в свои 44 года

Отец артистки Инны Маликовой рассказал о том, что его наследница будет получать пенсию, несмотря на ранний возраст — 44 года. Юрий Маликов подчеркнул, что...

localpodcast11.02.2024

localpodcast.ru

localpodcast.ru

Наука и технологии

Представлен метод защиты ChatGPT от джейлбрейк-атак

Trending

Наука и технологии

Токсичность в сообществе открытого исходного кода отличается от других интернет-форумов

Наука и технологии

Обнаружена лазейка в системе безопасности, позволяющая использовать Wi-Fi, чтобы видеть сквозь стены

Наука и технологии

Activision выплатит около $50 млн для урегулирования иска

Шоу-бизнес

Пенсия сестры Маликова: артистка будет получать выплаты в свои 44 года

Наука и технологии

Важный законопроект об ограничении майнинга криптовалют принят Законодательным собранием Нью-Йорка

You May Also Like

Наука и технологии

Токсичность в сообществе открытого исходного кода отличается от других интернет-форумов

Наука и технологии

Обнаружена лазейка в системе безопасности, позволяющая использовать Wi-Fi, чтобы видеть сквозь стены

Наука и технологии

Activision выплатит около $50 млн для урегулирования иска

Шоу-бизнес

Пенсия сестры Маликова: артистка будет получать выплаты в свои 44 года