Когда наборы данных, содержащие личную информацию, передаются для исследований или используются компаниями, исследователи пытаются замаскировать данные, например, удалив одну или две последние цифры почтового индекса, сохраняя при этом их полезность для понимания.
Но хотя деидентификация часто предназначена для удовлетворения юридических требований в отношении конфиденциальности данных , наиболее часто используемые методы стоят на шатком техническом основании.
Ученый-компьютерщик из Чикагского университета Алони Коэн наносит последний решающий удар по самым популярным методам деидентификации в новой статье.
Описывая новый вид атаки под названием «даункодирование» и демонстрируя уязвимость деидентифицированного набора данных с платформы онлайн-обучения, Коэн предупреждает, что эти преобразования данных не следует считать достаточными для защиты частной жизни людей .
«Даже по нормативным стандартам здесь есть проблема», — сказал Коэн, доцент кафедры компьютерных наук.
Бить тревогу
В течение многих лет исследователи компьютерной безопасности и конфиденциальности били тревогу по поводу методов, наиболее часто используемых для деидентификации данных, обнаруживая новые атаки, которые могут повторно идентифицировать, казалось бы, анонимные точки данных , и предлагая исправления. Тем не менее, эти методы по-прежнему широко используются и считаются юридически достаточными для соблюдения правил защиты конфиденциальности, таких как HIPAA и GDPR.
«Политики заботятся о реальных рисках, а не о гипотетических рисках», — сказал Коэн. «Поэтому люди утверждали, что риски, на которые указывали исследователи безопасности и конфиденциальности, были гипотетическими или очень надуманными».
Во время защиты докторской диссертации. в Массачусетском технологическом институте Коэн решил опровергнуть этот аргумент. Наиболее распространенные методы деидентификации основаны на подходе, называемом k-анонимностью, который преобразует данные ровно настолько, чтобы сделать каждого человека неотличимым от определенного числа других людей в наборе данных. Идея Коэна заключалась в том, что сама цель этого метода деидентификации оставляет его открытым для атак.
«Цель, когда вы используете такую технику, — редактировать как можно меньше, чтобы гарантировать целевой уровень анонимности», — сказал Коэн. «Но если вы достигнете этой цели и отредактируете ровно столько, сколько вам нужно, то тот факт, что это минимум, может рассказать вам кое-что о том, что было отредактировано».
Деидентификация работает путем редактирования квазиидентификаторов — информации, которая может быть объединена с данными из второго источника для деанонимизации субъекта данных. Отсутствие учета всех возможных квазиидентификаторов может привести к раскрытию информации. В одном известном примере исследователи взяли деидентифицированные данные о просмотрах Netflix и объединили их с данными с сайта онлайн-обзоров фильмов IMDB, идентифицируя пользователей в первом наборе данных по тому, когда они регистрировали обзоры фильмов, которые они недавно смотрели.
После этих открытий в 2000-х годах политики полагались на экспертов, чтобы определить, какие аспекты набора данных являются квази-идентификаторами, а какие нет, чтобы установить планку анонимности. Коэн проверил крайность: если каждый атрибут считается квазиидентификатором, работает ли по-прежнему k-анонимность и производные от нее методы?
«Если деидентификация вообще работает, она должна работать, когда все квазиидентифицируется», — сказал Коэн. «Это часть того, что делает эту работу мощной. Это также означает, что атаки работают против почти всех методов, связанных с k-анонимностью, а не против какой-либо конкретной. Атака Netflix показала, что трудно сказать, что является квази-анонимностью, а что нет -идентификатор. Атаки с понижением кодирования показывают, что при определенных настройках это не имеет большого значения».
«Не волшебная палочка»
В документе описываются две теоретические атаки и один реальный пример, которые подрывают аргументы в пользу этих средств защиты. Первый, даункодирование, выполняет обратный инжиниринг преобразований, выполненных с данными, таких как пример с почтовым индексом, упомянутый ранее. Вторая атака использует понижающее кодирование для атаки с выделением предикатов (PSO), особого типа атаки против стандартов анонимизации данных в соответствии с законом о конфиденциальности Европейского Союза GDPR. По словам Коэна, это доказательство было важно, чтобы показать политикам, что k-анонимности недостаточно для анонимизации по принципу «опубликуй и забудь» в соответствии с GDPR.
«Аргумент, который мы выдвигаем, противоречит идее, что любой из этих методов достаточен для соблюдения правового барьера анонимности», — сказал Коэн. «Мы прямо отвергаем это утверждение. Даже по нормативным стандартам здесь есть проблема».
Коэн проиллюстрировал этот недостаток отдельной реальной демонстрацией деидентифицированных данных из edX , популярной платформы массовых открытых онлайн-курсов (MOOC). Объединив набор данных с данными, извлеченными из резюме, размещенных в LinkedIn, — информацией, которая была бы тривиально доступна потенциальным работодателям, — Коэн мог идентифицировать людей, которые начали, но не закончили курсы edX, что является потенциальным нарушением FERPA, Закона о правах семьи на образование и конфиденциальности. (edX был предупрежден об ошибке и изменил свою защиту данных.)
Вывод, по словам Коэна, заключается в том, что эти методы деидентификации не являются волшебной палочкой для того, чтобы отмахнуться от проблем с конфиденциальностью при обмене потенциально конфиденциальными данными. Он надеется, что регулирующие органы поймут, что многоуровневый подход будет гораздо эффективнее для достижения их целей.
«Если то, что вы хотите сделать, это взять данные, очистить их, а затем забыть о них — разместить их в Интернете или передать каким-то сторонним исследователям и решить, что все ваши обязательства по конфиденциальности выполнены — вы не можете сделать это, используя эти техники», — сказал Коэн. «Они не должны освобождать вас от ваших обязательств думать и защищать конфиденциальность этих данных».
Теги: хакеры