Програмне забезпечення для анонімізації даних


13

Хтось знає про хороше програмне забезпечення для анонімізації даних? Чи, можливо, пакет для R, який робить анонімізацію даних? Очевидно, не очікуючи незбагненної анонімізації - просто хочеться зробити це важким.


6
Які ваші дані та що ви хочете робити з анонімованими даними?
Пітер Сміт

Відповіді:



8

Попередження: будьте обережні, що анонімізувати дані може бути дуже важко таким чином, що перешкоджає повторній ідентифікації (деанонімізація), не втрачаючи при цьому великої вартості даних. Це не така ситуація, коли ви можете просто кинути на нього частину програмного забезпечення, не замислюючись. Захист анонімності людей вимагає ретельної думки. Дивіться, наприклад, цей документ для більш ретельного викладення того, чому це не тривіально.

Прикладом застережливої ​​історії є виклик Netflix, де начебто анонімізований набір даних насправді пов’язаний із ідентичністю користувачів Netflix - або випуск анонімізованих записів пошуку AOL, багато з яких (виявлені дослідниками) ще можуть бути пов'язані назад індивіди за допомогою більш досконалого аналізу. Інший приклад - із штату Массачусетс, де комісія з медичного страхування оприлюднила дані про всіх державних службовців, анонізувавши їх, видаляючи імена, адреси, SSN тощо. Однак дослідник конфіденційності виявив, що все-таки можна було ідентифікувати осіб, і в якості демонстрації показав, як визначити медичні записи губернатора. Пізніше вона показала, наприклад, що більшість людей можна однозначно ідентифікувати лише за своїм поштовим індексом (або переписом), датою народження та статтю. Це були історії людей, які старанно анонімували дані; вони думали, що зробили хорошу роботу з анонімізації, і просто не усвідомлювали, наскільки складно це питання. Ці застереження повинні дати вам паузу.

З цієї причини я заважаю вам намагатися самостійно анонімізувати ваш набір даних, якщо у вас немає попереднього досвіду роботи в цій області.

Важливо: методи, необхідні для анонімізації даних, дуже залежать від типу даних, які ви маєте, та домену програми, в якому ви працюєте. На жаль, ви не надали цю інформацію. Як результат, майже неможливо надати вам гарну пораду щодо анонімності вашого набору даних.

Я думаю, що ця відповідь може бути привабливою, тому що замість того, щоб сказати: "будь щасливий, не хвилюйся, просто кидай цю магічну частину програмного забезпечення на свої дані, і ти не мусиш думати", я кажу " зачекайте, це складніше, ніж це здається на перший погляд, будьте обережні ". Я усвідомлюю, що це повідомлення може бути не дуже популярним, але я думаю, що це повідомлення людям потрібно почути.



3

Одним із підходів було б використання фільтрів Bloom. Перевірте веб-сайт проекту SAFELINK щодо програм на Java та Python. Метод пояснення з паперу тут .

Існує також цікавий підхід до анаонімізації рядків у контексті зв'язку записів із використанням n-грамів, розроблених ANU Data Mining Group . Папір із описом та зразком коду Python доступний тут .

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.