Чи вважаєте ви геокодування в Інтернеті порушенням конфіденційності?


21

Припустимо, у мене є маса адрес людей, які беруть участь у певному дослідженні (швидше за все, стосується здоров'я, де конфіденційність та етичні міркування завжди є важливими питаннями).

В даний час такі постачальники, як Google або Yahoo, пропонують гідні результати щодо позиційної точності.

Північноамериканська асоціація центральних реєстрів раку ( NAACCR ) перераховує такі варіанти у своїх посібниках « Кращі практики геокодування : огляд восьми часто використовуваних систем геокодування » та « Посібник з кращих практик геокодування ».

Наприклад, Cinnamon та Schuurman (2010) використовували службу BatchGeocode як частину свого інструменту для розслідування травм при низьких ресурсах.

Чи вважаєте ви геокодування таких адрес за допомогою Інтернет-служб, як-от Google Maps або OpenStreetMap, порушення конфіденційності?

PS1 можливо пов'язане питання .

Недавня стаття PS2 в Епідеміології (один з провідних експертних журналів у цій галузі) опублікувала короткі повідомлення з детальними інструкціями щодо геокодування за допомогою Google Maps & Places API. Цікаво, що жодного слова про безпеку / конфіденційність не було сказано ...


Питання щодо сфери вікі спільноти?
мистецтво21

Відповіді:


11

Тут безумовно є наслідки для конфіденційності - особливо якщо ви працюєте з невеликими партіями даних. Кожен, хто намагається видобути потік даних, зможе зробити припущення, що всі запити в одній партії мають щось спільне - навіть якщо медичний стан чи особиста інформація не розголошуються по телефону.

Краща методика - це збирати безліч непов'язаних даних / пацієнтів для масового геокодування.

Наприклад - комбінуйте свої дані, що потребують геокодування з іншими дослідниками - чим більше пов'язаних між собою питань, тим краще. Рандомізуйте порядок запитів. І один раз на день обробляти пакетну групу через цю чергу, і все відразу.

Тепер стає важче видобувати дані, навіть якщо зловмисник здатний підслухати запити геокодування.


Цікаво! Будь-який інструмент / платформа, яка може полегшити цей процес?
Ніколя Рауль

8

Геокодування локально із зашифрованими файлами на захищеному сервері, безумовно, буде золотим стандартом конфіденційності. Наступне найкраще використовувати Tor , якщо потрібно геокодування за допомогою віддаленого API.

Тор захищає вас, підстрибуючи свої комунікації навколо розподіленої мережі ретрансляцій, якими керують волонтери по всьому світу: це заважає ... сайтам, які ви відвідуєте, дізнаватися про ваше фізичне місцезнаходження.

Поряд із введенням випадкових адрес (як тут рекомендують інші) та використанням ssl (https) для шифрування зв'язку до їх кінцевих точок (переконайтесь, що ви також це робите), я не можу придумати більш безпечний спосіб дистанційного геокодування, ніж через проект Tor . Незалежно від служби геокодування, яку ви використовуєте, ніколи не вдасться визначити, звідки в кінцевому підсумку надходили запити, і з https ніхто інший також не буде. Примітка: не використовуйте службу геокодування, для якої потрібен ключ api, інакше ви більше не будете анонімними. (Google більше не потребує ключа api).

Детальніше про використання Tor ви знайдете у моїй відповіді на відповідне запитання тут.


Спасибі, я не думав про Тор, але це здається гарною ідеєю.
radek

Навіть якщо використовується Tor, сервер геокодування все одно отримує вашу інформацію, що є основним порушенням конфіденційності. Ви не можете довіряти серверу геокодування.
Ніколя Рауль

8

Це відмінне запитання, яке мені задавали неодноразово останнім часом, оскільки я працюю в компанії для перевірки адрес під назвою SmartyStreets.

По-перше, поштова адреса являє собою єдину локальну точку на карті. Адреса сама по собі є доброякісною, оскільки вона не має додаткової інформації. Нанесення точки на карті нічого не робить. Лише коли ви починаєте призначати КОНТЕКСТ цій точці (адресі), вона починає щось означати.

Зважаючи на це, поштова адреса може представляти людину, організацію, будівлю, автомобіль і все. Після того як ви почнете збирати кілька поштових адрес, ви збільшуєте контекст, який може бути отриманий з цієї групи. Подібність можна визначити, щоб побачити, що спільних адрес. Однак лише групування адрес у подібній області не позначає особливого контексту. Я можу переглянути карту Google і побачити всі будинки в певній місцевості. Це не є порушенням конфіденційності, якщо я не маю несанкціонованого доступу до привілейованої інформації.

Інші точки контексту повинні поєднуватися, щоб фактично надавати будь-які приватні дані. Наприклад, група поштових адрес, що надсилаються в Інтернет-службу для перевірки адрес та / або геокодування, не дає інформації, якщо ви не знаєте, хто подав список для обробки. Після того, як власник списку буде відомий, можна зробити певні умовиводи щодо його використання. Знаючи цей додатковий контекст, такий як власник списку та призначене використання, це, безумовно, кваліфікується як привілейована інформація та може стати джерелом порушення конфіденційності.

Запропонувати обробку "внутрішньо", щоб не було залучено зовнішню службу передачі даних. Це, безумовно, виключає будь-який тип несанкціонованого доступу до привілейованої інформації. Перевірка адреси та геокодування не є завданнями для непосвячених і, безумовно, потребують передових навичок (маючи на увазі досвід, накопичений з часом), щоб обробити дуже великі списки, не витрачаючи непомірної кількості часу та ресурсів. Таким чином, залучення його в дім - це, безумовно, варіант, але чи має кожна компанія, яка має конфіденційну інформацію про адресу, мати ресурси для власної "захищеної" обробки адрес (включаючи геокодування)? Ні (хоча це, безумовно, означатиме безпеку роботи для читачів цього веб-сайту.)

Є способи зберегти необхідну конфіденційність та все ж користуватися онлайн-сервісами. Одним із методів було б створити обліковий запис, протестувати все та перевірити, а потім, використовуючи тимчасову адресу електронної пошти, створити новий обліковий запис із не пов’язаною платіжною адресою, пов’язаною з кредитною карткою, яка не може бути відстежена до вас. Обробка адрес у цьому обліковому записі теоретично не давала б жодного цінного контексту і, таким чином, підтримувала б конфіденційність приватних осіб у списку. (Це починає звучати як фільм Ворог держави .

Якщо це звучить складно і непотрібно, я згоден. Більш простим методом було б скористатись API, який використовує HTTPS і POST і який не зберігає і не записує жодну з даних, які ви обробляєте. Використання HTTPS означає, що єдиним записом буде часова марка та IP-адреса, з якої ви телефонуєте. Основна URL-адреса не буде відома. Звичайно, обліковий запис, який ви використовуєте, приведе до вас, АЛЕ, це не проблема, оскільки використання POST-запиту дозволяє приєднати корисний вантаж (у цьому випадку партію адрес), а вміст корисного навантаження не реєструється. Таким чином, вказані вами адреси не містяться в жодному журналі сервера. А те, що вони пам'яті стираються між кожним процесом, означає, що ці адреси ніколи не зберігаються і не реєструються, а передача назад вам здійснюється через надійне з'єднання.

13Mar2012 06:31 (-6) IP: 12.134.223.12 UserID: 875564 - QTY POST: 3439942 - [Оброблено]

Усі, хто дивиться журнали, побачать лише те, що ви обробляли деякі адреси, і вони не мали поняття, які адреси обробляються. Це задовольняє навіть найсуворіші вимоги політики конфіденційності. Мені не було б сенсу зазначати, що такий вид послуг доступний (і дуже швидкий ), не зазначивши, де його знайти. Він уже вбудований в сервіс API LiveAddress від SmartyStreets. Інші послуги, такі як Cdyne, QAS та ServiceObjects, можуть також пропонувати подібні послуги, але я ще не чув про них.


Дякуємо за детальну інформацію. HTTPS безумовно звучить як розумна ідея. Я припускаю, що SmartyStreets обмежена США?
radek

Так, перевірка та геокодування адрес SmartyStreets обмежена адресами поштових служб США.
Джеффрі

5

Можливо, ви можете створити ідентифікатор, розділити свою таблицю. Видалення особистої інформації. потім приєднайтеся до таблиці після геокодування.

Я маю на увазі (об'єднану PCness), я гадаю, що ви могли б довести, що коли ви десь запускаєте дані на сервері, то ви не підтримували ланцюжок зберігання.

Я знайшов досить багато писати на цю тему, якщо ви хочете слідувати ...

Хмарне володіння та контроль

Електронне вікове володіння та контроль

Книга Google

Юридичні наслідки хмарних обчислень

Якщо примусове виконання буде виконано відповідно до закону, хмарні обчислення можуть бути повністю закриті з державних служб.


5

Ні, ви можете геокодувати офлайн. Якщо ви використовуєте інтернет-пакетні геокодери, як перетворення адрес у географічні координати стає проблемою конфіденційності? Було б більше питання, якби ім'я кожного було включено та оприлюднено. Оскільки Бред згадує окрему адресу з ідентифікатором і повторює її, коли адреси геокодовані. Стандартна практика.


5
Я погоджуюся, що ви можете геокодувати в режимі офлайн і не потрібно розголошувати будь-яку особисту інформацію. Але я не згоден з вашою пропозицією, яка розглядає лише ім'я та ідентифікатор як інформацію, яка повинна залишатися приватною. Якщо ви розкриєте домашню адресу людини навіть без її імені, ви по суті визначили їх. Подумайте над тим, щоб опублікувати карту з пунктами на будинках людей із сильно розлюченою інфекційною хворобою.
DavidF

2
Як зазначив Mapperz, поки інформація, яку ви надсилаєте, обмежена адресою, не повинно виникнути проблем. Не включайте "HECD" чи будь-яку іншу конфіденційну інформацію в інформацію, яку ви надсилаєте.
jvangeld

1
@DavidF кожна адреса має географічні координати - геокодування 99,9% автоматизовано [обчислення] не втрачається конфіденційність. Якщо вам це не подобається в Інтернеті, не ставте його там, використовуйте офлайн-версію.
Mapperz

2
@jvangeld Я все ще думаю, що конфіденційність може бути порушена в онлайн-ситуації, коли третя сторона може поєднувати особу організації, яка подає запит на геокод, та адреси. Якщо «Народний фронт для лікування вампіризму» подає пакетний геокод із 100 адресами, ви не вважаєте, що третя сторона може обгрунтовано припустити, що в 100 будинках були люди, які намагалися вилікуватися від свого «альтернативного способу життя»? Очевидно, що це досить академічний аргумент, але якщо ви справді хочете захистити конфіденційність та анонімність, я вважаю, що це актуально.
DavidF

1
Думка @DavidF тут дуже суттєва: домашня адреса вважається дуже чутливою і може потенційно призвести до розголошення учасників дослідження. Якщо є 1000 запитів від IP-адреси установи, яка вивчає вампіризм, можна просто припустити, що вони мають адреси потенційних 1000 вампірів. Моє питання тут полягає в тому, чи може служба онлайн геокодування вважатись "безпечною стороною" в таких умовах? Чи можуть вас звинуватити в обміні вами даними з несанкціонованою стороною, яка не є частиною навчання? Сторона, що через процес геокодування потенціал отримав доступ до даних?
radek

4

Геокодування - низький ризик початку цього року ми працювали з деякими лікарнями, і це питання виникло. Сама служба геокодування не викликала особливих проблем, оскільки ми позбавили всіх даних, окрім ідентифікатора та адреси, використали захищену передачу (https) та TOS. Наш власний геокодер вказав захист конфіденційності, достатній для задоволення їхніх критеріїв.

Відображення місцеположень анонімно складніше. Більш складний біт відображав карти розріджених даних, зберігаючи анонімність. Перший варіант, про який запитував клієнт, - додати випадкову «видумку» у кожну точку, щоб це фактичне місцезнаходження будинку було прихованим. Проблема такого підходу полягає в тому, що потрібний розмір вигулу є досить великим (1/2 милі або більше) (що робити, якщо хтось живе на фермі) і схильність користувачів карт сприймати точні місця як точні. Ми вирішили зібрати точки, які відображаються достатньо, щоб бути анонімними, зберігаючи корисну карту. Нормою інших галузей, в яких ми працювали, здається, що агрегат повинен мати щонайменше від 7 до 10 записів.


2

Я припускаю, що ви геокодуєте це, а не оприлюднюєте результати? Якщо так, то як би хмара усвідомлювала, що представляють ці дані?

Імовірно, ви також можете окуповувати будь-які дані, які ви геокодуєте, за допомогою випадкових даних, приховуючи будь-який притаманний вам шаблон.


Правильно, суть полягає в отриманні набору географічних координат для даного набору даних. весь інший аналіз буде відключений в автономному режимі, і все, що публікується далі, ніколи не використовуватиме інформацію на рівні індивідуального рівня. мені подобається ідея обдумування набору даних!
radek

2

Я не знаю, чи це нове, оскільки запитання було задано, але якщо хтось цікавився в Google Maps api v3, ви можете використовувати SSL (https). Також у розділі конфіденційності Посібника з кращих практик NAACCR він обговорює ці проблеми.


2

В Австрії це, безумовно, буде проблемою конфіденційності.

Перш за все: дані про охорону здоров'я класифікуються як чутливі, і немає сумнівів, що забороняється передавати їх третім сторонам без явної згоди особи, яка пов'язана з цим набором даних.

Навіть якщо це анонімізовано: можна геокодувати ці дані про здоров'я, але також можна геокодувати загальнодоступні регістри імені до адреси (телефонну книгу) та підключити дані про здоров'я осіб, які там проживають, тому адреси також класифікуються як особисті дані.

Це призводить до того, що вам не дозволять геокодувати цей набір даних, надсилаючи його третій стороні без явного запиту ваших учасників.


1

Вам потрібен точний геокод або загальна площа? Можливо, ви зможете використовувати лише поштовий індекс або частковий поштовий індекс f


@ user1466: точний геокод тут безумовно буде перевагою.
radek

1

Я працюю в компанії з геокодування ( YAddress.net ), і ми маємо велику кількість клієнтів із суворими вимогами конфіденційності - фінансова галузь, охорона здоров'я, право тощо.

Ми вирішуємо їхні проблеми конфіденційності двома способами:

  1. Обробка даних в Інтернеті через зашифровані SSL з'єднання (запобігає перенесенню даних у дорозі), а також угоди про конфіденційність з нашої сторони. Цього достатньо для деяких клієнтів, але не для всіх.

  2. Для максимальної конфіденційності - це варіант розгортання програмного забезпечення на місці, коли геокодування відбувається повністю в приміщеннях замовника, і жодні дані не передаються через Інтернет.

Як правильно зазначили інші коментатори, поштова адреса сама по собі є загальнодоступною інформацією і без будь-яких контекстуальних даних (наприклад, імен клієнтів, номерів тощо) не представляє жодного розголошення нічого. Однак підприємства з реального життя діють у правовому середовищі реального життя, де ця аргументація може або не може стояти в суді. Якщо конфіденційність викликає нагальне занепокоєння, додаткові витрати на рішення на місці можуть бути вартими того, щоб уникнути ризику можливих юридичних ускладнень у дорозі.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.