Які інструменти існують для маскування даних? (MySQL, Linux) [закрито]


14

Я шукаю (ідеально вільний, відкритий) інструмент маскування даних. Чи існує таке?

Примітка: це пов'язане питання стосується інструментів для генерації тестових даних, але в цьому питанні я більше зацікавлений починати з реальних даних і маскувати їх для використання в тесті, не втрачаючи особливих зв’язків, які роблять його цікавим для тестових цілей. Згенеровані дані чудово підходять для деяких тестових цілей, але дані в реальному світі спричинить проблеми, про які ви ніколи не думали. Інструмент для генерації великих наборів даних тестових даних

Відповіді:


9

Я був би дуже здивований, якби для цього існував загальний інструмент - як би він "знав", що є конфіденційними даними, а що ні? Наприклад, потрібно було б вивчити всі ваші дані та розпізнати всі можливі формати номера кредитної картки, номер телефону, поштовий індекс, електронну адресу та будь-які інші дані, які вважаються чутливими. Це також має бути уважним щодо вашої схеми - наприклад, якщо вона повинна переписати всі електронні адреси клієнтів на "none@company.com" - чи будь-яка частина вашої бази даних, додатків, інших інструментів передбачає, що електронна адреса клієнта (або SSN або що завгодно) унікальне? Або у вас є частина програми, яка перевіряє номери кредитних карток, яка може зламатися, якщо ви скинете їх на 0000 0000 0000 0000? Або ваша телефонна система передбачає, що клієнт "

В основному, налаштування будь-якого інструменту для цього буде набагато більшою роботою, ніж просто написання власного сценарію, використовуючи ваші знання програми. На моєму веб-сайті ми просто створили політику, щоб кожен, хто додає стовпець з такими даними в оновленому сценарії, анонімно його одночасно, після первинного аудиту знайти всі ці стовпці та написати версію 1.


1
Я знаю, що є комерційні інструменти, так як на попередньому робочому місці існувала (невдала) ініціатива використовувати один для наших Oracle Dbs. (Я не брав участі в цьому проекті, тому не знаю причин відмови. Я підозрюю, що встановлення інструменту маскування даних для застарілого DB буде дуже копітким завданням, як ви пропонуєте).
тестераб

3
О, я сподіваюся, що хтось продасть тобі щось, що претендує на це, але, як я кажу, його налаштування буде більше справою, ніж написання власного в SQL, тому що вам доведеться спочатку навчитися їх хакейному DSL!
Гай

5

Якщо ваша база даних крихітна, має просту модель даних і її добре розуміють поточні дані DBA - відповідь сценаріїв "може". Однак зусилля (та витрати) на те, щоб вручну проаналізувати та замаскувати типові бази даних, можуть вийти з-під руки досить швидко, оскільки зміниться вимог, додається функціональність та приходять розробники / DBA.

Хоча мені не відомі будь-які продукти з маскуванням даних із відкритим кодом, доступні комерційні пропозиції, які є досить вичерпними, відносно простими у використанні та можуть бути на диво розумними. Багато з них включають можливість відкритого відкриття для виявлення та класифікації конфіденційних даних (SSN, кредитні картки, телефонні номери), а також функціональність для підтримки контрольних сум, форматування електронної адреси, групування даних тощо, так що маскуються дані виглядає і відчуває себе реально.

Але не потрібно сприймати моє (правда, упереджене) слово. Попросіть галузевих аналітиків, таких як Gartner або Forrester, які мають ряд об'єктивних звітів про маскування, які можуть допомогти.

Сподіваємось, ці коментарі спонукають вас розглянути питання про комерційну продукцію, а також про розробку внутрішнього сценарію. Зрештою, найважливіше - захищати конфіденційні дані, які багато хто з нас бачать день у день та вихідні, які нам справді не потрібно бачити, щоб виконувати свою роботу - розміщуючи нас та людей, чиї особисті дані, які ми ризикуємо.

Кевін Хільєр, старший спеціаліст з інтеграції, Camouflage Software Inc.


1
Я усвідомлюю, що ви не хочете зустрічатися як продаж власного товару, але було б корисно, якби ви могли назвати пару комерційних товарів або вказати на якусь конкретну пораду?
testerab

1
Я розумію, що ви працюєте в цій компанії, і що ви, швидше за все, хочете порекомендувати свій товар, і я не проти цього, але через сиг це виглядає як хитра реклама, а не "я знаю, про що я говорю , тому що це те, що я роблю "... я більше переконання" використовувати бла-бла-бла (Повне розкриття: я працюю над цим продуктом), тому що бла-бла-бла ", і не ставте своє ім’я в кінці. Якщо ми хочемо ваших особистих даних, ми можемо натиснути на вашого захисника і прочитати цей знак та натиснути посилання там.
jcolebrand

5

Ніколи не бачив такого предмета, але, працюючи з кількома чутливими наборами даних у свій час, головне, що потрібно скремтувати, - це особистість людей або особиста інформація. Це має відображатися лише в кількох місцях бази даних.

Ваша операція маскування повинна зберігати статистичні властивості та зв’язки даних, і, ймовірно, повинна зберігати фактичні довідкові коди (або принаймні якийсь механізм керованого перекладу), щоб ви могли привести їх у відповідність до фактичних даних.

Такого роду можна досягти, отримавши чіткий список імен у полях та замінивши його чимось на зразок FirstNameXXXX (де XXXX - це порядковий номер, по одному для кожного окремого значення). Номери кредитних карток та подібна інформація, яка може бути використана для крадіжки особистих даних, є цілком ймовірно, що це не так у середовищі розробки, але справжні потрібні лише тоді, коли ви тестуєте системи обробки платежів - зазвичай постачальник надасть вам спеціальні коди для фіктивних рахунків.

Написати подібні процедури анонімізації не особливо складно, але вам потрібно буде погодитись саме з тим, що потрібно анонімізувати з бізнесом. При необхідності проходьте по базі даних по поля. Прохання так / ні дасть помилкові позитиви, яких ви не хочете. Попросіть представника бізнесу пояснити, чому є наслідки чи регуляторні наслідки не анонімності конкретних даних.


3

У мене було те саме завдання кілька тижнів тому. ми оцінювали деякі програмні системи, але більшість з них призначені лише для одного типу баз даних, наприклад, oracle, і вони часто дуже складні у використанні ... так що не найприємніше це оцінити. Ми пройшли тижні.

Ми вирішили придбати професійну версію для маскування даних, оскільки це було найпростішим. Також є цікаві можливості маскування даних, наприклад, ви можете змінити адреси електронної пошти на справжні вигляд, наприклад ... @ siemens.com на mike.miller@seimsen.com.

Ви можете спробувати безкоштовно для близько 500 (?) Записів, наскільки я пам’ятаю.

Ось посилання http://www.data-masking-tool.com/


1
Просто точка даних: станом на цей текст, інструмент маскування даних працює просто 1000 доларів.
Майкл Тепер

2

Мій спосіб зробити це:

  1. Створіть нову базу даних з лише переглядом та виберіть права для користувачів
  2. Складіть перегляди таблиць, які повинні бути переглянуті в інших базах даних
  3. Стовпці масок, які потребують маскування: повторити ('*', char_length ( column to be masked))

2

Я вперше зазначив цей шлях кілька років тому і з тих пір створив консалтинг, заснований на цій практиці.

Я припускаю, що мета полягає у створенні тестових даних для використання в тестових середовищах, коли персонал, що отримує доступ до даних, не має прав на перегляд виробничої інформації.

Перше, що потрібно встановити - це саме ті елементи даних, які потрібно замаскувати, і зробити це, найкраще почати з інструменту виявлення даних, такого як Schema Spy (Open Source), і для цього завдання вам знадобиться відповідний драйвер jdbc, але це є дуже корисним кроком у процесі.

Talend Open Studio - один з найкращих інструментів, якими я користувався в останні роки для виконання деяких функцій ETL, і ви також зможете виконати основні практики маскування, замінивши значення на випадкові або. Пошук / заміна - для підтримки узгодженості - використовуючи компонент карти.

Але якщо ви шукаєте реальний інструмент маскування даних, я не знайшов відповідного інструменту з відкритим кодом. Якщо у вас є дуже помірний бюджет на інструменти, я б запропонував Data Masker, але вам потрібно буде трохи імпортувати та експортувати через MS SQL або Oracle, оскільки він підключається лише через ці протоколи.

Перегляньте http://www.datakitchen.com.au/2012-08-14-15-04-20/data-masking/data-masker-toolset для отримання інформації про маскування даних, методології маскування даних, виявлення даних та дані тестування управління. Також є корисний блог на веб- сайті http://www.dataobfuscation.com.au


1

На ринку існує інструмент від Informatica, який називається Informatica ILM (TDM). Це використовує PowerCenter як базовий елемент для ETL та маскування даних із наявними різними варіантами маскування. Хоча вам потрібен аналітик даних або МСП, який може зрозуміти, як слід маскувати дані. Сам інструмент не забезпечує інформацію, які поля слід замаскувати, проте існує внутрішній алгоритм чи процедура або процес визначення ідентифікаційних полів даних, таких як Ім'я, стовпці ідентифікаційного номера з номером, кредитна картка, номер SSN, номер рахунку тощо.


Також Informatica ILM TDM дозволяє генерувати набір даних. Таким чином, ви можете підмножити дані та замаскувати їх або замаскувати всі дані, а потім підгрупувати їх відповідно до потреб бізнесу.
Авадеш Йона

1

Цього року у мене є можливість співпрацювати з IBM Optim, який претендує на те, щоб зробити те, про що вимагають. Не є безкоштовним, але працює чудово.


1

Найбільше мені подобається IRI FieldShield ( https://www.iri.com/products/fieldshield ) з точки зору універсальності (більшість функцій маскування даних), швидкості (двигун CoSort для переміщення даних всередині) та ергономіки (прості 4GL-завдання підтримується в його графічному інтерфейсі Eclipse з тоннами підключень до БД та файлів). Цінно, це приблизно половина IBM та Informatica, хоча вони також доступні у більшій набір інтеграції даних для «великих» перетворень даних, міграції та BI. Отже, це також не безкоштовно, але використовує деякі відкриті джерела (IDE і можуть використовувати OpenSSL та GPG) та сценарії, що працюють у Windows, Linux та інших ароматах Unix.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.