Чи схвалив журнал Science «Сад форкінгу патетів»?


29

Ідея адаптивного аналізу даних полягає в тому, що ви змінюєте свій план аналізу даних, коли ви дізнаєтесь більше про них. Що стосується дослідницького аналізу даних (EDA), це, як правило, гарна ідея (ви часто шукаєте непередбачені зразки в даних), але для підтверджуючого дослідження це широко сприймається як дуже хибний метод аналізу (якщо не всі кроки чітко визначені та належним чином сплановані наперед).

При цьому, адаптивний аналіз даних зазвичай полягає в тому, скільки дослідників насправді проводять свої аналізи, що дуже шкодить статистикам. Як таке, якби це можна було зробити статистично обґрунтованим чином, це зробило б революційну статистичну практику.

Наступна стаття Science стверджує, що знайшла спосіб зробити таке (прошу вибачення за платну стіну, але якщо ви перебуваєте в університеті, ви, ймовірно, маєте доступ): Dwork et al, 2015, Проведення повторного використання: Збереження дійсності в адаптивному аналізі даних .

Особисто я завжди скептично ставився до статистичних статей, опублікованих у Science , і ця не відрізняється. Насправді, прочитавши статтю двічі, включаючи додатковий матеріал, я не можу зрозуміти (взагалі), чому автори стверджують, що їх метод перешкоджає надмірному розміщенню.

Я розумію, що у них є набір даних про тримання, який вони повторно використовуватимуть. Вони, схоже, стверджують, що "запаленням" результатів підтверджуючого аналізу на наборі даних про тримання, запобігання надмірного пристосування буде попереджено (варто відзначити, що наплавлення, здається, просто додає шум, якщо обчислена статистика на даних тренувань є достатньо далеко з обчисленої статистики за даними про тримання ). Наскільки я можу сказати, немає жодної реальної причини, яка мала б запобігти надмірному розміщенню.

Я помиляюся, що пропонують автори? Чи є якийсь тонкий ефект, який я не помічаю? Чи наука схвалила найгіршу статистичну практику на сьогоднішній день?


2
Тим, хто не має доступу до науки, можливо, захочеться ознайомитися з цією останньою статтею новин про науку про те, як можна отримати доступ до паперів, що отримують оплату.
амеба каже, що повернеться до Моніки

1
Це, можливо, препринт: arxiv.org/pdf/1411.2664.pdf ?
Тім

1
@Tim: стаття Science цитує передрук, який ви опублікували. Також розділ Laplacian Noise Addition здається дуже схожим, але не тотожним методам у опублікованій статті.
Кліф АВ

1
@CliffAB, тому вони, можливо, використовували різну конфіденційність, щоб зробити їх різними;)
Тім

4
Ця тема насправді є підручником в ICML минулого місяця. "Ригорна драгірування даних: теорія та інструменти для адаптивного аналізу даних" деяких колег в Google. icml.cc/2016/?page_id=97
horaceT

Відповіді:


7

Є публікація авторів у блозі, яка описує це на високому рівні.

Цитувати з початку цієї публікації:

Щоб зменшити кількість змінних та спростити наше завдання, спочатку вибираємо кілька перспективних змінних, наприклад, ті, які мають позитивну кореляцію із змінною відповіді (систолічний артеріальний тиск). Потім ми підходимо до лінійної регресійної моделі на вибраних змінних. Щоб виміряти корисність нашої моделі, ми витягли стандартний F-тест з нашого улюбленого підручника зі статистики та повідомимо про отримане p-значення.

Фрідман показав, що повідомлене р-значення сильно вводить в оману - навіть якщо дані були абсолютно випадковими, без кореляції між змінною відповіді та точками даних, ми, ймовірно, спостерігатимемо значне p-значення! Упередженість пов'язана з тим, що ми вибрали підмножину змінних адаптивно на основі даних, але ми ніколи цього не враховуємо. Існує величезна кількість можливих підмножин змінних, які ми вибрали. Сам факт того, що ми вибрали один тест над іншим, заглянувши в дані, створює зміщення вибору, що визнає недійсними припущення, що лежать в основі F-тесту.

Парадокс Фрідмана є важливим уроком. Рівень значущості стандартних процедур не охоплює величезної кількості аналізів, які можна вибрати для проведення чи опущення. З цієї причини адаптивність - одне з основних пояснень того, чому результати досліджень часто хибні, як це стверджували Гельман та Локен, які влучно називають адаптивність «садом шляхних шляхів».

Я взагалі не бачу, як їхня техніка вирішує це питання. Отож, відповідаючи на ваше запитання, я вважаю, що вони не звертаються до Саду прогулянкових шляхів, і в цьому сенсі їхня техніка примхне людей до помилкового почуття безпеки. Не сильно відрізняється від того, що сказати "я використав перехресну перевірку" багато хто - хто використав невкладене резюме - в помилковому почутті безпеки.

Мені здається, що більша частина публікацій у блозі вказує на їхню техніку як кращу відповідь на те, як уберегти учасників змагань у стилі Кагла від підйому градієнта тестового набору. Що є корисним, але не стосується безпосередньо розгалужувальних шляхів. Складається враження, що він має аромат Wolfram та Google New Science, де величезна кількість даних перейме на себе. Ця розповідь має неоднозначний досвід, і я завжди скептично ставлюсь до автоматизованої магії.


3

Я впевнений, що я надто спрощую цю диференціальну техніку конфіденційності тут, але ідея має сенс на високому рівні.

Коли ви отримаєте алгоритм, щоб виплюнути хороший результат (ух, точність на моєму тестовому наборі дійсно покращилася), ви не хочете відразу ж переходити до висновку. Ви бажаєте прийняти це лише тоді, коли вдосконалення значно більше, ніж попередній алгоритм. Ось причина для додавання шуму.

EDIT: Цей блог має хороші пояснення та R-коди для демонстрації ефективності шумозахисту, http://www.win-vector.com/blog/2015/10/a-simpler-explanation-of-differential-privacy/


>τ

1
@CliffAB У мене таке ж нудне відчуття, чому це працює краще, ніж просто простий поріг. Але вони мають докази!
horaceT

>τ

@CliffAB Чи можете ви детальніше? де? Це інтригуюча можливість ....
horaceT

Використовуючи слайди з попереднього посилання ( icml.cc/2016/?page_id=97 ), на слайдах 72 та 73, навіть при використанні методу "Поріг порогу", точність тримання більша, ніж свіжі дані при кожному симуляції, хоча це краще, ніж "стандартне проведення" (що насправді "стандартне зловживання набором даних перевірки", а не фактична дійсна статистична процедура). FYI, сюжет відображається на слайдах таким же, як у науковому документі (на випадок, якщо у вас немає доступу).
Кліф АВ

3

Твердження, що додавання шуму допомагає запобігти надмірному оснащенню, справді затримує воду тут, оскільки те, що вони насправді роблять, обмежує спосіб їх використання . Їх метод насправді робить дві речі: він обмежує кількість запитань, які можна задати учасникам, і скільки кожної з відповідей розкривається про дані про проведення.

kknn/k

n/kk

Основою їх методу є взаємозв'язок між алгоритмічною стійкістю та пристосованістю, яка сягає кінця 1970-х років (Devroye і Wagner 1978). Приблизно, це говорить

AXq=A(X)AXPqxqP

A()f(A())fqAA

Зараз існує досить багато робіт, які аналізують, як різні процедури додавання шуму контролюють пристосування. Відносно читається такий: Руссо та Зуу ( https://arxiv.org/abs/1511.05219 ). Деякі новітні подальші документи про початкову роботу Dwork et al. також може бути корисно подивитися. (Відмова: У мене є два статті на цю тему, останній пояснює зв'язок із тестуванням адаптивних гіпотез: https://arxiv.org/abs/1604.03924 .)

Сподіваюся, що все допомагає.


0

Я заперечую проти вашого другого речення. Думка про те, що повний план аналізу даних слід визначити заздалегідь, є невиправданою навіть в умовах, коли ви намагаєтесь підтвердити існуючу наукову гіпотезу. Навпаки, будь-який гідний аналіз даних вимагатиме певної уваги до фактично отриманих даних. Дослідники, які вважають інакше, - це, як правило, дослідники, які вважають, що перевірка значимості - це початок і кінець аналізу даних, і це не має жодної ролі для описової статистики, графіків, оцінки, прогнозування, вибору моделі тощо. виправити свої аналітичні плани заздалегідь має сенс , так як звичайні способи , в яких р-розрахунки, що розраховуються, вимагають, щоб розмір вибірки та тести, що проводяться, приймалися заздалегідь, перш ніж побачити будь-які дані. Ця вимога стримує аналітика, а тому є однією з багатьох вагомих причин не використовувати тести на значимість.

Ви можете заперечити, що дозволити аналітикові вибирати, що робити після того, як побачити дані, дозволяє переоцінити. Так, але хороший аналітик покаже всі проведені ними аналізи, чітко скаже, яка інформація в даних використовувалася для прийняття аналітичних рішень, та використовує методи, такі як перехресна перевірка. Наприклад, звичайно чудово перекодувати змінні на основі отриманого розподілу значень, але вибираючи для деякого аналізу 3 провідники з 100, які мають найбільш близьку спостережувану асоціацію до залежної змінної, означає, що оцінки асоціації будуть позитивними упереджений, за принципом регресії до середнього. Якщо ви хочете робити вибір змінних в прогнозованому контексті, вам потрібно вибрати змінні всередині складених між собою схем перехресної перевірки або використовувати лише дані навчання.


2
Я вважаю, що багато чого, що ви пропонуєте, вписується у сферу дослідницького аналізу даних (EDA), для якої я схвалив адаптаційні методи аналізу даних. Я також вважаю, що EDA недооцінюється, і їй слід надавати більше кредитів. Але все це є ортогональним для питання, що знаходиться під назвою: "Чи справді ці автори дозволяли нам неодноразово використовувати дані валідації для вибору моделі методом статистичного обгрунтування?" Ваше останнє речення говорить про те, що ви, як і я, дещо скептично ставляться до таких висновків.
Кліф АВ

Я не думаю, що, наприклад, оцінка суттєво розвідувальна, ні. Якщо у вас є наукова гіпотеза, яка говорить про те, що максимальна довжина крокодила повинна бути 12 футів, і ви намагаєтесь оцінити максимальну довжину крокодила, щоб перевірити це, ви робите підтверджуючий аналіз.
Кодіолог

2
+1, незважаючи на три існуючі потоки. Я погоджуюся з основним моментом цієї відповіді (вашим другим реченням), хоча я цілком усвідомлюю, що це досить суперечливо. Взагалі, я вважаю, що різниця між дослідницьким та підтверджуючим аналізом завищена; аналіз реального життя часто знаходиться десь посередині. Однак, я не думаю, що ви відповіли (або навіть не намагалися відповісти) на питання ОП, яке стосувалося Дворка та ін. папір.
амеба каже: Відновити Моніку

@amoeba "Я не думаю, що ви відповіли (або навіть не намагалися відповісти) на питання ОП, яке стосувалося паперу Дворцю та ін." передумова питання.
Кодіолог

2
+1 до коментаря @ amoeba Це було б чудовим коментарем до питання, але це не відповідь.
S. Kolassa - Відновити Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.