Підводні камені в експериментальному дизайні: уникання мертвих експериментів


27

Я не раз зустрічався з цією цитатою:

Для консультацій зі статистиком після закінчення експерименту часто є просто просити його провести постсмертне обстеження. Він, можливо, може сказати, від чого помер експеримент. - Рональд Фішер (1938)

Мені це здається, мабуть, трохи самонадійним. Єдині приклади, які я коли-небудь знаходив, описуючи, як експерименти вмирають без гарного дизайну, - це відсутність контролю або поганий контроль. Наприклад, експерименти, які контролюють внесення добрив, але не контролюють середовище, необхідне для внесення. Можливо, це лише я, але здається, що швидке прочитання розділу Вікіпедії про принципи дизайну Фішера охопить більшість основ.

Як статистик, як часто ви бачите розробку проблем, пов'язаних з експериментами, з даними? Чи завжди вони пов'язані з тими кількома факторами, про які згадував Фішер, або з іншими серйозними підводними камінням, на які ми повинні шукати вчених, які не є статистично?


4
Як часто: дуже часто. Називати експеримент "мертвим", як правило, надто далеко, але, як я бачу, багато експериментів могли бути набагато кращими лише незначними змінами в дизайні.
mark999

3
Я бачив декілька. Хоча це може бути самовпевненими в даний час , пам'ятайте , що , коли Фішер сказав , що це, ви можете не просто подивитися википедию. Коефіцієнт, можливо, був набагато вищим у перші дні.
Glen_b -Встановити Моніку

4
Приємно, що ви піднімаєте цю точку. Мені також цікаво, що, можливо, вперше я побачив чотириразовий класифікатор: "Мені це здається, можливо, трохи самонадійним". :-)
rolando2

1
@ rolando2: Хе, ну це Фішер. Він заробив усі ці кваліфікатори: D
naught101

5
Я бачив - буквально - багато тисяч наборів даних у своїй кар’єрі (і практично жоден з них не був зібраний згідно з дизайном, розглянутим будь-яким статистиком). Більшість із них були зібрані для формальних цілей, таких як задоволення нормативних вимог. Я не можу згадати жодного, який не мав би проблем, пов'язаних із дизайном (хоча іноді вони були незначними). Це не означає, що набори даних були марними або "мертвими": але майже у всіх випадках моїм завданням було (продовжити медичну аналогію) спочатку реанімувати набір даних, а потім застосувати його за призначенням, якщо це взагалі можливо.
whuber

Відповіді:


14

Я вважаю, що мав на увазі Фішер у своїй знаменитій цитаті, що виходить за рамки сказаного "Ми зробимо повний факторний дизайн для нашого дослідження" або інший підхід до дизайну. Консультація зі статистиком при плануванні експерименту означає інтелектуально продумати кожен аспект проблеми, включаючи мету дослідження, які змінні є актуальними, як їх збирати, управління даними, підводні камені, проміжна оцінка того, як проходить експеримент та багато іншого більше. Часто мені здається, що важливо бачити кожен аспект запропонованого експерименту, щоб зрозуміти, де лежать труднощі.

Мій досвід в основному стосується медичних застосувань. Деякі проблеми, з якими я стикався, могли завадити попереднім консультаціям зі статистиком:

  • Недостатній розмір вибірки, звичайно, номер один у цьому списку. Часто дані попередніх досліджень були б доступними, і було б легко дати розумну оцінку необхідному розміру вибірки. У цих випадках єдиним зверненням часто є чисто описовий аналіз даних та обіцяння подальших досліджень у роботі (не публікування публікацій зазвичай не є можливим після того, як лікарі вклали цінний час).
  • Виконання експериментів залишається для зручності та шансів замість дизайну. Приклад, над яким я зараз працюю, має вимірювання, зібрані за час. Часи вимірювань, періодичність вимірювання та кінець періоду моніторингу різко залежать між окремими особами. Збільшення кількості вимірювань на людину та встановлення дат вимірювань та кінець періоду моніторингу було б досить невеликою додатковою роботою (в даному випадку) і було б дуже корисною для дослідження.
  • Поганий контроль факторів неприємності, які можна було легко контролювати. Наприклад, вимірювання, наприклад, проводилися в день відбору зразків, а іноді пізніше, залишаючи можливість того, що зразок погіршився.
  • Погане управління даними, включаючи мого особистого улюбленого: "Я округлював дані, перш ніж вносити їх у комп'ютер, оскільки машина неточна у своїх вимірах". Часто відповідні дані просто не збираються, і їх неможливо отримати після факту.

Часто проблеми з дослідженням сходять ще більше, до початкової концепції дослідження:

  • Дані інколи збираються без чіткої мети і просто припущення, що вони будуть корисні якось. Вироблення гіпотез та "значущих результатів" залишається статистику.
  • І навпаки: дані викреслюються разом з метою довести конкретну точку, яку має ПІ в голові, незалежно від даних і що насправді можна довести за допомогою них. Цього разу статистик повинен просто поставити свій печат на важливість заздалегідь написаним висновкам, без того, щоб висновки були скориговані перед обличчям даних.

Поки це в основному звучить, як страждає статистик, і, можливо, наукова цілісність страждає, коли ІП намагається підштовхнути висновки, не підтримувані даними (завжди весела дискусія). Але страждає і експериментальна група, оскільки вони виконують зайву додаткову роботу (не роблячи необхідної роботи) під час експериментальної фази і їм потрібно витрачати набагато більше часу на обговорення зі своїм статистиком після того, як вони раніше не отримували їхніх порад. І звичайно, підсумковий документ буде гіршим, матиме менше висновків (і більше «домислів») і, швидше за все, не ввійде в той журнал, що впливає на ІР, який хотів би.


Що стосується другого вашого другого набору пунктів, я думаю, що нормальним обґрунтуванням дослідження є збір даних з метою доведення конкретних моментів.
Роберт Джонс

1
Ви, звичайно, абсолютно праві. Мене там трохи не вистачало. Я мав на увазі згадати сценарій, коли ПІ, який дуже налаштований довести точку та дані низької якості, які не можуть довести цю точку (часто через принципові проблеми дизайну), збираються разом.
Роб Холл

12

Два слова: Розмір вибірки ... Необхідний аналіз потужності. Включивши у свою команду грамотного статистичного представника з початку роботи, ви, ймовірно, вбережете себе від великого розчарування, коли будете писати підсумки та дискусійні розділи свого рукопису чи звіту.

Зазвичай, головний дослідник збирає дані до консультацій зі статистиком з очікуванням "прогнозної моделі" або "причинного зв'язку" із вибірки, що становить менше 30 суб'єктів. Якби ПІ проконсультувався зі статистиком до збору даних, статистик міг би повідомити ІП, після відповідного аналізу, зібрати більше даних / суб'єктів або реструктурувати цілі плану / проекту аналізу.


1
Я не погоджуюсь з "Аналіз потужності обов'язковий". Я думаю, що багато людей завищують важливість аналізу влади.
mark999

3
@ mark999: Це може бути, але це не заперечує важливості проведення якогось аналізу потужності перед тим, як робити експеримент, який я розумію як пункт Метта.
Scortchi

3
@ mark999: Звичайно, вони можуть виявитися корисними. Але за яких обставин ви б не рекомендували виконувати будь-який аналіз потужності (я включаю оцінку очікуваної ширини довірчих інтервалів) перед тим, як робити експеримент? Я можу подумати лише про (1) пілотне дослідження, де вас цікавить лише пробіжка по протоколу і груба оцінка помилки, і (2) експеримент, для якого ви не можете вибрати розмір вибірки з певних причин, роблячи аналіз потужності надлишковий.
Scortchi

2
@ mark999: Я думаю, що ми це робимо. Для вашого випадку (B) я б запропонував експериментальне дослідження -> аналіз потужності -> експеримент для тестування гіпотез або оцінки розмірів ефекту як безперебійного плану.
Scortchi

3
Навіть якщо у вас фіксований розмір зразка, я не бачу жодних причин закопувати голову в пісок і уникати аналізу потужності (розумні відповіді на обмеження ресурсів і незнання вбік).
Енді Ш

11

Я думаю, це залежить від того, наскільки суворо ви інтерпретуєте слово "дизайн". Іноді прийнято означати повністю рандомізовані проти рандомізованих блоків тощо. Я не думаю, що я бачив дослідження, яке померло від цього. Також, як згадували інші, я підозрюю, що "помер" занадто сильний, але це залежить від того, як ви інтерпретуєте цей термін. Звичайно, я бачив дослідження, які були «незначними» (і згодом дослідники не намагалися опублікувати); за припущенням, що ці дослідження могли бути «значущими», якби вони проводилися по-іншому (за очевидними порадами, які я дав би), і, отже, були опубліковані, можуть бути кваліфіковані як «померлі». Зважаючи на цю концепцію, питання, пов'язані з електроживленням, порушені і @RobHall, і @MattReichenbach, є досить очевидним, але потужність більше, ніж розмір зразка, і вони можуть підпадати під більш слабку концепцію "дизайну". Ось кілька прикладів:

  • Не збираючи / не записуючи / не викидаючи інформації,
    я працював над дослідженням, де дослідників цікавило, чи певна ознака пов’язана з раком. Вони отримали мишей з двох ліній (тобто генетичних ліній, мишей розводили за певними властивостями), де, як очікувалося, одна лінія матиме більше ознаки, ніж інша. Однак питання, про яке йдеться, насправді не було виміряно, хоча воно могло бути. Ця ситуація є аналогічною дихотомізації чи бінінгу суцільної змінної, що зменшує потужність. Однак, навіть якби результати були «значущими», вони були б менш інформативними, ніж якби ми знали величину ознаки для кожної миші.

    Інший випадок у цій же рубриці - це не задумуватися та збирати очевидні коваріати.

  • Погана конструкція анкети
    Я нещодавно працював над дослідженням, де проводили обстеження задоволеності пацієнтів у двох умовах. Однак жоден із предметів не був набраний зворотним балом. Виявилося, що більшість пацієнтів просто пішли за списком і відзначили всі 5 ( погоджуюсь ), можливо, навіть не читаючи їх. Були ще деякі проблеми, але це досить очевидно. Як не дивно, співробітник, який займається дослідженням, сказав мені, що її відвідування прямо спонукало її не ветеринувати дослідження зі статистиком, навіть якщо ми безкоштовні та зручні для такого консультування.


Вау ... з першим, що ж вони вимірюють? це здається трохи, гм, очевидним. Або їм заздалегідь дали впевненість, що риси в різних лініях різні? Другий приклад - класна, така собі рандомізація, про яку більшість людей не думає.
naught101

5
Це було просто тестування 1 штаму проти іншого. Розглянута ознака насправді, як правило, є вищою для одного з рядків, але є певне перекриття - розподіли повністю не розділені.
gung - Відновіть Моніку

У мене був подібний досвід, як у пункті 1: мікрофлюїдний пристрій був встановлений для розпізнавання певного типу клітин. Була введена суміш клітин, які слід розпізнати та контрольні клітини, та отримано відеопотік + сигнальний потік, який буде використовуватися для розпізнавання На жаль, хоча відеопотік може бути використаний як орієнтир щодо того, чи була клітина в детекторі в даний момент, не було можливості сказати, який тип клітини насправді є, тому жоден спосіб визначити, чи був сигнал справжній позитивний чи хибний негативний або відсутність сигналу був істинним негативним або хибнопозитивним ...
cbeleites підтримує Моніку

8

Я бачив подібну проблему в опитувальних та психологічних експериментах.

В одному випадку весь експеримент повинен бути складений на основі досвіду навчання. Були проблеми на декількох рівнях, які призводили до сукупності результатів, але результати, схоже, дають певну підтримку гіпотезі. Зрештою, я зміг допомогти спланувати більш жорсткий експеримент, який по суті мав достатню силу для відхилення гіпотези.

В іншому випадку мені було передано опитування, яке вже було розроблено та виконано, і було багато проблем, в результаті яких було порушено декілька цікавих сфер. Наприклад, в одній з ключових областей вони запитували, скільки разів клієнтів відхиляли від події через те, що вона була повною, коли вони прибули. Проблема полягає в тому, що в цьому питанні немає часового діапазону, тому ви не могли сказати різницю між тим, хто намагався відвідати 4 рази та був відвернутий 4 рази, і тим, хто намагався відвідати 40 разів і лише 4 рази відвертався. .

Я не навчений столичний статистик, але якби вони заздалегідь прийшли до мене, я б зміг допомогти їм виправити ці проблеми та отримати кращі результати. У першому випадку все-таки було б невтішним: "Вибачте, ваша гіпотеза здається вкрай малоймовірною", але це могло б врятувати їм другий експеримент. У другому випадку це дало б їм відповіді на деякі важливі питання і зробило б результати більш чіткими. (Ще одна їхня проблема полягала в тому, що вони обстежували декілька локацій протягом часу, і принаймні деякі люди опитувались неодноразово, без жодних запитань на кшталт "Чи брали ви це опитування в іншому місці?")

Можливо, самі по собі не є статистичними питаннями, але в обох цих випадках розумні, добре освічені фахівці з доменів створили інструменти, які були помилковими, і результати були одним мертвим експериментом та одним експериментом з ампутацією кінцівок.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.