Як впоратися з дослідницьким аналізом даних та днопоглинанням даних у дослідженнях малих зразків?


25

Дослідницький аналіз даних (EDA) часто призводить до вивчення інших "слідів", які не обов'язково належать до початкового набору гіпотез. Я стикаюся з такою ситуацією у випадку досліджень з обмеженим розміром вибірки та великою кількістю даних, зібраних за допомогою різних анкетування (соціально-демографічні дані, нейропсихологічні або медичні шкали - наприклад, психічне або фізичне функціонування, рівень депресії / тривожності, контрольний список симптомів ). Буває, що EDA допомагає виділити деякі несподівані зв’язки ("несподівані", тобто вони не були включені до початкового плану аналізу), що перетворюється на додаткові запитання / гіпотези.

Як і у випадку з надмірним оснащенням, днопоглинання даних або прибігання даних призводять до результатів, які не узагальнюють. Однак, коли є багато даних, досить важко (для дослідника чи лікаря) постулювати обмежений набір гіпотез.

Мені хотілося б знати, чи існують добре визнані методи, рекомендації чи правила, які можуть допомогти розмежувати ЗНО у випадку невеликих вибіркових досліджень.


Я не зовсім впевнений, чому розмір вашого зразка має значення. Чи можете ви запропонувати більше конкретних міркувань щодо того, чому ви вважаєте, що для малого n він відрізняється, ніж для великого n?
Енді Ш

2
13<н<25нσ

Я думаю, що я можу зрозуміти ці настрої, якщо те, що вас цікавить, - виключно класифікація. Я думаю, що для причинного висновку проблеми з прослуховуванням даних однакові (тобто проблеми не вирішуються збільшенням потужності для виявлення взаємозв'язків). Я спробую сформулювати цю думку у відповідь. Тим часом я можу задати питання на головному форумі про використання перехресної перевірки для причинного висновку, оскільки я не стикався з жодною роботою в своїй галузі, яка б це робила.
Енді Ш

1
@Andy Дякую Сподіваємось, ваше запитання отримає багато цікавих відповідей.
chl

Відповіді:


10

Я думаю, що головне - бути чесним при повідомленні таких результатів, щоб вони були несподіваними висновками ЗНО та не були частиною початкового плану аналізу на основі апріорної гіпотези. Деякі люди люблять маркувати такі результати «генеруючими гіпотезами»: наприклад, перший удар із пошуку цієї фрази в Google Scholar включає наступне у розділі висновку свого реферату:

Оскільки це був "дослідницький" аналіз, цей ефект слід розглядати як гіпотезу, що генерує та оцінювати перспективно в інших випробуваннях ...

Хоча зауважте, що хоч це був аналіз спеціальних підгруп, він був проведений з рандомізованого контрольного випробування, а не спостережного дослідження, в якому проблема загострюється. Філіп Коул з презирством висловив думку про те, що спостережливі («епідеміологічні») дослідження можуть породжувати гіпотези у свідомо провокаційному, але цікавому коментарі:

П Коул. Генератор гіпотез. Епідеміологія 1993; 4 : 271-273.


+1 Дякуємо за посилання (та позначку). Я погляну в цей бік.
chl

13

Я просто відкидаю кілька посилань про драгування даних та клінічні дослідження для зацікавленого читача. Це покликане продовжити точну відповідь @onestop . Я намагався уникати статей, зосереджених лише на декількох порівняннях або питаннях дизайну, хоча дослідження з різними кінцевими точками продовжують представляти складні та суперечливі дискусії (довгий час після тверджень Ротмана про марні коригування , Епідеміологія 1990, 1: 43-46; або див. Огляд Фейз у BMC Методика медичних досліджень 2002, 2: 8).

Я розумію, що, хоч я і говорив про дослідницький аналіз даних , моє питання загалом стосується використання даних видобутку з його потенційними підводними помилками, паралельно з тестуванням на основі гіпотез.

  1. Koh, HC and Tan, G (2005). Додатки для обміну даними в галузі охорони здоров'я . Журнал управління інформацією про охорону здоров'я , 19 (2), 64-72.
  2. Іоаннідіс, JPA (2005). Чому більшість опублікованих досліджень є хибними . PLoS Медицина , 2 (8), e124.
  3. Anderson, DR, Link, WA, Johnson, DH, and Burnham, KP (2001). Пропозиції щодо представлення результатів аналізу даних . Журнал управління дикою природою дикими тваринами, 65 (3), 373-378. - це лунає в коментарі @ onestop про те, що ми маємо визнати дослідження / моделювання, керовані даними, поза вихідним набором гіпотез
  4. Michels, KB та Rosner, BA (1996). Тралінг даних: ловити рибу чи ні . Ланцет , 348, 1152-1153.
  5. Lord, SJ, Gebski, VJ та Keech, AC (2004). Численні аналізи в клінічних випробуваннях: обгрунтована наука чи днопоглиблення? . Медичний журнал Австралії , 181 (8), 452-454.
  6. Smith, GD та Ebrahim, S (2002). Драгування даних, упередженість або заплутаність . BMJ , 325, 1437-1438.
  7. Afshartous, D і Wolf, M (2007). Уникнення "прослуховування даних" у моделях із багаторівневими та змішаними ефектами . Журнал Королівського статистичного товариства A , 170 (4), 1035–1059
  8. Anderson, DR, Burnham, KP, Gould, WR, and Cherry, S (2001). Побоювання щодо пошуку ефектів, які насправді є хибними . Вісник товариства Widlife , 29 (1), 311-316.

Це лише резюме того, що я читав досі. Очевидно, я не прийму власної відповіді . Будь-які інші думки були б вдячні.
chl

Дякуємо, що прийняли мою відповідь чі, хоча ваш власний довідковий список набагато кращий та останній. Я дійсно повинен був би подумати про пару з них сам, коли я отримав їх на своєму жорсткому диску, і, можливо, навіть прочитав їх частини ...
onestop
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.