Добрий приклад даних, необхідний при коваріаті, ураженому лікуванням


19

Я переглянув безліч наборів даних R, публікацій в DASL та інших місцях, і не знаходжу дуже багато хороших прикладів цікавих наборів даних, що ілюструють аналіз коваріації експериментальних даних. У підручниках зі статистикою є численні набори "іграшкових" даних із надуманими даними.

Я хотів би мати приклад, де:

  • Дані справжні, з цікавою історією
  • Існує хоча б один фактор лікування та два коваріати
  • Щонайменше на один ковариант впливає один або кілька факторів лікування, а на лікування не впливає один.
  • Переважно експериментальний, а не спостережний

Фон

Моя реальна мета - знайти хороший приклад, щоб скласти віньєтку для мого пакету R. Але більша мета полягає в тому, що люди повинні бачити хороші приклади, щоб проілюструвати деякі важливі проблеми при аналізі коваріації. Розгляньте наступний складений сценарій (і, будь ласка, зрозумійте, що мої знання сільського господарства в кращому випадку поверхневі).

  • Ми робимо експеримент, коли добрива рандомізовано на ділянки, і висаджують урожай. Після відповідного періоду вирощування ми збираємо урожай і вимірюємо деякі характеристики якості - ось змінна відповідь. Але ми також фіксуємо загальну кількість опадів протягом періоду вегетації, а також кислотність ґрунту під час збору врожаю - і, звичайно, яке добриво було використано. Таким чином, у нас є два ковариати і лікування.

Звичайним способом аналізу отриманих даних було б встановлення лінійної моделі з трактуванням як фактором та адитивними ефектами для коваріатів. Потім для підбиття підсумків слід обчислити «скориговані засоби» (AKA найменших квадратів), які є прогнозами з моделі для кожного добрива, при середній кількості опадів та середній кислотності грунту3. Це ставить усе на рівних, тому що тоді, коли ми порівнюємо ці результати, ми тримаємо постійну кількість опадів і кислотність.

Але це, мабуть, неправильно робити - адже добриво, ймовірно, впливає на кислотність ґрунту, а також на реакцію. Це робить скориговані засоби вводити в оману, тому що ефект лікування включає його вплив на кислотність. Одним із способів впоратися з цим було б вилучення кислотності з моделі, тоді засоби, що регулюються опадами, забезпечили б справедливе порівняння. Але якщо кислотність важлива, ця справедливість досягає великої вартості, збільшуючи залишкові зміни.

Існують способи обійти це за допомогою коригуваної версії кислотності в моделі замість початкових значень. Майбутнє оновлення мого пакету lsmeans зробить це абсолютно просто. Але я хочу мати гарний приклад, щоб проілюструвати це. Я буду дуже вдячний і належним чином визнаю кожного, хто може вказати мені на кілька хороших ілюстративних наборів даних.


1
Хоча це, без сумніву, і важливе, і цікаве питання, здається, що це може бути невдалим у правилах, що стосуються теми : " Питання щодо отримання певних наборів даних є поза темою (вони занадто спеціалізовані). "
Glen_b -Встановити Моніка


1
Моє враження від відповідей поки що полягає в тому, що ми з обережністю даємо інші питання на кшталт цієї пустої перевірки, вирішивши твердо на її користь, але що ми переважно підтримуємо саме це питання і навіть трохи прагнемо дізнатися, що види відповідей, які ви можете отримати (можливо, цей біт - це лише я). Чого ми б не хотіли, це погано написані значки цього запитання, які вимагають наборів даних, за допомогою яких можна довести точки зі статистикою, але не про статистику. Тобто, одне, що потрібно звернутися за допомогою у демонстрації статистичного принципу, але було б інше попросити набори даних, що стосуються домену ...
Nick Stauner

3
Гаразд, це звучить як гарна ідея. Я робив набагато гірші речі в минулому, щоб знизити свою репутацію ...
rvl

2
@SteveS Я згоден, що це хороший кандидат на винагороду; Дійсно, я просто прийшов сюди, щоб покласти його на себе , тільки щоб виявити, що Росс це вже робив. Якщо за тиждень не знайдеться жодних хороших відповідей, я можу подумати про те, щоб покласти другий приріст. Русс: принади на цікаві питання, як правило, привертають достатньо уваги, що наступні юристи часто так чи інакше платять за них, тому втрата репутації часто набагато менш крута, ніж здається на перший погляд.
Glen_b -Встановіть Моніку

Відповіді:


6

Ви можете перевірити mediationпакет R. Він включає експериментальні дані, такі як jobsі framingколи змінна терапія впливає як на змінну реакції, так і на коваріати (тобто медіатори ефекту лікування), а також коваріати, на які лікування не впливає.

Я заглянув у літературу про посередництво, тому що, хоча ви точно описали дослідження посередництва: вплив добрив на якість сільськогосподарських культур опосередковується завдяки його впливу на кислотність ґрунту. Навіть якщо набори даних у mediationпакеті вас не задовольняють, ви можете їх знайти, якщо заглянути в літературу про посередництво.


Спасибі. Я встановив пакет і перегляну його. І можливість дізнатися щось нове.
rvl

Цікаво, що дані про робочі місця згадувались у двох з трьох переговорів на сесії JSM, яку я щойно відвідував ...
rvl

1
Ну, я б хотів, щоб я міг якось розділити щедроту. Але цей пакет має готові набори даних, які дуже підходять до того, про що я запитав, тому @MasatoNakazawa отримує щедрість. Дуже дякую. Використовуючи framingдані, графіки взаємодії LSmeans (на основі логістичної моделі), коли опосередковану змінну утримують фіксованою, різко відрізняються від тих, де вона встановлена ​​на значення, передбачені методами лікування та іншими коваріатами, таким чином показуючи, як важливо прийняти посередництво змінна до уваги.
rvl

1
Дякую доктору Ленту. Насправді я цитував ваші статті у своїй дисертації. Мені честь, що я будь-яким чином міг допомогти такому утвердженому статистику, як ти.
Masato Nakazawa

4

Я думав, що я покажу, як проводиться аналіз з одним із наборів даних у пакеті посередництва . В framingексперименті проводиться , коли суб'єкти мають можливість відправити повідомлення в Конгрес по приводу імміграції. Однак деяким сюжетам ( treat=1) вперше було показано історію новин, яка зображує латиноамериканців негативно. Крім двійкової відповіді (чи надсилали вони повідомлення чи ні) ми також вимірювали empемоційний стан суб'єктів після лікування. Існують також різні демографічні змінні.

Спочатку завантажимо потрібні пакети в R та змінимо мітки educна більш короткі рядки.

> library("lsmeans")
> library("mediation")
> levels(framing$educ) = c("NA","Ref","< HS", "HS", "> HS","Coll +")

Тепер підійде модель логістичної регресії

> framing.glm = glm(cong_mesg ~ age + income + educ + emo + gender * factor(treat),
+                   family = binomial, data = framing)

Ось відображення звичайних засобів, скоригованої , де прогнози зроблені з коваріатамі age, incomeі emoвстановлених на їх середніх значень:

> lsmip(framing.glm, treat ~ educ | gender, type = "response")

(Діаграма взаємодії звичайних "скоригованих засобів", перетворених на шкалу відповідей)

Це цікавий результат, оскільки відображені ефекти лікування у жінок є протилежними як для чоловіків, так і ефект від освіти не є монотонним, як можна було б очікувати.

Зауважте, h, однак, emoце вимірювання після лікування. Це означає, що лікування могло вплинути на нього, тобто emoє посередницьким коваріатом; і тому може не мати сенсу порівнювати прогнози змінної відповіді, зберігаючи emoпостійну. Замість цього давайте подивимось на прогнози, де emoвстановлено його передбачені значення treatта демографічні змінні.

> lsmip(framing.glm, treat ~ educ | gender, type = "response",
+       cov.reduce = emo ~ treat*gender + age + educ + income)

(Діаграма взаємодії прогнозів з урахуванням посередницьких ефектів)

Цей результат зовсім інший, що говорить про те, що він emoвідіграє сильну посередницьку роль. (Пакет посередництва має функції для оцінки сили цих ефектів.) Наведені вище прогнози дозволяють припустити, що, беручи до уваги емоційну реакцію, суб'єкти чоловічої статі, які піддаються негативній новині, мають більше шансів надіслати повідомлення, ніж жінки або ті, хто не бачить негативні новини. Також ефект educє (майже) монотонним.

Ще раз дякую @MasatoNakagawa за вказівку мене на цей цікавий приклад і підкреслив мене в деяких останніх дослідженнях причинності.


3

Подивіться дослідження взаємодії ген-середовище GWAS. Статистичний аналіз, який вони виконують по суті, це те, що ви описали. Питання полягає в тому, що ваше середовище має значення до фенотипу (ознака, що спостерігається)? Одна школа думок, як правило, ігнорує всю інформацію про навколишнє середовище і каже, що ваш генетичний склад описує ваш фенотип. Це в повній контрасті з екологічними дослідженнями, де історія є оточенням все, і вони ігнорують гени. Оскільки обидві сторони намагаються зрозуміти одну і ту ж проблему, останніми часом були спроби об'єднати їх.

Скажімо, ми вивчаємо ІМТ. Перші основні компоненти генетичної матриці ми приймаємо за фіксовані ефекти за рахунок генів. Ми підходимо до освіти з індексом 1 для добре освічених та 0 для погано освічених як фіксованого ефекту. Існує досить сильна кореляція між індексом освіти та багатством громади, з якої людина є. Тому можна стверджувати, що громади з низьким рівнем доходу мають більше шансів на більше ресторанів швидкого харчування. Фаст-фуд діє як обгезогенний спусковий механізм. "Запускає щось у вашій генетичній установці, що заохочує накопичення жиру", тому воно відображатиметься в генетичному складі в якійсь формі.

Моделювання таких даних не є проблемою. Подивіться

http://pngu.mgh.harvard.edu/~purcell/plink/simulate.shtml

Це дозволяє моделювати дані GWAS (сприймайте це як генетичні одиниці) даних, що відповідають за симптом. Якщо не буде прописано інше, воно генерує 1000 із симптомом та 1000 елементів керування. Норма в цих моделюваннях, які я використовую, є 9990 SNP, не викликають симптомів, і 10 SNP. Прочитайте інструкції, як вони моделюються.

Вихід буде 1, якщо людина страждає ожирінням, і 0, якщо його немає. Моделюйте фактори навчання (закінчена освіта в коледжі / незакінчена освіта в коледжі) на основі певної розумної кореляції з рівнем ожиріння.

Сподіваюся, це допомагає !!!


Спасибі. Але все ж тримаюсь за деякі реальні дані ... Плюс до цього я не впевнений, що таке дослідження GWAS. DUH, щойно з'ясували, перейшовши за посиланням.
rvl

Незважаючи на те, що я дав нагороду іншому респонденту, я ціную цю пропозицію і маю намір дотримуватися її. Спасибі.
rvl

1

Я рекомендую прочитати Freakonomics і знайти документи, на яких ґрунтується їх робота, і побачити, чи зможете ви захопити ці дані. У них є дійсно цікава робота над дійсно цікавими наборами даних, а в деяких випадках вони знаходять дуже розумні способи перевірки гіпотез, незважаючи на обмеження в даних.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.