Чи прийнятно запускати дві лінійні моделі в одному наборі даних?


10

Для лінійної регресії з декількома групами (природні групи, визначені апріорі), чи допустимо запускати дві різні моделі на одному і тому ж наборі даних, щоб відповісти на наступні два запитання?

  1. Чи має кожна група ненульовий нахил і ненульовий перехоплення та які параметри для кожної в межах групової регресії?

  2. Чи існує незалежно від приналежності до групи ненульовий тренд та ненульовий перехоплення та які параметри для цього мають регресія між групами?

У R перша модель буде такою lm(y ~ group + x:group - 1), щоб оцінені коефіцієнти можна було інтерпретувати безпосередньо як перехоплення та нахил для кожної групи. Друга модель була б lm(y ~ x + 1).

Альтернативою може бути те lm(y ~ x + group + x:group + 1), що призводить до складної зведеної таблиці коефіцієнтів, в межах групових нахилів та перехопів, які повинні бути обчислені з різниць у нахилах та перехопленнях з деякої посилання. Також вам доведеться впорядкувати групи та запустити модель вдруге, щоб отримати p-значення для останньої різниці груп (іноді).

Чи негативно це за допомогою двох окремих моделей впливає на умовиводи чи в цій стандартній практиці?

Щоб поставити це в контекст, розгляньте х як дозування наркотиків, а групи - різної раси. Це може бути цікаво дізнатися про співвідношення доза-відповідь для конкретної раси для лікаря, або для якої раси препарат працює взагалі, але також може бути цікаво іноді знати співвідношення доза-відповідь для всієї (людської) популяції незалежно від раси для службовця охорони здоров'я. Це лише приклад того, як можна зацікавити як групову, так і групову регресії окремо. Чи має залежність доза-відповідь лінійною, не важливо.


Ви впевнені, що хочете використовувати лінійні регресії? Взаємозв'язок реакції на дозу майже ніколи не є лінійним у значному діапазоні доз.
Майкл Лев

@Michael, вибачте, це був поганий вибір прикладу. Мені цікаво про це взагалі. Деталі взаємозв'язку доза-відповідь не повинні перешкоджати. Я відредагував питання, щоб відзначити це.
Джуб

Чи розглядали ви випадкову модель перехоплення, випадковий нахил?
припускаєтьсянормальне

Відповіді:


2

Почніть з того, що я думаю, що ваше перше запитання та перша модель R несумісні між собою. У R, коли ми пишемо формулу з або, -1або +0ми придушуємо перехоплення. Таким чином, lm(y ~ group + x:group - 1) заважає вам бути в змозі сказати , якщо перехоплює істотно відрізняються від 0. В тому ж ключі, в ваших наступних двох моделей, тис +1надлишковий, то перехоплювати автоматично оцінюється в R. Я б порадив вам використовувати довідкову осередок кодування ( також називається "фіктивним кодуванням") для представлення ваших груп. Тобто, сg групи, творити g1нових змінних, виберіть одну групу за замовчуванням і призначте 0-х одиницям цієї групи в кожній з нових змінних. Тоді кожна нова змінна використовується для представлення членства в одній з інших груп; одиниці, що входять до даної групи, позначаються знаком 1 у відповідній змінній, а 0 - в іншому місці. Коли повертаються ваші коефіцієнти, якщо перехоплення є "значущим", то ваша група за замовчуванням має ненульовий перехоплення. На жаль, стандартні тести на значущість для інших груп не скажуть, чи відрізняються вони від 0, а якщо вони відрізняються від групи за замовчуванням. Щоб визначити, чи відрізняються вони від 0, додайте їхні коефіцієнти до перехоплення і розділіть суму на їх стандартні помилки, щоб отримати їх t-значення. Ситуація зі схилами буде схожа: Тобто, випробуванняXпідкаже, чи нахил групи за замовчуванням значно відрізняється від 0, а умови взаємодії підкажуть, чи нахили цих груп відрізняються від груп за замовчуванням. Тести для схилів інших груп на 0 можуть бути побудовані так само, як і для перехоплення. Ще краще було б просто підходити до 'обмеженої' моделі без жодної зі змінних групових індикаторів чи умов взаємодії, а також протестувати цю модель на повній моделі anova(), яка підкаже, чи ваші групи взагалі значущі.

Ці речі вже було сказано, ваш головне питання , чи є робити все це прийнятно . Основною проблемою тут є проблема численних порівнянь . Це давнє і тернисте питання, з численними думками. (Ви можете дізнатися більше про цю тему в резюме, ознайомившись з питаннями, позначеними цим ключовим словом .) Хоча думки, безумовно, різняться на цю тему, я думаю, що ніхто не винуватить вас за те, що ви працювали з багатьма аналізами за одним і тим же набором даних за умови, що аналізи були ортогональними. . Як правило, ортогональні контрасти розглядаються в контексті з'ясування способів порівняння наборуgгрупи друг до друга , однак, що це не той випадок; ваше запитання незвичне (і, я думаю, цікаве). Наскільки я бачу, якщо ви просто хотіли розділити свій набір данихgвідокремте підмножини та запустіть просту модель регресії для кожної, яка має бути в порядку. Більш цікавим питанням є те, чи можна вважати аналіз "згорнутого" ортогональним для набору окремих аналізів; Я не думаю, що ви повинні мати можливість відтворити згорнутий аналіз за допомогою лінійної комбінації групових аналізів.

Трохи інше питання - чи дійсно це робити осмислено. Зображення, що ви проводите початковий аналіз, і виявите, що групи суттєво значущі між собою; який сенс зводити ці розбіжні групи в роз'єднане ціле? Наприклад, уявіть, що групи різняться (якось) за їх перехопленнями, то принаймні якась група не має перехоплення 0. Якщо є лише одна така група, то перехоплення для цілого буде лише 0, якщо така група єng=0у відповідній сукупності. Як варіант, скажімо, що існує рівно 2 групи з ненульовим перехопленням з одним позитивним і одним негативним, тоді вся буде мати перехоплення 0, лише якщоnЦі групи у зворотному співвідношенні з величинами розбіжностей перехоплення. Я міг би продовжити тут (є ще багато можливостей), але справа в тому, що ви ставите питання про те, як розміри груп співвідносяться з відмінностями значень параметрів. Відверто кажучи, це дивні запитання для мене.

Я б запропонував дотримуватися протоколу, який я окреслював вище. А саме, фіктивний код ваших груп. Потім підготуйте повну модель із усіма включеними манекенами та умовами взаємодії. Помістіть зменшену модель без цих термінів і проведіть тестування вкладеної моделі. Якщо групи дійсно відрізняються яким - то чином, стежити з (сподіваюся) апріорі (теоретично приводом) ортогональних контрастів , щоб краще зрозуміти , як ці групи відрізняються. (І сюжет - завжди, завжди сюжет.)

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.