Час, проведений у діяльності як незалежна змінна


14

Я хочу включити час, витрачений на щось (наприклад, тиждень грудного вигодовування) як незалежну змінну у лінійну модель. Однак деякі спостереження взагалі не зачіпають поведінку. Кодування їх як 0 не дуже правильне, тому що 0 якісно відрізняється від будь-якого значення> 0 (тобто жінки, які не годують грудьми, можуть сильно відрізнятися від жінок, які роблять це, навіть тих, хто цього не роблять дуже довго). Найкраще, що я можу придумати, - це набір муляжів, які категоризують витрачений час, але це марнотрата дорогоцінної інформації. Щось на зразок нульового завищеного Пуассона також здається можливим, але я не можу точно зрозуміти, як це могло б виглядати в цьому контексті. Хтось має якісь пропозиції?

Відповіді:


16

Щоб трохи розширити відповідь @ ken-butler. Додаючи як безперервну змінну (години), так і індикаторну змінну для спеціального значення (годин = 0, або не годування груддю), ви вважаєте, що існує лінійний ефект для "не спеціального" значення і дискретний стрибок у передбачуваний результат за особливою цінністю. Це допомагає (принаймні для мене) подивитися графік. У наведеному нижче прикладі ми моделюємо погодинну заробітну плату як функцію годин на тиждень, що працюють респонденти (усі жінки), і ми вважаємо, що у "стандартних" 40 годин на тиждень є щось особливе:

введіть тут опис зображення

Код, який створив цей графік (у статистиці), можна знайти тут: http://www.stata.com/statalist/archive/2013-03/msg00088.html

Тож у цьому випадку ми призначили безперервній змінній значення 40, хоча ми хотіли, щоб вона трактувалась інакше, ніж інші значення. Аналогічно, ви б на тиждень годували грудьми значення 0, навіть якщо ви думаєте, що воно якісно відрізняється від інших значень. Я тлумачу ваш коментар нижче, що ви вважаєте, що це проблема. Це не так, і вам не потрібно додавати термін взаємодії. Насправді цей термін взаємодії буде відмінений через досконалу колінеарність, якщо ви спробували. Це не обмеження, воно просто говорить про те, що умови взаємодії не додають нової інформації.

Скажіть, ваше рівняння регресії виглядає так:

y^=β1weeks_breastfeeding+β2non_breastfeeding+

Де є число тижнів грудного вигодовування ( в тому числі значення 0 для тих , які не годують грудьми) і п про п _ Ь т е и т е e e d i n g - показник змінної, який дорівнює 1, коли хтось не годує грудьми, а 0 в іншому випадку.weeks_breastfeedingnon_breastfeeding

Поміркуйте, що відбувається, коли хтось годує грудьми. Рівняння регресії спрощує:

y^=β1weeks_breastfeeding+β20+=β1weeks_breastfeeding+

Таким чином, - це лише лінійний ефект від кількості тижнів годування груддю для тих, хто годує груддю.β1

Поміркуйте, що відбувається, коли хтось не годує грудьми:

y^=β10+β21+=β2+

Отже, дає ефект не годування груддю, а кількість тижнів годування груддю випадає з рівняння.β2

Ви можете бачити, що не потрібно використовувати додавання терміна взаємодії, оскільки цей термін взаємодії вже є (неявно).

Однак у є щось дивне , оскільки він вимірює ефект від грудного вигодовування, порівнюючи очікуваний результат тих, хто не годує груддю, з тими, хто годує грудьми, але робить це лише за 0 тижнів ... Це має сенс у "порівнянні" як, наприклад "подібним чином", але практична корисність не є очевидною. Можливо, буде більше сенсу порівнювати «не годуючих дітей грудьми» з тими жінками, які годували грудьми 12 тижнів (приблизно 3 місяці). У такому випадку ви просто даєте "не годуючим груддю" значення 12 для w e e k s _ b r e a s t f e e d i n gβ2weeks_breastfeeding. Отже, значення, яке ви присвоюєте для "не годуючих дітей грудьми", впливає на коефіцієнт регресії β 2 в тому сенсі, що визначає, з ким "не -груднички »порівнюються. Замість проблеми це насправді щось, що може бути досить корисним.weeks_breastfeedingβ2


1
Я ціную відповідь (та інші), але мені важко її прийняти. Якщо я включаю 1: 0 і безперервну змінну часу, мені все одно доведеться призначити значення, яке не годує грудьми, значення часу (інакше вони випадають за відсутню ко-змінну). Навіть залежно від змінної 1: 0, я не бачу, як включення не годуючих дітей грудьми як час = 0 не впливає на коефіцієнт регресії. Можливо, також додавання терміну взаємодії з продуктами між ними було б більше сенсу?
DL Dahly

@DLDahly Я відредагував свою відповідь, щоб вирішити ці сумніви
Maarten Buis

Гаразд, це дуже корисно. Дозвольте запитати ще одне швидке спостереження ... якщо я вас правильно розумію, то оціночне значення для B1 повинно бути однаковим незалежно від того, яке значення часу я даю В2 = 1 людині. Це так?
DL Dahly

1
Дуже приємна відповідь Маартена. Ось аналогічне запитання / відповідь на сайті, який показує схожу ситуацію із включенням незалежної змінної, яка стосується лише певної підгрупи .
Andy W

1
@ GavinM.Jones Я ніколи не думав про необхідність називати це чи цитувати це: це просто пряме застосування безперервних змінних та індикаторів змін. Отже, я не маю для вас хорошої довідки. Найбільше, що я міг би швидко розкопати, - Treiman, DJ (2009): Кількісний аналіз даних. Проведення соціальних досліджень для перевірки ідей. Сан-Франциско: Джоссі-Бас. , глава 7 обговорював щось подібне. Модель містить константу.
Maarten Buis

6

Щось просто: представляйте свою змінну індикатором 1/0 для будь-якого / жодного та фактичного значення. Поставте обидва в регресію.


4

Якщо ви поставите двійковий показник для витраченого часу (= 1) проти не витраченого часу (= 0), а потім матимете кількість витраченого часу як безперервну змінну, різний ефект "0" разів буде " підібрано "за показником 0-1


2

Ви можете використовувати змішані ефекти з групуванням, яке базується на 0 час проти ненульового часу, і зберігати вашу незалежну змінну


Чи можете ви трохи розширити це? Велике дякую.
DL Dahly

Модель змішаних ефектів передбачає, що існує фактор, який ділить дані на різні (неоднорідні) відряди, в кожному з яких ми можемо мати різний взаємозв'язок між пояснювальними та залежними змінними (або в термінах, якщо перехоплення чи перехоплення та нахил / коефіцієнт). en.wikipedia.org/wiki/Mixed_model
rezakhorshidi

Тож використовуйте осіб, які вкладаються у статус грудного вигодовування, а потім випадковий нахил на тижні годування груддю? Я міг би зробити це як SEM досить легко і перевірити певні обмеження. Дякую +1
DL Dahly

1

Якщо ви використовуєте Випадковий ліс або Нейронну мережу, то це число позначається як 0, оскільки вони зможуть зрозуміти, що 0 явно відрізняється від інших значень (якщо вони насправді відрізняються). Іншим способом є додавання категоричної змінної так / ні на додаток до змінної часу.

Але в цілому, в цьому конкретному випадку я не бачу справжнього питання - 0,1 тижня годування груддю близько до 0, і ефект буде дуже схожий, тому це виглядає як досить безперервна змінна для мене, коли 0 не виділяється як щось виразний.


3
+1 для першого абзацу, але, маючи справу з суспільними науками або медичними даними, ефект від 0 проти 0,1 тижня чогось не є головним занепокоєнням. Справа в тому, що жінки, які взагалі не роблять спроби або не повідомляють про грудне вигодовування, можуть бути систематично різними в багатьох інших аспектах (проблеми зі здоров’ям, доходи, сімейні ситуації, можливість залишитися без роботи, доступ до медичних послуг, де вони отримали інформацію про виховання батьків тощо) Дійсно немає причин вважати, що ці жінки дуже схожі на матерів, які намагаються годувати грудьми і швидко припиняють це.
Гала

1
З статистичної точки зору, краще було б чітко вказати ці інші змінні у вашій моделі, але є сенс бути обережними, припускаючи, що нічого особливого не відбувається на 0, я думаю.
Гала

0

Я думаю, що модель Tobit - це те, що ти хочеш.


5
Тобіти використовуються, коли результат цензурується вище або під деяким порогом. Наприклад, ми не спостерігаємо заробітну плату нижче мінімальної заробітної плати або доходів, що перевищують якусь верхню кодовану величину. Ця програма призначена для незалежної змінної.
Мастеров Дмитро Васильович
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.