Варіантне розділення та поздовжні зміни кореляції з бінарними даними


14

Я аналізую дані про 300 000 учнів у 175 школах за допомогою логістичної лінійної моделі змішаних ефектів (випадкові перехоплення). Кожна зіниця виникає рівно один раз, і дані охоплюють 6 років.

  1. Як я можу розрізняти різницю між рівнями школи та учнів, аналогічно VPC / ICC для постійних результатів? Я бачив цю статтю, яка пропонує 4 методи, з яких A і B видаються мені цікавими, але я хотів би знати, які переваги / недоліки можуть бути у використанні будь-якого з цих, і звичайно, якщо є якісь інші способи зробити це.

  2. Як я можу порівняти залишкову дисперсію на рівні школи з року в рік (або будь-який інший часовий період)? Поки що я це робив, поділивши дані на рік та застосувавши модель проти кожного року даних, але я вважаю, що це є недоліком, оскільки: i) немає очевидної причини, чому я повинен бути розділений на рік ; та ii) оскільки оцінки фіксованих ефектів для кожного року різні, порівняння випадкових ефектів рік за роком може не мати сенсу (це просто моя інтуїція, було б чудово, якби хтось міг пояснити це формальніше, якщо це правильно).

ПРИМІТКА. Це питання я повторно написав після обговорення в мета з whuber та Macro


3
Я думаю, що це головне поліпшення. Питання зараз дуже зрозуміле. Зараз я не встигаю дати добре організовану відповідь, але відповідь я опублікую пізніше.
Макрос

3
Логістичні моделі змішаних ефектів здаються надзвичайно розвиненою темою для середньої школи. Вони є частиною вашого навчального плану або ви самостійно навчаєтесь?
mark999

4
@ mark999 Я навчаюсь самостійно. Насправді я намагаюся довести мого брата неправильним, який сказав: "Немає способу це зрозуміти" . Він займається статистикою, тому я маю доступ до всіх його книжок тощо (коли йому добре).
Джо Кінг

Відповіді:


15

Нехай позначають вектор відповіді та предиктора (відповідно) учня i в школі jyij,xijij .

(1) Що стосується двійкових даних, я вважаю, що стандартним способом виконання дисперсійних розкладів, аналогічних тим, які робляться для безперервних даних, є те, що автори називають Методом D (я прокоментую інші методи нижче) у вашому посиланні - передбачаючи, що бінарні дані є що виникає з основної безперервної змінної, яка керується лінійною моделлю, і розкладає дисперсію на ту латентну шкалу. Причина полягає в тому, що логістичні моделі (та інші ГЛМ) природно виникають таким чином ...

Щоб побачити це, визначте таким, що керується лінійною змішаною моделлю:yij

yij=α+xijβ+ηj+εij

де - коефіцієнти регресії, η jN ( 0 , σ 2 ) - випадковий ефект шкільного рівня, а ε i j - термін залишкової дисперсії і має стандартнийлогістичний розподіл. Тепер нехайα,βηjN(0,σ2)εij

yij={1if   yij00if   yij<0

нехай зараз, просто використовуючи логістичний CDF у насpij=P(yij=1|xij,ηj)

pij=1P(yij<0|xij,ηj)=exp{(α+xijβ+ηj)}1+exp{(α+xijβ+ηj)}

тепер приймаючи logit перетворення обох сторін, у вас є

log(pij1pij)=α+xijβ+ηj

що саме є логістичною моделлю змішаних ефектів. Отже, логістична модель еквівалентна зазначеній вище моделі прихованої змінної. Одна важлива примітка:

  • Шкала не ідентифікується, оскільки, якби ви її масштабували, але константу s , вона просто змінила б вищевикладене наεijs

exp{(α+xijβ+ηj)/s}1+exp{(α+xijβ+ηj)/s}

       тому коефіцієнти та випадкові ефекти просто масштабуються на відповідну суму. Отже, s = 1
      s=1var(εij)=π2/3

Тепер, якщо ви використовуєте цю модель, а потім кількість

σ^η2σ^η2+π2/3

оцінює внутрішньокласову кореляцію основних прихованих змінних . Ще одна важлива примітка:

  • εij
    σ^η2σ^η2+1

Щодо інших методів, згаданих у роботі, яку ви пов’язали:

  • xij

  • (B) Метод моделювання є інтуїтивно привабливим для статистиків, оскільки він дасть тобі оціночну декомпозицію в початковому масштабі даних, але, залежно від аудиторії, це може бути (i) складно описати це у ваших "методах". розділ та (ii) можуть вимкнути рецензента, який шукав щось "більш стандартне"

  • (C) Попередження даних безперервне - це, мабуть, не чудова ідея, хоча це не буде страшно, якщо більша частина ймовірностей не надто близька до 0 або 1. Але, зробивши це, майже напевно підніме червоний прапор рецензента тож я б тримався подалі.

Тепер нарешті,

(2) Якщо фіксовані ефекти різняться різними роками, то ви вірно вважаєте, що порівняння випадкових ефектів за різні роки може бути важким, оскільки вони потенційно знаходяться на різних масштабах (це пов'язано з неідентифікацією питання масштабування, згаданого вище).

Якщо ви хочете зберегти фіксовані ефекти з часом (однак, якщо ви бачите, що вони з часом сильно змінюються, ви можете не хотіти цього робити), але подивіться на зміну випадкової дисперсії ефекту, ви можете дослідити цей ефект, використовуючи деякі випадкові схили та фіктивні змінні. Наприклад, якщо ви хотіли дізнатись, чи відрізняються МКК в різні роки, ви допустилиIk=1k

α+xijβ+η1jI1+η2jI2+η3jI3+η4jI4+η5jI5+η6jI6

це дасть вам різні МКЦ щороку, але однакові фіксовані ефекти. Можливо, спокусити просто використовувати випадковий нахил у часі, що робить ваш лінійний передбачувач

α+xijβ+η1+η2t

але я не рекомендую цього, оскільки це лише дозволить вашим асоціаціям з часом збільшуватися , а не зменшуватися .


Надайте, будь ласка, свій коментар, щоб звернутись до пункту зв'язаної статті про цю методику розподілу дисперсії, яка говорить: "Цей підхід може бути розумним, коли (0, 1) відповідь є, скажімо, похідним від усічення основного континууму, такого як відповідь пропуск / невдача, заснована на суцільній шкалі оцінок, але, здавалося б, має менше обґрунтування, коли відповідь справді дискретна, наприклад, смертність чи голосування " . У моєму випадку я маю справу з випадками знущань, які потрапляють до останньої категорії, я думаю ...
Джо Кінг

@JoeKing, я б сказав, що логістичні / пробітні (та подібні) регресійні моделі вже передбачають, що дані генеруються з базового континууму, оскільки модель може бути еквівалентна цій. Тому, якщо хтось навіть використовує такі моделі, вони повинні вважати, що припущення можна захистити :)
Макрос

1
@JoeKing, якщо ви вважаєте цю відповідь остаточною, будь ласка, прийміть :)
Макрос

Я справді буду. Наразі я трохи не впевнений у кількох моментах, і я хотів би повернутися до вас після того, як у мене було трохи часу (пару днів), щоб трохи почитати і ще трохи переглянути дані, якщо ви не заперечуєте?
Джо Кінг

@JoeKing Звичайно - деякі нові члени не знають, тому я подумав, що це зазначу - це зовсім не мало на вас тиску
Макрос
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.