Показано, що 100 вимірювань для 5 суб'єктів дають набагато менше інформації, ніж 5 вимірювань для 100 предметів


21

На конференції я почув таке твердження:

100 вимірювань для 5 суб'єктів дають набагато менше інформації, ніж 5 вимірювань для 100 предметів.

Це начебто очевидно, що це правда, але мені було цікаво, як можна це довести математично ... Я думаю, що можна використовувати лінійну змішану модель. Однак я не знаю багато про математику, яка використовується для їх оцінки (я просто бігаю lmer4для ЛММ та bmrsГЛММ :) Чи не могли б ви показати мені приклад, де це правда? Я вважаю за краще відповідь з деякими формулами, ніж просто якийсь код у Р. Сміливо вважати просту настройку, наприклад, наприклад, лінійну змішану модель з нормально розподіленими випадковими перехопленнями та нахилами.

PS відповідь на основі математики, яка не передбачає LMM, також буде нормально. Я подумав про ЛММ, тому що вони здалися мені природним інструментом для пояснення, чому менше заходів з більшої кількості предметів краще, ніж більше заходів з кількох предметів, але я можу помилитися.


3
+1. Я думаю, що найпростішим параметром було б розглянути завдання визначення середньої сукупності коли у кожного суб'єкта є своє середнє значення і кожне вимірювання цього предмета розподіляється як . Якщо ми візьмемо вимірювань від кожного з предметів, то що оптимальний спосіб набору і заданих постійної продукти . a N ( μ , σ 2 a ) x N ( a , σ 2 )μaN(μ,σa2)xN(a,σ2)m n m n m = Nnmnmnm=N
амеба каже, що повернеться Моніка

"Оптимальний" у сенсі мінімізації дисперсії середньої вибірки набутих точок даних. N
амеба каже, що повернеться Моніка

1
Так. Але для вашого питання нам не потрібно дбати про те, як оцінити відхилення; ваше запитання (тобто цитата у вашому запитанні) - це я вважаю лише щодо оцінки глобальної середньої і здається очевидним, що найкращий оцінювач задається великою середньою усіх балів у вибірці. Тоді питання: заданий , , , і , яка дисперсія ? Якщо ми це знаємо, ми зможемо мінімізувати його відносно урахуванням обмеженняˉ x N = n m μ σ 2 σ 2 a n m ˉ x n n m = Nмкх¯N=нммкσ2σа2нмх¯ннм=N
Амеба каже, що повернеться до Моніки

1
Я не знаю, як отримати щось із цього, але я погоджуюся, що це здається очевидним: для оцінки дисперсії помилок найкраще було б виконати всі вимірювань з одного предмета; і для оцінки варіабельності предмета найкраще було б (мабуть?) різних суб'єктів з 1 вимірюванням у кожному. Це не так зрозуміло середнє значення, але моя інтуїція підказує мені, що найкраще мати також предметів з 1 вимірюванням. Цікаво, чи це правда ...N NNNN
Амеба каже: Відновити Моніку

2
Можливо, щось подібне: вибірки на предмет суб'єкта повинна бути , де перший доданок є дисперсією предмета, а другий - дисперсією оцінки середнього значення кожного суб'єкта. Тоді дисперсія середнього суб'єкта (тобто велика середня ) буде який до мінімуму , коли . ( σ 2 a + σ 2 / n ) / m = σ 2 a / m + σ 2 / ( n m ) = σ 2 a / m + σ 2 / N = σ 2 a / m + c o n s t , m = Nσa2+σ2/n
(σa2+σ2/n)/m=σa2/m+σ2/(nm)=σa2/m+σ2/N=σa2/m+const,
m=N
амеба каже, що поверніть Моніку

Відповіді:


25

Коротка відповідь , що ваше припущення вірне тоді і тільки тоді, коли існує позитивна кореляція внутріклассових в даних . Емпірично кажучи, більшість кластерних наборів даних більшість часу демонструють позитивну внутрішньокласну кореляцію, що означає, що на практиці ваша думка зазвичай відповідає дійсності. Але якщо внутрішньокласова кореляція дорівнює 0, то два згадані вами випадки однаково інформативні. І якщо внутрішньокласова кореляція негативна , то насправді менш інформативно проводити менше вимірювань на більшій кількості предметів; ми насправді вважаємо за краще (що стосується зменшення дисперсії оцінки параметра) проводити всі наші вимірювання на одному предметі.

Статистично Є дві точки зору , з якої ми можемо думати про це: а випадкові ефекти (або змішаної ) моделі , які ви згадуєте в своєму питанні, або гранична модель , яка в кінцевому підсумку бути трохи більш інформативними тут.

Модель випадкових ефектів (змішана)

Скажімо, у нас є набір з яти предметів, від яких ми проводили вимірювань кожен. Тоді проста модель випадкових ефектів го вимірювання з го предмета може бути де - фіксований перехоплення, - ефект випадкового суб'єкта (з варіація ), - термін помилки на рівні спостереження (з дисперсією ), і останні два випадкові доданки незалежні.m j i y i j = β + u i + e i j , β u i σ 2 u e i j σ 2 eнмji

уij=β+уi+еij,
βуiσу2еijσе2

У цій моделі представляє середнє значення сукупності, і при збалансованому наборі даних (тобто рівному числі вимірювань від кожного суб'єкта) найкраща наша оцінка є просто середньою вибіркою. Отже, якщо ми беремо "більше інформації" для меншої дисперсії для цієї оцінки, то в основному ми хочемо знати, як дисперсія середнього зразка залежить від та . З трохи алгебри ми можемо це зробити n m var ( 1βнмσ2u>0nм

вар(1нмijуij)=вар(1нмijβ+уi+еij)=1н2м2вар(ijуi+ijеij)=1н2м2(м2iвар(уi)+ijвар(еij))=1н2м2(нм2σу2+нмσе2)=σу2н+σе2нм.
Вивчаючи цей вираз, ми можемо побачити, що коли є будь-яка дисперсія предмета (тобто ), збільшення кількості предметів ( ) зробить обидва ці терміни меншими, збільшуючи при цьому кількість вимірювань на предмет (σу2>0нм) зробить лише другий член меншим. (Про практичне значення цього для розробки проектів реплікації на багатьох сайтах дивіться у цій публікації в блозі, про яку я писав деякий час тому .)

Тепер ви хотіли знати, що відбувається, коли ми збільшуємо або зменшуємо або , утримуючи постійну загальну кількість спостережень. Тож для цього ми вважаємо постійною, так що весь вираз дисперсії просто виглядає як що є максимально можливим, коли є великим можливо (до максимуму ; в цьому випадку , тобто ми беремо по одному виміру з кожного предмета).n n m σ 2 uмннмnn=nmm=1

σу2н+постійний,
нн=нмм=1

Моя коротка відповідь стосувалася внутрішньокласової кореляції, тож де це вміщується? У цій простій моделі випадкових ефектів внутрішньокласова кореляція є (ескіз деривації тут ). Отже, можемо записати рівняння дисперсії вище як Це насправді не додає жодного розуміння того, що ми вже бачили вище, але це нас змушує замислитись: оскільки внутрішньокласова кореляція - це добросовісний коефіцієнт кореляції, а коефіцієнти кореляції можуть бути негативними, що трапиться (і що це означатиме), якщо внутрішньокласний кореляція була негативною? var(1

ρ=σу2σу2+σе2
вар(1нмijуij)=σу2н+σе2нм=(ρн+1-ρнм)(σу2+σе2)

У контексті моделі випадкових ефектів від'ємна кореляція у внутрішньому класі насправді не має сенсу, оскільки це означає, що предметна дисперсія є якимось негативним (як ми бачимо з рівняння наведеного вище, і як пояснено тут і тут ) ... але відхилення не можуть бути негативними! Але це не означає, що концепція негативної внутрішньокласової кореляції не має сенсу; це просто означає, що модель випадкових ефектів не має жодного способу виразити це поняття, що є невдачею моделі, а не поняття. Щоб адекватно висловити це поняття, нам потрібно розглянути граничну модель.σу2ρ

Маргінальна модель

Для цього ж набору даних ми могли б розглянути так звану граничну модель , де в основному ми відтіснили ефект випадкового предмета від раніше в термін помилки так що у нас . У випадкових ефектів моделі ми розглянули два випадкових умови і , щоб бути н.о.р. , але в маргінальному моделі ми замість того, щоб розглядати слідувати блочно-діагональна матриця ковариаций подібно до уij

уij=β+еij,
уiеijеij=уi+еijуiеijеijС
С=σ2[R000R000R],R=[1ρρρ1ρρρ1]
Словом, це означає, що під граничною моделлю ми просто вважаємо - очікувана кореляція між двома s від одного предмета (вважаємо, що кореляція між предметами дорівнює 0). Колиρеρпозитивно, два спостереження, проведені з одного і того ж предмета, як правило, є більш схожими (ближче один до одного), в середньому, ніж два спостереження, проведені випадковим чином із набору даних, ігноруючи кластеризацію за суб'єктами. Коли є негативним , два спостереження , зроблені з того ж предмета , як правило, менш схожі (далі один від одного), в середньому, ніж двох спостережень повністю складених у випадковому порядку. (Більше інформації про це тлумачення у запитанні / відповіді тут .)ρ

Отже, коли ми дивимось на рівняння дисперсії середнього зразка за граничною моделлю, маємо - це той самий вираз дисперсії, який ми отримали вище для моделі випадкових ефектів, лише за допомогою , що відповідає нашій примітці вище, що

var(1nmijyij)=var(1nmijβ+eij)=1n2m2var(ijeij)=1n2m2(n(mσ2+(m2m)ρσ2))=σ2(1+(m1)ρ)nm=(ρn+1ρnm)σ2,
σe2+σu2=σ2eij=ui+eij. Перевага цієї (статистично еквівалентної) точки зору полягає в тому, що тут ми можемо думати про негативну внутрішньокласну кореляцію, не потребуючи посилань на будь-які дивні поняття, такі як негативна дисперсія предмета. Негативні внутрішньокласові кореляції просто природно вписуються в ці рамки.

(BTW, лише швидкий бік, щоб зазначити, що другий-останній рядок деривації вище означає, що ми повинні мати , інакше все рівняння від'ємне, але варіації не може бути негативним! Отже, існує нижня межа внутрішньокласової кореляції, яка залежить від того, скільки вимірювань у нас на кластері. Для (тобто ми вимірюємо кожен предмет двічі), внутрішньокласова кореляція може перейти аж до ; для він може опускатися лише до ; і т. д. Факт забав!)ρ1/(m1)m=2ρ=1m=3ρ=1/2

Отже, нарешті, розглядаючи загальну кількість спостережень як постійну, ми бачимо, що другий-останній рядок виведення вище просто виглядає як Отже, коли , маючи якнайменше (щоб ми зробили менше вимірювань більшої кількості предметів - в межах, 1 вимірювання кожного предмета) робить дисперсію оцінки якомога меншою. Але коли , ми насправді хочемо, щоб було якомога більшим (таким чином, щоб ми обмежили всі вимірювань з одного предмета), щоб зробити дисперсію якомога меншою. І колиnm

(1+(m1)ρ)×positive constant.
ρ>0mρ<0mnmρ=0 , дисперсія оцінки є лише постійною, тому наш розподіл і не має значення.mn

3
+1. Чудова відповідь. Я маю визнати, що друга частина, про , є досить неінтуїтивною: навіть при величезній (або нескінченній) загальній кількості спостережень найкраще, що ми можемо зробити, - це розподілити всі спостереження на один предмет, тобто стандартна помилка середнього значення буде і в принципі неможливо більше її зменшувати. Це просто так дивно! Істинна залишається непізнаваною, які б ресурси ви не вимірювали. Чи правильне це тлумачення? ρ<0нмσуβ
Амеба каже, що поверніть Моніку

3
А, ні. Сказане вище не є правильним, тому що, як збільшується до нескінченності, не може залишатися негативним і повинен наближатися до нуля (відповідає нульовій дисперсії предмета). Хм. Ця негативна кореляція - це смішна річ: вона насправді не є параметром генеративної моделі, оскільки вона обмежена розміром вибірки (тоді як зазвичай можна очікувати, що генеративна модель зможе генерувати будь-яку кількість спостережень, незалежно від параметрів). Я не зовсім впевнений, що є правильним способом думати про це. мρ
Амеба каже, що повернеться до Моніки

1
@DeltaIV Що таке "коваріаційна матриця випадкових ефектів" у цьому випадку? У змішаній моделі, написаній Джейком вище, є лише один випадковий ефект, і тому насправді немає "матриці коваріації", а лише одне число: . На що ви посилаєтесь? σу2Σ
амеба каже, що повернеться до Моніки

2
@DeltaIV Ну, загальний принцип - en.wikipedia.org/wiki/Inverse-variance_weighting , а дисперсія середнього зразка суб'єкта задається (саме тому Джейк писав вище, що ваги повинні залежати від оцінки дисперсії між предметами). Оцінка дисперсії всередині предмета визначається дисперсією об'єднаних відхилень у предметі, оцінка дисперсії між суб'єктами - це дисперсія засобів суб'єктів, використовуючи все, що можна обчислити вагами. (Але я не впевнений, чи це на 100% еквівалент тому, що зробить Лмер.)σу2+σе2/мi
говорить Амеба Reinstate Monica

1
Джейк, так, це саме це жорстке кодування в , який мене турбує. Якщо це "розмір вибірки", він не може бути параметром базової системи. Моє сьогоднішнє мислення полягає в тому, що негативне насправді повинно вказувати на наявність ще одного всередині предмета, який ігнорується / невідомий нам. Наприклад, це може бути до і після деякого втручання, і різниця між ними настільки велика, що вимірювання негативно співвідносяться. Але це означало б, що - це насправді не розмір вибірки, а кількість рівнів цього невідомого чинника, і це, безумовно, може бути важко закодовано ...мρм
Амеба каже, що повертається Моніка
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.