Симуляційне дослідження: як вибрати кількість ітерацій?


11

Я хотів би генерувати дані за допомогою "Моделі 1" та підходити до них "Модель 2". Основна ідея полягає у дослідженні властивостей міцності "Моделі 2". Мене особливо цікавить ступінь покриття 95% довірчого інтервалу (на основі нормального наближення).

  • Як встановити кількість запусків ітерації?
  • Чи правда, що більші, ніж необхідні, тиражі можуть призвести до помилкових упереджень? Якщо так, то як це?

Що ви маєте на увазі під "коефіцієнтом покриття довірчого інтервалу 95%"? Якщо довірчий інтервал є точним або хорошим приблизним інтервалом, він охоплює справжнє значення параметра приблизно 95% часу.
Майкл Р. Черник

1
Якщо ви генеруєте інтервал довіри на основі моделі 2 для даних, згенерованих у моделі 1, це, мабуть, означає, що дві моделі пов'язані між собою та містять деякі однакові параметри. Чи можете ви пояснити трохи більше? Крім того, коли ви говорите "фальшивий" у своїй другій точці кулі, ви маєте на увазі неправильну чи просто неважливу? Більша кількість симуляцій не повинна створювати упередженості, але це може виявити упередженість, яка має мало практичного значення, яку ви б не побачили при меншій кількості, аналогічно тому, як ви можете виявити (тобто отримати статистичну значимість) дуже крихітний ефект, коли ви мають дуже великий розмір вибірки.
Макрос

@Michael Chernick: Наприклад, недостатнє покриття може бути досягнуто, якщо стандартна помилка занадто мала. Я відредагував своє запитання, щоб вказати, ніж я використовую довірчі інтервали на основі нормального наближення.
user7064

@Macro: "Модель 1" генерує нормальні дані з термінами гетероседастичної помилки, а "Модель 2" є стандартною лінійною моделлю.
user7064

Відповіді:


10

Виходячи з подальшого коментаря, це здається, що ви намагаєтеся оцінити ймовірність покриття довірчого інтервалу, коли ви припускаєте постійну дисперсію помилок, коли справжня дисперсія помилок не є постійною.

Як я думаю про це, це те, що для кожного прогону інтервал довіри або покриває справжнє значення, або його немає. Визначте змінну індикатора:

Yi={1if the interval covers0if it does not

Тоді ймовірність покриття, яке вас цікавить, - це яке ви можете оцінити за вибірковою часткою, яку, на мою думку, ви пропонуєте.E(Yi)=p

Як встановити кількість запусків ітерації?

Ми знаємо, що дисперсія випробування Бернуллі дорівнює , і ваші симуляції будуть генерувати IID випробування Бернуллі, тому дисперсія вашої оцінки, заснованої на моделюванні, p - p ( 1 - p ) / n , де n - кількість моделювання. Ви можете вибрати n, щоб зменшити цю дисперсію стільки, скільки захочете. Це факт , що р ( 1 - р ) / п 1 / 4 нp(1p)pp(1p)/nnn

p(1p)/n1/4n

Отже, якщо ви хочете, щоб дисперсія бути менше деякого заздалегідь визначеного граничного значення, , то ви можете переконатися в цьому, вибираючи п 1 / 4 б .δn1/4δ

У більш загальній обстановці, якщо ви намагаєтесь дослідити властивості розподілу вибірки оцінювача шляхом моделювання (наприклад, середнє значення та дисперсія), ви можете вибрати кількість моделювання, виходячи з того, яку точність ви хочете досягти в аналогічному моди на описане тут.

Також зауважте, що коли середній (або якийсь інший момент) змінної є цікавим об'єктом, як це є тут, ви можете побудувати довірчий інтервал для неї на основі моделювання, використовуючи нормальне наближення (тобто теорему про центральний межа) , про що говорилося в приємній відповіді MansT. Це нормальне наближення краще, оскільки кількість вибірок зростає, тому, якщо ви плануєте побудувати інтервал довіри, звернувшись до теореми про центральний межа, ви хочете, щоб було достатньо великим, щоб застосувати це. Для двійкового випадку, як у вас тут, здається, це наближення добре, навіть коли n p і n ( 1 - p ) досить помірні - скажімо, 20 .nnpn(1p)20

Чи правда, що більші, ніж необхідні, тиражі можуть призвести до помилкових упереджень? Якщо так, то як це?

Як я вже згадував у коментарі - це залежить від того, що ви маєте на увазі підроблені. Більша кількість симуляцій не призведе до зміщення в статистичному сенсі, але це може виявити неважливе зміщення, яке помітно лише при астрономічно великому розмірі вибірки. Наприклад, припустимо, що справжня ймовірність покриття неправильно визначеного інтервалу довіри становила . Тоді це насправді не проблема в практичному розумінні, але ви зможете назбирати цю різницю лише в тому випадку, якщо ви виконали багато моделей.94.9999%


10

Я часто використовую ширину довірчих інтервалів як швидкий і брудний спосіб визначення кількості необхідних ітерацій.

pXnXBin(n,p)

p^=X/npp(1p)/nnp^p^±1,96p^(1-p^)/нpp0,9521,960,950,05/н

0,1н

0,1=21,960,950,05/н.

н


(+1) схоже, ми подали дуже схожу відповідь приблизно в один і той же час, але я думаю, що різні мови, які використовуються, можуть бути корисними для деяких.
Макрос

Так, дійсно, я досі не знаю, яку відповідь прийняти! У будь-якому випадку +1 для обох!
user7064

1
@Macro: +1 і вам. Варіантність та ширина інтервалу тут, звичайно, більш-менш еквівалентні. Великі уми думають однаково - так само і у нас. ;)
MånsT

n=(21.650.950.05/0.01)2

0

Стандартне відхилення населеннянг95%г=1,96×Pop.Std.Devнн=(1,96×Pop.Std.Dev)2г2

Здійснення більшої кількості симуляцій (якщо припустити, що всі зразки є утвореними випадковим процесом) нічого не зашкодить оцінці з точки зору точності чи упередженості.

95%нp(1-p)н


4
Привіт @Michael Я думаю, що ця відповідь не відповідає суті. ОП намагається дослідити, як змінюються властивості покриття довірчого інтервалу, коли ви припускаєте постійну дисперсію, але справжня дисперсія не є постійною.
Макрос

@Macro: Ви маєте рацію. Я навмисно ставлю питання в більш широкому контексті, щоб уникнути відповідей, характерних для проблеми припущення постійної дисперсії.
user7064

@Macro Це не було питанням, на яке я відповів. Мабуть, це було з’ясовано пізніше. Виявляється також, що цікавила саме точність довірчого інтервалу, який використовує нормальне наближення. Здається, це не стосується жодної відповіді.
Майкл Р. Черник

4
@Michael, так, я знаю - моя думка полягала в тому, що ви (і я) просили роз'яснень, але ви не дочекалися роз'яснення, перш ніж розмістити свою відповідь. Re: ваш другий коментар, ви можете дослідити властивості покриття будь-якого інтервалу таким чином, незалежно від того, базувався він на нормальному наближенні чи ні. Якщо ви думаєте, що можна щось чітко додати, що упущено наявними відповідями, то будь ласка, відредагуйте свою відповідь, щоб ми могли все дізнатися.
Макрос

@Macro Звичайно, я з вами згоден. Я відредагував свою відповідь на користь ОП. Я підозрюю, що у вмісті немає нічого, чого ви б ще не знали.
Майкл Р. Черник
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.