Що робити, якщо ваша випадкова вибірка явно не є репрезентативною?


28

Що робити, якщо взяти випадкову вибірку, і ви побачите, вона явно не є репрезентативною, як у недавньому питанні . Наприклад, що робити, якщо розподіл популяції повинен бути симетричним приблизно 0, а вибірка, яку ви малюєте випадковим чином, має незбалансовані позитивні та негативні спостереження, а дисбаланс є статистично значущим, де це залишає вас? Які обґрунтовані твердження ви можете зробити щодо населення на основі упередженої вибірки? Який розумний хід дій у такій ситуації? Чи має значення, коли в нашому дослідженні ми помічаємо цей дисбаланс?


2
Майкл, очікується, що ця проблема виникне один раз через 20, якщо ми використовуватимемо статистичну значимість як нашу метрику. Найчастіше ми не знаємо, коли ми випадково обрали нерепрезентативну вибірку, оскільки не знаємо достатньо про сукупність. Але коли ми щось знаємо про населення, і помічаємо таку аномалію, що ми робимо?
Джоель В.

3
Так, найправильніша практика - отримання достатньо великої випадкової вибірки, як написав @MichaelChernick. Однак один з моїх професорів каже мені, що він підтвердив методом Монте-Карло, що коли досліднику доводиться збільшувати розмір вибірки, не просто правильно додавати статистичні одиниці до вибірки, але потрібно повторити вибірку. Інакше статистика може бути упередженою (ще раз!).
this.is.not.a.nick

4
@Michael, я не розумію, чому твоє твердження правдиве. Значення р, менше, ніж 0,05, буде мати місце під нульовою гіпотезою 5% часу, незалежно від розміру вибірки. То як же можливо, що більші розміри вибірки вирішать цю проблему? Мені здається, ваша рекомендація неявно пропонує читачам плутати розмір і потужність тестів гіпотез.
whuber

2
@Michael, що ти означає, що ми повинні збирати більше даних навмання? Чи слід сподіватися, що ми навмання намалюємо вибірку, упереджену в іншому напрямку? У будь-якому випадку, яку кількість додаткових справ нам слід звернути? Чи пропонуєте ви встановити число на початку або використовувати правило зупинки? Якщо правило зупинки, як це може виглядати правило? Нарешті, навіть якщо отриманий зразок більшого розміру не має статистично значущого зміщення, ми знаємо, що він складається з двох зразків, одного з ухилом та одного без. Які обґрунтовані твердження ви можете зробити щодо населення на основі такого складного зразка?
Joel W.

2
@Michael Альтернативним висновком є ​​те, що високозначний, сильно перекошений зразок вказує на проблему з процедурою відбору проб. Якщо це так, відсутність симетрії зберігатиметься в більшій вибірці.
whuber

Відповіді:


7

Відповідь дається MLS (використання вибірки значення) тільки так добре , як припущення ви можете зробити про свої дистрибутивах. Основна сила парадигми вибірок кінцевої сукупності полягає в тому, що вона не є параметричною, оскільки не дає жодних припущень щодо розподілу даних для здійснення (дійсних) висновків за параметрами кінцевої сукупності.

Підхід до виправлення дисбалансів вибірки називається постстратифікацією . Потрібно розбити вибірку на класи, що не перекриваються (пост-страти), а потім відновити вагу цих класів відповідно до відомих показників населення. Якщо для вашої популяції, як відомо, є медіана 0, то ви можете переоцінити позитивні та негативні спостереження, щоб їх зважені пропорції стали 50-50: якби у вас невдалий СРС з 10 негативними та 20 позитивними спостереженнями, ви б дали негативні - вага 15/10 = 1,5 і позитивні - 15/20 = 0,75.

Існують більш тонкі форми калібрування вибірки , в яких ви можете відкалібрувати зразок, щоб задовольнити більш загальні обмеження, такі як середнє значення суцільної змінної, яке дорівнює конкретній величині. З обмеженням симетрії досить важко працювати, хоча це теж може бути здійснено. Можливо, Жан Опсомер має щось на цьому: він проводив багато робіт з оцінки ядра для даних опитування.


Яким чином постстратифікація порівнює, логічно чи статистично, просто відкидання неврівноваженого зразка та малювання іншого зразка? (Іноді нанесення зразка є трудомісткою частиною дослідження, але іноді це те, що робиться після того, як ви намалювали зразок, який є трудомістким, і нанесення зразка передбачає відносно незначні зусилля, як у багатьох експериментальних дослідженнях.)
Джоел У. .

2
Я ніколи не був у ситуації, коли відкидання даних є найкращою відповіддю, і я ніколи не бачив, щоб це обговорювалося в жодній із статистичних книжок опитування. У більшості статистичних даних опитування отримання даних принаймні в п’ять разів дорожче, ніж будь-яке з наведених нижче обробок та аналізу даних (за винятком певних дешевих веб-опитувань, де збір даних майже безкоштовний). Якщо ви перебуваєте в експериментальному світі, то вам не слід мітити ваш пост "вибіркою", а скоріше використовувати "експериментальний дизайн".
StasK

Випадкові зразки можуть бути використані, а не стратифіковані, оскільки існує багато можливих способів стратифікації в реальних умовах. Може трапитися так, що після вибору двох випадкових зразків для експерименту ви помітите певний явний дисбаланс. Тоді ви застрягли між скелею і важким місцем: живете з дисбалансом (наприклад, всі люди похилого віку в одній групі, всі не-носії мови в одній групі, всі кандидати в одній групі тощо) або намалюйте новий зразок і послаблює зв’язок між тим, що ви зробили, і припущеннями всіх статистичних методик. Постійна стратифікація, здається, є другою.
Joel W.

2

Я тут молодший член, але я б сказав, що відмова і початок починається завжди найкраща відповідь, якщо ви знаєте, що ваш зразок суттєво непредставлений, і якщо ви маєте уявлення про те, як в першу чергу виникла нерепрезентативна вибірка. і як цього уникнути, якщо можливо, вдруге.

Яку користь буде робити вдруге, якщо ви, ймовірно, опинитесь в одному човні?

Якщо повторне збирання даних не має сенсу або є надмірно дорогим, вам доведеться працювати з тим, що у вас є, намагаючись компенсувати нерепрезентативність за допомогою стратифікації, імпутації, більш фантазійного моделювання тощо. Вам потрібно чітко зазначити, що ви компенсували таким чином, чому ви вважаєте, що це потрібно, і чому ви вважаєте, що це спрацювало. Тоді працюйте над невизначеністю, яка виникла з вашої компенсації, весь шлях вашого аналізу. (Це зробить ваші висновки менш певними, правда?)

Якщо ви не можете цього зробити, вам потрібно повністю відмовитися від проекту.


Що робити, якщо ви не знаєте, чому зразок нерепрезентативний, ви все-таки виправдані тим, що його відкинули та намалювали новий, випадковий зразок? Якщо ні, то чому б і ні? Крім того, скажімо, ви відкидаєте перший зразок і малюєте другий, чи є статистика зараження, яку ви могли б обчислити на основі другого зразка, будь-яким чином невідповідна через викинутий перший зразок? Наприклад, якщо ви підписуєтесь на викидання нерепрезентативних зразків, чи змінюєте ви розподіл вибірки, на якій базується ваш статистичний тест? Якщо так, чи полегшуєте ви чи простіше знайти статистичну значимість?
Джоель В.

@Wayne Гарна ідея.
Subhash C. Davar

1

Це часткова відповідь, яка передбачає, що ми знаємо як розподіл з якого було відібрано вибірку, так і справжній (або бажаний) розподіл . Крім того, я припускаю, що ці розподіли різні. Якщо зразки були дійсно отримані через , але вони виглядають неправильно: зразки все ще є неупередженими і будь-яка адаптація (наприклад, видалення залишків), ймовірно, додасть упередженості.qpp

Я припускаю, що ви хочете знайти якусь статистику . Наприклад, може бути середнім значенням розподілу, в цьому випадку - функція ідентичності. Якби у вас були зразки отримані через , ви можете просто використовувати Однак припустимо, у вас є лише зразки, які були отримані (з одного домену) з розподілом вибірки . Тоді ми все ще можемо отримати неупереджену оцінку шляхом зважування кожного зразків відповідно до відносної ймовірності виникнення при кожному розподілі: sp=E{f(X)|Xp}s(p)f{x1,,xn}p

sp1ni=1nf(xi).
xiqsp
sp1ni=1np(xi)q(xi)f(xi).
Причина цього працює в тому, що як бажано. Це називається вибіркою важливості .
E{p(X)q(X)f(X)|Xq}=p(X)f(X)dx,

Ви кажете, що зразок не є упередженим і будь-яка спроба виправити зразок додасть упередженості. Я припускаю, що процес, за допомогою якого був відібраний зразок, не має упередженості, але насправді вибірка є упередженою, можливо, серйозно зміщеною. Чи є способи спробувати виправити відомі великі ухили, які, як очікується, введуть порівняно невеликі додаткові ухили?
Joel W.

1
Щоб трохи розмежовувати термінологію: я вважаю упередженість властивістю очікування випадкової величини. Іншими словами, якщо процес, який збирає дані, є неупередженим, то так само є вибіркою. Однак вибірка все ще може бути нетиповою і призводити до небажаних висновків. Будь-який загальний спосіб виправити це викликає упередженість, оскільки ви адаптуєте (неупереджену) процедуру вибірки. Можливо, менш упередженим підходом є збирання та використання нових зразків. Трохи більш упереджений підхід додасть ці нові зразки до старих, але результат може бути менш змінним, оскільки у вас є більше зразків.
MLS

2
@Joel W. Що ти маєш на увазі, коли ти кажеш, що зразок є упередженим? Чи є середня оцінка на основі вибіркової вибірки? Будь-яка вибіркова оцінка буде відрізнятися від справжньої середньої, а деякі можуть бути далеко. При вибірковому відборі випадковим чином це пов'язано з відхиленням, а не зміщенням. Неправильно стверджувати, що вибірка є упередженою, оскільки, як відомо, розподіл вибірки виглядає значно відрізняється від розподілу для населення. У невеликих зразках багато хто може виглядати непредставно з тієї чи іншої причини, але випадкова вибірка не є упередженою вибіркою.
Майкл Р. Черник

1
@Michael, я погоджуюся, що ми повинні розпізнавати і жити з випадковою дисперсією, коли нам доведеться. Я запитую, що ми можемо розумно зробити, коли виявимо ненавмисну ​​дисперсію. Що робити, якщо виявляється, що наша випадкова вибірка містить відносно занадто багато молодих людей, або занадто багато працівників із синіх комірів тощо, коли ці категорії стосуються наших досліджень? Подальше, чи слід перевірити наші зразки, щоб побачити, чи не врівноважуються вони таким чином? І чи має значення, якщо ми помічаємо це перед тим, як робити подальші дослідження з вибіркою або після того, як ми вклали ресурси для проведення дослідження з вибіркою?
Джоель В.

1
Коваріатний дисбаланс дуже важливий. Якщо вона є в зразку, для її коригування може використовуватися регресійна модель. Венс Бергер написав книгу на цю тему, яку я, напевно, раніше цитував на цьому веб-сайті. Ось посилання на амазонку до опису книги. amazon.com/Selection-Covariate-Imbalalance-Randomized-Statistics/…
Michael R. Chernick
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.