Чи "кожен синій футболка" є систематичним зразком?


17

Я викладаю клас введення статистики та переглядав типи вибірки, включаючи систематичну вибірку, де ви відбираєте вибірки кожного kth окремого чи об'єкта.

Студент запитав, чи буде відбирати вибірки у кожної людини з певною характеристикою те саме.

Наприклад, чи було б вибірки кожної людини з блакитною футболкою досить випадковим і забезпечили б достатньо представництва всього населення? Принаймні, якщо ви задаєте питання, окрім "Якої кольорової футболки ви віддаєте перевагу носити?" Моє почуття ні, але я замислювався, чи хтось тут має думки з цього приводу.


12
Ні. Якби ви жили в Глазго, Шотландія, то більшість людей, які носять «блакитну футболку», напевно, були б прихильником Рейнджера . Ви б пропустили прихильників кельтських . У Глазго футбольна команда буде проксі-релігією.
csgillespie

1
@csgillespie Чудовий приклад!
whuber

Також у вас може бути більше хлопців, ніж дівчаток, тому що в західній культурі синій колір асоціюється з чоловіком
Roland Kofler

Кольорові футболки коштують дорожче, ніж білі футболки, і не всі дизайни працюють для всіх кольорів. Тож, хоч це і може здатися невинним, навіть серед носіїв футболок ви можете вибирати заможніших людей або більш імпульсивних споживачів або людей, які віддають перевагу певній політичній партії.
Дуглас Заре

Існує також асоціація між віком і носінням футболок, між культурним походженням та носінням футболок тощо.
Glen_b -Встановіть Моніку

Відповіді:


22

Відповідь, взагалі, на ваше запитання - «ні». Отримати випадкову вибірку у населення (особливо у людей), як відомо, важко. Обумовлюючи певну характеристику, ви за визначенням не отримуєте випадкової вибірки. Скільки упередженості це вносить - зовсім інша справа.

Як злегка абсурдний приклад, ви не хотіли б пробувати такий вибір, скажімо, на футбольній грі між Ведмедями та Пакерами, навіть якщо ваше населення було "фанатами футболу". (Вболівальники ведмедів можуть мати інші характеристики, ніж інші футбольні вболівальники, навіть коли кількість, яка вас цікавить, може не здаватися безпосередньо пов’язаною з футболом.)

Існує багато відомих прикладів прихованих ухилів, отриманих в результаті отримання зразків таким чином. Наприклад, на останніх виборах в США, на яких проводились опитування телефонів, вважається, що у вибірці люди (які, мабуть, кардинально), недостатньо представлені у вибірці. Оскільки ці люди також, як правило, молодші, ніж люди із стаціонарними лініями, виходить упереджена вибірка. Крім того, молоді люди мають дуже різні політичні переконання, ніж старші. Отже, це простий приклад випадку, коли навіть тоді, коли вибірка навмисно не була зумовлена ​​певною характеристикою, вона все-таки відбулася саме так. І, хоча опитування не мало нічого спільного з характеристикою кондиціонування (тобто, використовує чи не використовується стаціонарна лінія), вплив умовної характеристики на висновки опитування було значним, як статистично, так і практично.


6

Поки розподіл характеристики, яку ви використовуєте для відбору одиниць у вибірку, є ортогональним для розподілу характеристики популяції, яку ви хочете оцінити, ви можете отримати неупереджену оцінку кількості популяції, обумовлюючи вибір на ній. Вибірка не є строго випадковою вибіркою. Але люди, як правило, не помічають, що випадкові вибірки хороші тим, що випадкова величина, яка використовується для відбору одиниць у вибірку, є ортогональною для розподілу характеристики популяції, а не тому, що вона є випадковою.

Подумайте, як намалювати випадковим чином Бернуллі з P (invlogit (x_i)), де x_i в [-inf, inf] є особливістю одиниці i такою, що Cov (x, y)! = 0, а y - характеристика популяції, чия означає, що ви хочете оцінити. Вибірка є "випадковою" у тому сенсі, який ви рандомізуєте перед тим, як відібрати до вибірки. Але вибірка не дає неупередженої оцінки середнього показника популяції у.

Вам потрібно підбирати вибірку для вибірки за змінною, яка так само хороша, як і випадкове призначення . Тобто, це ортогональна змінна, від якої залежить кількість відсотків. Рандомізація хороша тим, що вона гарантує ортогональність, а не через саму рандомізацію.


4
Це правильно, але як би ти знав, якби він був ортогональним, якщо у тебе був справді випадковий зразок?
Пітер Флом - Відновіть Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.