Чому теорема про центральну межу працює з одним зразком?

Мене завжди вчили, що CLT працює при повторному відборі проб, причому кожен зразок є достатньо великим. Наприклад, уявіть, що у мене є країна з 1 000 000 громадян. Я розумію CLT, що навіть якщо розподіл їх висоти не було нормальним, якщо я взяв 1000 зразків по 50 осіб (тобто проводив 1000 опитувань по 50 громадян у кожному), то обчислював їх середній зріст для кожного зразка, розподіл цього зразка значить було б нормально.

Однак я ніколи не бачив справжнього світового випадку, коли дослідники брали повторні зразки. Натомість вони беруть одну велику вибірку (тобто опитування 50 000 громадян про їхній зріст) і працюють над цим.

Чому в статистичних книгах навчають повторного відбору зразків, а в реальному світі дослідники проводять лише одну вибірку?

Редагувати: Реальний випадок, про який я замислююся, - це статистика набору даних 50 000 користувачів Twitter. Цей набір даних, очевидно, не є повторними зразками, це лише одна велика вибірка з 50000.

sampling central-limit-theorem

— Антон
джерело

Взяти зразок 1000 з 50 000 - це майже те саме, що взяти 1000 одиничних проб незалежно від 50000. Чим менше зразок (або більший Всесвіт), тим більше вони будуть схожі.

— Томас Ейл

$n\to\infty$ $\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}$

$n=50$ $n=50,000$

$\bar{X}$

Строго кажучи, це не демонструє CLT, це ближче до демонстрації теореми Беррі-Ессена, оскільки вона демонструє щось про швидкість, з якою приходить підхід до нормальності - але це, в свою чергу, призведе нас до CLT, так що слугує досить добре як мотивація (і насправді часто щось на кшталт Беррі-Ессіна все-таки наближається до того, що люди насправді хочуть використовувати у кінцевих зразках, так що мотивація може бути в деякому сенсі кориснішою на практиці, ніж сама теорема про центральний межа) .

розподіл цих зразкових засобів було б нормальним.

Ну, ні, вони були б ненормальними, але на практиці вони були б дуже близькими до нормальних (висоти дещо перекошені, але не дуже перекошені).

$n=50$

Справжній випадок, про який я думаю, - це статистика набору даних 50 000 користувачів Twitter. Цей набір даних, очевидно, не є повторними зразками, це лише одна велика вибірка з 50000.

Для багатьох розповсюджень середня вибірка в 50 000 предметів буде дуже близькою до звичайної дистрибуції - але це не гарантується, навіть при n = 50 000 ви матимете дуже близький до нормального розподілу (якщо розподіл окремих елементів достатній скажімо, наприклад, тоді розподіл вибіркових засобів все ще може бути досить перекошеним, щоб зробити нормальне наближення неможливим).

( Теорема Беррі-Ессена призвела б до того, що ми можемо передбачити, що саме ця проблема може виникнути - і, мабуть, це є. Неважко навести приклади, до яких застосовується CLT, але для яких n = 50 000 не є майже досить великим зразком для стандартизований зразок означає бути близьким до нормального.)

— Glen_b -Встановити Моніку
джерело

Щоб перевірити, чи є 50 000 достатньо великим, можна зробити моделювання в R, наприклад, правильно? Я використовував би середнє та стандартне відхилення вибірки, але як би я переконався, що змоделював би однаковий розподіл мого зразка?

— Амонет

Строго кажучи, вам потрібно імітувати з розподілу населення. Ви можете трактувати розподіл вашої вибірки як оцінку розподілу населення (це схоже на завантаження) - але це не буде адекватним для такої мети. Як приклад, розгляньте, як намалювали зразок із розподілу Коші, а потім перекомпонували його із заміною. (для дедалі більших зразків), поки розподіл повторно взятого засобу не стане "достатньо нормальним". Ви завжди зробите висновок, що певний обмежений розмір вибірки є достатнім, але насправді цього ніколи не було б.

— Glen_b -Встановіть Моніку