Чому розподіл t стає більш нормальним, оскільки розмір вибірки збільшується?


19

Згідно з Вікіпедією, я розумію, що t-розподіл - це вибіркове розподіл величини t, коли вибірки є спостереженнями з нормально розподіленої сукупності. Однак я не розумію, чому це призводить до того, що форма розподілу t змінюється від жировика до майже абсолютно нормальної.

Я розумію, що якщо ви берете пробу із звичайного розподілу, тоді, якщо ви берете великий зразок, він буде схожий на такий розподіл, але я не розумію, чому він починається з жирної форми, яку він має.

Відповіді:


22

Спробую дати зрозуміле пояснення.

T-статистика * має чисельник і знаменник. Наприклад, статистика в одному зразку t-тесту є

x¯μ0s/n

* (їх декілька, але, сподіваємось, ця дискусія повинна бути достатньо загальною, щоб висвітлити ті, про кого ви питаєте)

За припущеннями чисельник має нормальний розподіл із середнім значенням 0 та деяким невідомим стандартним відхиленням.

За тим самим набором припущень знаменник - це оцінка стандартного відхилення розподілу чисельника (стандартна помилка статистики на чисельнику). Це незалежно від числівника. Його квадрат є випадковою змінною чи-квадрата, поділеною на її ступінь свободи (яка також є df розподілу t), .σчисельник

Коли ступеня свободи невелика, знаменник має тенденцію бути досить правим. У нього велика ймовірність бути меншою за середню, і порівняно хороший шанс бути зовсім невеликим. У той же час вона також має певний шанс бути набагато, значно більшою, ніж її середня.

За припущенням про нормальність чисельник та знаменник є незалежними. Отже, якщо ми виводимо випадковим чином з розподілу цієї t-статистики, ми маємо нормальне випадкове число, поділене на друге випадкове * обране значення від розподілу правого перекосу, яке в середньому становить близько 1.

* без огляду на звичайний термін

Оскільки це на знаменнику, малі значення при розподілі знаменника дають дуже великі t-значення. Правий косий в знаменнику роблять t-статистику важкохвостим. Правий хвіст розподілу, коли на знаменнику робить t-розподіл більш гострим, ніж нормальний, з тим же стандартним відхиленням, що і t .

Однак, коли ступеня свободи стає великою, розподіл стає набагато більш нормальним і набагато більш "щільним" навколо своєї середньої величини.

введіть тут опис зображення

Як такий, ефект ділення знаменником на форму розподілу чисельника зменшується зі збільшенням ступенів свободи.

Врешті-решт, як може нам сказати теорема Слуцького, ефект знаменника стає більше схожим на ділення на константу і розподіл t-статистики дуже близький до нормального.


Розглядається з точки зору зворотного знаменника

У коментарях Уубер припустив, що дивитись на зворотний знаменник може бути більш ілюмінативно. Тобто, ми можемо записати нашу t-статистику як чисельник (нормальний) разів, зворотний знаменника (правий перекіс).

Наприклад, нашою статистикою з одного зразка-t вище:

n(x¯μ0)1/s

Тепер розглянемо стандартне відхилення популяції від початкового , σ x . Ми можемо множити і ділити на нього так:Xiσx

n(x¯μ0)/σxσx/s

Перший термін є нормальним. Другий член (квадратний корінь масштабованої зворотної чи-квадратної випадкової величини) потім масштабує це стандартне значення за величиною, що є більшим або меншим за 1, "поширюючи його".

За припущенням про нормальність, два терміни у творі є незалежними. Отже, якщо ми виводимо випадковим чином з розподілу цієї t-статистики, ми маємо нормальне випадкове число (перший додаток у творі), що кратне другому випадково вибраному значенню (без урахування нормального терміна) від розподілу правого перекосу, який є ' зазвичай 'близько 1.

Коли величина df велика, величина має тенденцію бути дуже близькою до 1, але коли df невелика, вона є досить перекошеною, а розкид - великим, при цьому великий правий хвіст цього коефіцієнта масштабування робить хвіст досить жирним:

введіть тут опис зображення


Спасибі! Це багато що уточнило, але я все ще був трохи не впевнений у тому, що "Його квадрат - це випадкова величина чі-квадрат, поділена на ступінь його свободи (яка також є df розподілу t) разів [стандартне відхилення] чисельника ". Ви це згадали лише тому, що це було корисно знати, чи це щось, що має пряме значення для відповіді на моє запитання? Я розумію, що саме розподіл знаменника на відміну від розподілу площі знаменника зображено на вашій фігурі.
user1205901

2
Розподіл статистики був би важчим, ніж звичайний, навіть якби він не був конкретно квадратним коренем чі-квадрата на його df; в цьому сенсі відповідь не змінила б прямо, щоб не залишати її. Але принаймні це слугує поясненням того, звідки беруться масштабовані розподіли на діаграмі.
Glen_b -Встановити Моніку

3
Я думаю, що цей аналіз може бути трохи більш ілюмінаційним на основі зворотного стандартного відхилення вибірки. Це, в поєднанні з аргументом того, що вибірковий SD не залежить від середньої вибірки (ключова ідея, яка отримала б користь від трохи більше акценту та пояснення, IMHO), допомогла б людям побачити, що середнє значення поділу вибірки на вибірку SD має поширити, що інакше було б нормальним розподілом. (Це, звичайно, було суть відкриття
Госсетта

1
@whuber Я додав розділ, який обговорює це з точки зору взаємності, але також зберіг первісну дискусію (мені здається, це більш прямо, але я ціную, що багато людей можуть отримати більше від неї з точки зору взаємності) .
Додаю

1
s/nσ/ns/σσ/sσ

8

@Glen_b дав вам зрозуміти, чому t статистика виглядає більш нормально, оскільки розмір вибірки збільшується. Зараз я дам вам трохи більш технічне пояснення для випадку, коли ви вже отримали розподіл статистики.

n1n

(1+x2n1)n/2n1B(n12,12).

Це можна показати

1n1B(n12,12)12π,

і

(1+x2n1)n/2exp(x2/2),

n


2
Зближення PDF-файлів, здається, не дуже говорить. Наприклад, ви могли змішати дистрибутива з PDF пропорційним ( 1 + ( x / n ) 2 ) - 1 ступеню свободи? Хоче знати, чому послідовність "починається з жирної форми, яку вона робить". 1/n(1+(x/n)2)1tn
шурхіт

2
nn

2

Мені просто хотілося поділитися чимось, що допомогло моїй інтуїції як новачка (хоча це менш суворо, ніж інші відповіді).

Z,Z1,...,Zn

ZZ12+...+Zn2n

має t-розподіл с n

n1Zn

E[Z2]=1nZi2nZi2

nZ1=Z

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.