Як виконати t-тест Стьюдента, що має лише розмір вибірки, середню вибірку та середню кількість населення?


28

Для тесту Стьюдента потрібно стандартне відхилення вибірки . Однак як же я обчислити коли відомі лише розмір вибірки та середня кількість вибірки?тсс

Наприклад, якщо розмір вибірки становить а середня вибірка - , я спробую створити список із однакових вибірок зі значеннями кожному. Очікується, що стандартне відхилення вибірки дорівнює . Це створить проблему поділу на нуль у тесті .49112491120т

ДОДАТКОВІ ДАНІ:
Середній дохід працівників ACME North Factory становить . Повідомляється, що випадкова вибірка із робітників на заводі ACME South мала щорічний дохід у . Чи є ця різниця статистично значущою?$20049$112

Чи правильно я кажу, що середнє значення становить ?$200


Яку проблему ви намагаєтеся вирішити? Це допоможе нам допомогти вам, якби ви сказали більше.
pmgjones

Звичайно. Я додав зразок проблеми.
Кіт

Відповіді:


32

Це може здивувати багатьох, але щоб вирішити цю проблему, не обов'язково оцінювати s . Насправді, вам не потрібно нічого знати про поширення даних (хоча це, звичайно, було б корисно). Наприклад, Wall, Boen і Tweedie у статті 2001 року описують, як знайти обмежений інтервал довіри для середнього будь-якого одномовного розподілу на основі одного розіграшу.

У цьому випадку ми маємо певну основу для того, щоб розглянути середню вибірку 112 як вирівнювання приблизно від нормального розподілу (а саме розподілу вибірки в середньому простої випадкової вибірки з 49 зарплат). Ми чітко припускаємо, що є досить велика кількість фабричних робітників і що їх розподіл заробітної плати не настільки перекошений або багатомодальний, щоб зробити центральну межу теореми непрацездатною. Тоді консервативна 90% ІС для середнього значення поширюється вгору до

112+5.84 |112|,

чітко висвітлюючи справжнє середнє значення 200. (Див . Формула Wall та ін. 3.) Враховуючи обмежену наявну інформацію та висловлені тут припущення, ми не можемо зробити висновок, що 112 відрізняється «значно» від 200.

Довідка: "Ефективний інтервал довіри для середніх зразків розміру один і два". Американський статистик, травень 2001, Vol. 55, № 2: С. 102-105. ( pdf )


4
Так! Ось чому цього варто вивчити: виклики нашої інтуїції є винятково освітніми. Про це я вперше дізнався з чистої статті про веб-сторінку Карлоса Родрігеса (SUNY Albany), але цього ранку я не зміг її знайти: схоже, сервер не працює. Спробуйте Google "згодом" статистику карло рогрігеса "пізніше. (Його документ повинен бути на omega.albany.edu/8008/confint.html , але це може бути стара URL.)
whuber

4
Дивовижний. Я цього не знав. Дякую за довідку.
Роб Хайндман

4
Дякую - чи є шанс, що це ви думаєте про папір Родрігеса? arxiv.org/abs/bayes-an/9504001
АРС

2
Це чудово. Однак мені цікаво, чому ви застосували формулу (3) (яка походить від Edelman), яку Wall та ін характеризують як "ширшу, ніж потрібно". До кінця абзацу безпосередньо перед згадкою (3) вони використовують 4,84 (рівно на 1 менше, ніж 5,84) для 90% інтервалу, що походить від їх рівняння (4). Без сумніву, я щось пропустив.
Glen_b -Встановіть Моніку

2
@Glen_b Навпаки, швидше за все, я щось пропустив. Я зверну увагу на те, що наступного разу, коли мені знадобиться цей документ, але тим часом різниця в константах не впливає на аналіз тут.
whuber

13

Це, здається, є дещо надуманим питанням. 49 - це точний квадрат 7. Значення t-розподілу з 48 DoF для двостороннього тесту р <0,05 становить майже 2 (2,01).

Ми відкидаємо нульову гіпотезу про рівність засобів, якщо | sample_mean - popn_mean | > 2 * StdError, тобто 200-112> 2 * SE, так SE <44, тобто SD <7 * 44 = 308.

Неможливо було б отримати нормальний розподіл із середнім значенням 112 зі стандартним відхиленням 308 (або більше) без негативної заробітної плати.

Враховуючи, що заробітна плата обмежена внизу, вона, швидше за все, буде перекошена, тому припустити, що нормальний розподіл журналу був би більш доцільним, але все-таки вимагатиме сильно змінної заробітної плати, щоб уникнути p <0,05 на t-тесті.


3

мк=0,999112+0,00188112=200.49/1000<0,05середня вибірка буде 112. Фактично, регулюючи співвідношення робітників / керівників та зарплату генерального директора, ми можемо зробити довільно малоймовірним, що вибірку з 49 працівників приверне генеральний директор, при цьому встановивши середній показник чисельності населення у 200, і вибіркове середнє на 112. Таким чином, не роблячи деякі припущення щодо початкового розподілу, ви не можете робити будь - який висновок про повну загальну середню населення.


2
$

1
(1) хороший улов. (2), так, я можу зробити налаштування проблеми асимптотично викривленим для фіксованих результатів, після закінчення . моє ліжко. однак я вже не впевнений, що ОП намагається перевірити. Якщо вони знають, що середня кількість населення - 200, чому вони намагаються її перевірити?
shabbychef

1
BTW, очевидно, співвідношення зарплати генерального директора / найменш виплаченої зарплати у 400 не вважається крайнім у США. 800 хоч трохи збочену.
shabbychef

2

Я припускаю, що ви маєте на увазі тест одного зразка. Його мета - порівняння середнього значення вашої вибірки з гіпотетичним середнім. Потім він обчислює (якщо припустити, що ваше населення є гауссом) значення P, яке відповідає на це запитання: Якщо середня сукупність справді була гіпотетичною цінністю, наскільки малоймовірним було б зробити вибірку, середня величина якої далека від цієї величини (або далі), ніж ви спостерігали? Звичайно, відповідь на це питання залежить від розміру вибірки. Але це також залежить від мінливості. Якщо ваші дані мають величезну кількість розсіювання, вони відповідають широкому колу засобів населення. Якщо ваші дані дійсно тісні, вони відповідають меншому колу засобів населення.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.