Статистичний тест на значення, що суттєво відстає від сукупності, означає: це Z-тест чи Т-тест?

Наскільки значущим є значення порівняно зі списком значень? У більшості випадків статистичне тестування включає порівняння вибірки, встановленої для сукупності. У моєму випадку вибірка складається на одне значення, і ми порівнюємо її з сукупністю.

Я є дилетантом у тестуванні статистичної гіпотези, зіткнувшись із, мабуть, найбільш основною проблемою. Це не один тест, а сотні. У мене є простір параметрів, і я повинен зробити перевірку значимості для кожної точки. Для кожної комбінації параметрів формуються як значення, так і фоновий список (сукупність). Тоді я замовляю це за р-значенням і знаходжу цікаві комбінації параметрів. Фактично, знаходження комбінацій параметрів, де цей p-val високий (несуттєва), також важливий.

Отже, давайте зробимо один єдиний тест: у мене є обчислене значення, сформоване з вибраного набору, і фоновий набір значень, обчислений шляхом вибору випадкового навчального набору. Обчислене значення становить 0,35, а фоновий набір (мабуть?) Зазвичай розподіляється із середнім значенням 0,25 та дуже вузьким std (e-7). Я фактично не знаю про розподіл, тому що вибірки обчислюються з чогось іншого, вони не є випадковими вибірками чисел з якогось розподілу, тому фон - це правильне слово для цього.

Нульовою гіпотезою було б те, що "середнє значення вибіркового тесту дорівнює моєму обчисленому значенню - 0,35". Коли я повинен вважати це Z-тестом або Т-тестом? Я хочу, щоб цінність була значно вищою, ніж середня сукупність, тому це односхилий тест.

Я трохи розгублений щодо того, що слід вважати вибіркою: у мене є або зразок одного (спостереження), і фоновий список, оскільки сукупність АБО мій зразок є фоновим списком, і я порівнюю це з цілим (без вибірки) населення, яке згідно з нульовою гіпотезою повинно мати те саме значення. Як тільки це буде вирішено, тест іде в різні напрямки, я думаю.

Якщо це Т-тест, як я обчислюю його p-значення? Я хотів би сам обчислити це, а не використовувати функцію R / Python / Excel (я вже знаю, як це зробити), тому спочатку я повинен встановити правильну формулу.

Для початку, я підозрюю, що Т-тест є занадто загальним, оскільки в моєму випадку T-тест буде пов'язаний з розміром вибірки і матиме вигляд: де

Т = Z / с,

$T=Z/s,$

і з в

, зразок стандпорівнянні з станд населення. Отже, у мене є два випадки: або мій вибірковий розмір - це чисельність сукупності, що, напевне, означало б, що я маю справу з Z-тестом, або статистика населення (n і std) невідома, але розподіл може бути в якимось чином наближений, і я справді маю справу з Т-тестом. У будь-якому випадку мої наступні запитання:

Z = \frac{\bar{Х}}{\frac{σ}{\sqrt{н}}}

$Z=\frac{\bar{X}}{\frac{\sigma}{\sqrt{n}}}$

с = \hat{σ} / σ

$s=\hat{\sigma}/\sigma$

Як обчислити р-значення? (тобто не використовуючи функцію R / Python / Excel або розшукувати таблицю p-значення таблиці, але насправді обчислити її за формулою, тому що я хочу знати, що я роблю)
Як визначити поріг значущості залежно від розміру вибірки? (формула була б непогана)

hypothesis-testing statistical-significance

— grokkaine
джерело

10^{6}

$10^6$

0.35 = 10^{6} \times 10^{- 7} + 0.25

$0.35 = 10^6 \times 10^{-7} + 0.25$

0.35

$0.35$

@grokkaine - Це питання викликає цікаві питання і здається цінним, але я вважаю його ще більш цінним, якби ви трохи відредагували його, обережно, щоб бути дуже точним зі своїми умовами.

— rolando2

Це не один тест, а сотні. У мене є простір параметрів, і я повинен зробити перевірку значимості для кожної точки. Для кожної комбінації параметрів формуються як значення, так і фоновий список (сукупність). Тоді я замовляю це за р-значенням і знаходжу цікаві комбінації параметрів. Фактично, знаходження комбінацій параметрів, де цей p-val високий (несуттєва), також важливий. Спробую відредагувати свою публікацію трохи пізніше.

— grokkaine

Відповіді:

Ви ставите цікаве запитання. Перше, що спочатку, якщо у вас є спостереження 0,35, середнє значення 0,25 та стандартне відхилення 1/10 ^ 7 (саме так я інтерпретую ваш біт e--7), вам дійсно не потрібно вступати в будь-яку гіпотезу тестова вправа. Ваше спостереження 0,35 сильно відрізняється від середнього значення 0,25, враховуючи, що це буде кілька тисяч стандартних відхилень від середнього значення, і, ймовірно, це буде кілька мільйонів стандартних помилок від середнього.

Різниця між Z-тестом і t-тестом стосується переважно розміру вибірки. Для зразків менше 120, ви повинні використовувати t-тест для обчислення значень p. Коли розміри зразків більше, ніж це, це не має великої різниці, якщо взагалі ви використовуєте. Приємно обчислювати це обома способами незалежно від розміру вибірки та спостерігати, наскільки мала різниця між двома тестами.

Що стосується обчислення речей самостійно, ви можете обчислити t stat, поділивши різницю між вашим спостереженням і середнім значенням і розділивши його на стандартну помилку. Стандартна помилка - це стандартне відхилення, поділене на квадратний корінь розміру вибірки. Тепер у вас є ваш t stat. Для обчислення значення ap я думаю, що немає альтернативи, ніж шукати значення t в тестовій таблиці. Якщо ви приймаєте просту альтернативу TDIST Excel (значення t stat, DF, 1 або 2 для 1 або 2 кінцевого значення p), це виконує завдання. Щоб обчислити значення ap за допомогою Z, формула Excel для 1 хвостового тесту становить: (1 - NORMSDIST (значення Z). Значення Z те саме, що t stat (або число стандартної помилки від середнього).

Як і застереження, ці методи перевірки гіпотез можуть спотворюватися за розміром вибірки. Іншими словами, чим більший розмір вибірки, тим менша ваша стандартна помилка, чим вище отримане значення Z або t статистика, тим нижче значення р і вище ваша статистична значимість. Як скорочення цієї логіки, великі розміри вибірки призведуть до високої статистичної значущості. Але висока статистична значимість у зв'язку з великим розміром вибірки може бути абсолютно несуттєвою. Іншими словами, статистично значущою є математична фраза. Це не обов'язково означає значне (за словником Вебстера).

Щоб піти від цієї великої пастки розміру вибірки, статистики перейшли до методів розміру ефекту. Останні використовують як одиницю статистичної відстані між двома спостереженнями Стандартне відхилення замість Стандартної помилки. З таким розміром вибіркової рамки не буде впливати на вашу статистичну значимість. Використання розміру ефекту також буде відхиляти вас від значень p та до інтервалів довіри, що може бути більш значущим у звичайній англійській мові.

— Симпа
джерело

Дякую за відповідь, я трохи розгублений щодо того, що слід вважати вибіркою: у мене є або зразок одного (спостереження), і фоновий список, оскільки сукупність АБО мій зразок є фоновим списком, і я порівнюю це з ціле (без вибірки) населення, яке згідно з нульовою гіпотезою повинно мати однакове значення. Як тільки це буде вирішено, тест іде в різні напрямки, я думаю.

— grokkaine

Використовуйте всі ваші спостереження як зразок (як би ви його не називали). І обчисліть статистичну відстань між вашим спостереженням та середнім значенням вибірки, як визначено. Обчисліть стандартне відхилення та стандартну похибку вашої вибірки. І, статистична відстань вашого спостереження від середнього значення: (Спостереження - Середнє значення) / Стандартна помилка = t статистика. Використовуйте функцію Excel TDIST (DF, t stat, 1 (для одного хвоста)) і ви отримаєте ваше значення p.

— Sympa

Тестування гіпотез завжди стосується сукупності. Якщо ви хочете зробити заяву про зразок, вам не потрібно тестувати (просто порівняйте побачене). Часті фахівці вірять в асимптотику, тому поки розмір вибірки великий, не переживайте за поширення ваших даних. З-тест і Т-тест в основному однакові з точки зору обчислення статистики тесту, просто критичні значення отримуються з різних розподілів (Нормальний проти Стьюдент-Т). Якщо розмір вибірки великий, різниця незначна.

Щодо Q1: Просто подивіться це на розподіл Т з n-1 ступенем свободи, де n - розмір вибірки.

Щодо Q2: Ви обчислюєте поріг виходячи з бажаного рівня значущості для Z-тесту та на основі рівня значущості для розміру вибірки у випадку Т-тесту.

Але якщо серйозно, вам слід переглянути деякі основи.

— joint_p
джерело

Дякую за відповідь. Насправді я використовував t-dist, але я хотів також зрозуміти, "чому", я ним користуюся. Як ви визначаєте "великий" зразок і чим p-значення відрізняється. Що ще важливіше, як ми можемо знати, коли розподіл є нормальним чи студентським? Чи є для нього статистичний тест? Можливо, використати тест колгогоров-Смірнов на другий і хм .. що використовувати для першого?

— grokkaine

великий ... добре Z і t сходяться, починаючи з n = 60. Просто порівняйте значення р, отримані в обох тестах. Припущення t / нормального розподілу не залежить від розподілу базових даних. Він ґрунтується на припущенні, що розподіл вибірки середнього є нормальним. Навіть якщо змінна, яку ви тестуєте, поширюється на Gamma, вона все ще має місце. З n = 200 або близько того, це повинно працювати добре. Знову ж таки, все це базується на статистиці часто.

— Joint_p

+1 за коментар до тестування гіпотез, що завжди стосується населення, але -1 за те, що, здається, пропустив те, що у запитувача є зразок 1.

— Пітер Елліс,

Я не був дуже впевнений, що "у мене є обчислене значення та фоновий набір випадково генерованих значень. Обчислене значення 0,35" повинно було означати ... Я вважав, що це якось означає, що існує більше 1 спостереження.

— Joint_p

повторна публікація моїх коментарів з інших пунктів: Я трохи розгублений щодо того, що слід вважати вибіркою: у мене є або зразок одного (спостереження), і фоновий список, оскільки сукупність АБО мій зразок є фоновим списком і Я порівнюю це з цілим (без вибірки) населенням, яке згідно з нульовою гіпотезою повинно мати однакове значення. Як тільки це буде вирішено, тест іде в різні напрямки, я думаю.

— grokkaine