Наскільки значущим є значення порівняно зі списком значень? У більшості випадків статистичне тестування включає порівняння вибірки, встановленої для сукупності. У моєму випадку вибірка складається на одне значення, і ми порівнюємо її з сукупністю.
Я є дилетантом у тестуванні статистичної гіпотези, зіткнувшись із, мабуть, найбільш основною проблемою. Це не один тест, а сотні. У мене є простір параметрів, і я повинен зробити перевірку значимості для кожної точки. Для кожної комбінації параметрів формуються як значення, так і фоновий список (сукупність). Тоді я замовляю це за р-значенням і знаходжу цікаві комбінації параметрів. Фактично, знаходження комбінацій параметрів, де цей p-val високий (несуттєва), також важливий.
Отже, давайте зробимо один єдиний тест: у мене є обчислене значення, сформоване з вибраного набору, і фоновий набір значень, обчислений шляхом вибору випадкового навчального набору. Обчислене значення становить 0,35, а фоновий набір (мабуть?) Зазвичай розподіляється із середнім значенням 0,25 та дуже вузьким std (e-7). Я фактично не знаю про розподіл, тому що вибірки обчислюються з чогось іншого, вони не є випадковими вибірками чисел з якогось розподілу, тому фон - це правильне слово для цього.
Нульовою гіпотезою було б те, що "середнє значення вибіркового тесту дорівнює моєму обчисленому значенню - 0,35". Коли я повинен вважати це Z-тестом або Т-тестом? Я хочу, щоб цінність була значно вищою, ніж середня сукупність, тому це односхилий тест.
Я трохи розгублений щодо того, що слід вважати вибіркою: у мене є або зразок одного (спостереження), і фоновий список, оскільки сукупність АБО мій зразок є фоновим списком, і я порівнюю це з цілим (без вибірки) населення, яке згідно з нульовою гіпотезою повинно мати те саме значення. Як тільки це буде вирішено, тест іде в різні напрямки, я думаю.
Якщо це Т-тест, як я обчислюю його p-значення? Я хотів би сам обчислити це, а не використовувати функцію R / Python / Excel (я вже знаю, як це зробити), тому спочатку я повинен встановити правильну формулу.
Для початку, я підозрюю, що Т-тест є занадто загальним, оскільки в моєму випадку T-тест буде пов'язаний з розміром вибірки і матиме вигляд: де Z = ˉ X
- Як обчислити р-значення? (тобто не використовуючи функцію R / Python / Excel або розшукувати таблицю p-значення таблиці, але насправді обчислити її за формулою, тому що я хочу знати, що я роблю)
- Як визначити поріг значущості залежно від розміру вибірки? (формула була б непогана)