Оцінки "Приблизно нормально" для t-тестів


12

Я тестую рівність засобів, використовуючи t-тест Вельча. Основний розподіл далеко не нормальний (більш хиткий, ніж приклад у відповідній дискусії тут ). Я можу отримати більше даних, але хотів би дещо принципово визначити, в якій мірі це робити.

  1. Чи є хороша евристика для оцінки оцінки прийнятності розподілу вибірки? Які відхилення від нормальності найбільше стосуються?
  2. Чи існують інші підходи - наприклад, покладаючись на довірчий інтервал завантажувальної статистики для вибіркової статистики - який би мав більше сенсу?

2
Це чудове питання. Крім того, чи є тестування на нормальність "по суті марним"? (вже пов'язано), ще два пов'язані питання: Як вибрати між t-тестом або непараметричним тестом, наприклад, Wilcoxon у малих зразках? і Т-тест на ненормальний при N> 50? Хороша відповідь на це питання потенційно була б корисною для читачів цих двох пов'язаних питань.
Срібна рибка

Наскільки я знаю, немає жодних принципових способів визначити, скільки даних вам потрібно, щоб розподіл був "достатньо нормальним". Це тому, що "досить нормальне" важко визначити, і це залежало б від того, наскільки ненормальний базовий розподіл, на додаток до конкретного способу, яким ви відходите від нормальності. Якщо у вас є серйозні ненормальні дані, я б просто скористався непараметричним тестом. Мінусом є те, що ви не зможете отримати довірчі інтервали, які є більш корисними, ніж тести самотніх гіпотез.
dsaxton

2
Я погоджуюсь, що "досить нормально" важко визначити, але кожен практикуючий повинен зробити оцінку перед тим, як міркувати про емпіричні дані, тому я дивуюся тому, як мало дискусій мені вдалося розкрити (можливо, я шукаю в неправильних місцях) . Що стосується випадків використання, я маю на увазі тут (які вважають достатньо поширеними) непараметричні тести незадовільні порівняно зі збиранням більшої кількості даних для забезпечення «достатнього нормального» розподілу вибірки.
cohoz

Відповіді:


1

Оскільки t- тест припускає нормальність, а ваші базові розподіли не є нормальними, не може бути принципового способу визначення, що вибіркове розподілення прийнятне. Однак, оскільки розмір вибірки стає "великим", починається теорема центрального граничного значення, і ви можете використовувати великий z-тест зразка, який по суті дасть вам таку ж відповідь, що і t -test, оскільки t наближається до нормального розподілу з великі зразки.

Статистичні книги / курси часто означають, що при розмірі вибірки 25 або 30 CLT вступає в гру корисним чином. Однак мій досвід показав, що навіть при розмірах вибірки в сотнях великих зразкових z-тестів все ще може бути досить погано (наприклад, з даними підрахунку).

На мою думку, тест на перестановку добре підходить до вашої проблеми. Він повинен мати рівну або кращу потужність, ніж консервовані непараметричні випробування (наприклад, Ман-Вітні), і вам не доведеться турбуватися про питання нормальності. І, вони цікаво писати.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.