Чому ми використовуємо однобічний тест F-тест для аналізу дисперсії (ANOVA)?


13

Чи можете ви навести причину використання односхилого тесту в аналізі дисперсії?

Чому ми використовуємо тест з одним хвостом - F-тест - в ANOVA?


2
Деякі питання, які спрямовують ваше мислення ... Що означає дуже негативна t статистика? Чи можлива негативна статистика F? Що означає дуже низька статистика F? Що означає статистика F?
russellpierce

Чому у вас складається враження, що односхилий тест повинен бути F-тестом? Щоб відповісти на ваше запитання: F-Test дозволяє перевірити гіпотезу з більш ніж однією лінійною комбінацією параметрів.
IMA

1
Чи хочете ви знати, чому можна використовувати однохвостий замість тесту з двома хвостами?
Єнс Курос

@tree, що є надійним або офіційним джерелом для ваших цілей?
Glen_b -Встановити Моніку

1
@tree зауважте, що питання Cynderella тут не про тест дисперсій, а конкретно про F-тест ANOVA - це тест на рівність засобів . Якщо вас цікавлять тести рівності дисперсій, про це йшлося в багатьох інших питаннях на цьому сайті. (Для тесту на дисперсію так, ви дбаєте про обидва хвости, як це чітко пояснено в останньому реченні цього розділу , праворуч над " Властивості ")
Glen_b -Встановити Моніку

Відповіді:


17

F-тести найчастіше використовуються для двох цілей:

  1. в ANOVA, для перевірки рівності засобів (та різних подібних аналізів); і

  2. при тестуванні рівності дисперсій

Розглянемо кожен по черзі:

1) F-тести в ANOVA (і аналогічно, звичайні види тестувань квадратних чі для даних підрахунку) побудовані таким чином, що чим більше даних відповідають альтернативній гіпотезі, тим більша статистика тесту, тим більше, як розташування вибірки дані, які виглядають найбільш узгодно з нулем, відповідають найменшим значенням тестової статистики.

Розгляньте три зразки (розміром 10, з однаковою дисперсією вибірки) і розташуйте їх, щоб вони мали однакові засоби вибірки, а потім перемістіть їх за допомогою різних моделей. Зі збільшенням варіації засобів вибірки від нуля збільшується статистика F:

Складання 3-х зразків та відповідної F-статистики

Чорні лінії (||

Якщо нульова гіпотеза (рівність засобів популяції) була істинною, ви очікували б певних змін у вибіркових засобах і, як правило, очікували б побачити співвідношення F приблизно приблизно 1. Менші статистичні дані F виходять із зразків, які ближче один до одного, ніж зазвичай очікуйте ... тому ви не збираєтесь робити висновок, що кількість населення відрізняється.

Тобто, для ANOVA ви відкинете гіпотезу про рівність засобів, коли отримаєте незвично великі значення F і не відкинете гіпотезу про рівність засобів, коли отримаєте незвично малі значення (це може щось вказувати , але не що чисельність населення відрізняється).

Ось ілюстрація, яка може допомогти вам побачити, що ми хочемо відхилити лише тоді, коли F знаходиться у верхньому хвості:

Опис F для ANOVA, відхиліть, коли F-статистика знаходиться у верхньому кінці

2) F тести на рівність дисперсії * (на основі коефіцієнтів дисперсії). Тут співвідношення двох оцінок дисперсії вибірки буде великим, якщо дисперсія вибіркового зразка набагато більша, ніж дисперсія в знаменнику, і відношення буде невеликим, якщо дисперсія вибіркового зразка значно більша за дисперсію в чисельнику.

Тобто, для тестування, чи відрізняється співвідношення відхилень сукупності від 1, ви хочете відхилити нуль і для великих, і для малих значень F.

* (Залишаючи осторонь питання про високу чутливість до припущення щодо розподілу цього тесту (є кращі альтернативи), а також питання, що якщо ви зацікавлені в придатності ANOVA припущень щодо рівномірної дисперсії, ваша найкраща стратегія, ймовірно, не є формальний тест.)


2
Тест @TaylerJones Левене дещо надійніший. Браун-Форсайт більш надійний (але втрачає трохи енергії біля норми). Флігнер-Кілін знову так. Протягом кількох десятиліть я використовував Левене або Брауна-Форса не більше двох разів. (Якщо вона з’явиться знову, швидше за все, мені подобається щось на зразок Брауна-Форсайта, але я, як правило, не маю сенсу тестувати кілька варіацій груп на рівність.)
Glen_b -Встановити Моніку

2
F=MSTREATMENTMSERROR1F

2
@tree це здається, що ти щось загально не розумієш у тестуванні гіпотез, але важко точно визначити, де саме. Ви кажете, що розумієте, що якщо ви отримаєте великий F, який ви хочете відхилити, і якщо ви отримаєте невеликий F, ви не хочете його відхиляти. Великі значення F - це значення у верхньому хвості, тоді як невеликі значення F - це значення у нижньому хвості. Ви бажаєте відхилити лише тоді, коли значення великі ... тобто у верхньому хвості, але не в нижньому. Як ти не бачиш, що це один хвіст? Я включу ще один сюжет, який може допомогти.
Glen_b -Встановити Моніку

1
@jeramy Мої коментарі стосуються тестів, які покладаються на співвідношення дисперсій (конкретно, я зазначив " Тут співвідношення двох оцінок вибіркової дисперсії буде ..."). Тести, на які ви посилаєтесь, шукають відмінності місцеположення в абсолютних залишках від якоїсь міри місцеположення, щоб виявити різницю у поширенні; вони, природно, працюють так, як працюють тести на відмінності від місцеположення. Так як я намагався показати випадок , коли ви б дивитися на нижньому хвості F, Браун-Форсайт (і деякі інші тести , які шукають відмінності розташування в деякій мірі відхилення для виведення поширених відмінностей) не буде ніякої допомоги
Glen_b -Встановіть Моніку

1
@jeramy Я додав кілька слів, щоб зробити це більш явним. Ви можете зауважити, що, хоча Браун-Форсайт, Левене і так далі використовують F-таблиці, розподіл статистики тестів насправді не є F-розподіленим, навіть за припущеннями тесту.
Glen_b -Встановіть Моніку

2

Потрібно розуміти, що мета ANOVA - перевірити, чи існує нерівність засобів ... з чого випливає, що ми маємо справу з великими варіаціями між зразками (а значить, як варіації обчислюються із засобів) порівняно з варіаціями в зразках (знову обчислюється із середнього значення вибірки). Коли варіації між зразками невеликі (внаслідок чого значення F знаходиться зліва), це не має значення, оскільки ця різниця незначна. Відхилення між зразками мають значення, якщо воно значно вище, ніж усередині варіацій; у такому випадку значення F було б більшим за 1, а отже, у правому хвості.

Залишається тільки питання, чому весь рівень значущості помістити в правильний хвіст, і відповідь знову схожий. Відхилення відбувається лише тоді, коли коефіцієнт F знаходиться в правій частині і ніколи, коли співвідношення F знаходиться з лівого боку. Рівень значущості - це міра помилки через статистичні обмеження. Оскільки відхилення відбувається лише праворуч, у праві зберігається весь рівень значущості (ризик помилки). `


0

Очікуване значення середньої площі (МС) в рамках лікування - це дисперсія популяції, тоді як очікувана величина для МС між лікуванням - дисперсія популяції PLUS та дисперсія лікування. Таким чином, співвідношення F = MSbet između / MSwithin завжди більше 1, а ніколи не менше 1.

Оскільки точність 1-хвостового тесту краща, ніж тест з двома хвостами, ми вважаємо за краще використовувати тест з 1 хвостиком.


Я не вважаю, що твердження в останньому реченні вашого першого абзацу є правильним ... E (чисельник)> E (знаменник) не означає, що чисельник> знаменник.
Glen_b -Встановити Моніку

Окрім точки зору Glen_b, я не впевнений у тому, "оскільки точність тесту з однохвостим кращим, ніж тест з двома хвостами, ми вважаємо за краще використовувати тест на 1 хвіст". Чи можете ви пояснити, що ви маєте на увазі під цим? Якщо говорити про точність, мені здається, я не пропускаю суть.
Срібна рибка

Точність така ж, як і половина довірчого інтервалу. Для того ж F-stat тест 1 хвостом відкине нульову гіпотезу з меншим р-значенням (насправді половина). І навпаки, тест 1 хвостом може відкинути нульову гіпотезу з меншими значеннями F-stat. Це означає, що тест на 1 хвіст може виявити ефект лікування з меншою кількістю зразків або з більш частою дисперсією причини, яка присутня в пробі. Це робить тест на 1 хвіст більш бажаним, якщо він шукає ефект.
Джефф Коттер

Так, розрахункова статистика F може бути меншою ніж 1,0. Однак висновок не зможе відкинути нульову гіпотезу про "відсутність ефектів від лікування". Тому в нижньому хвості немає критичної області. Тому F-тест - це тест верхнього однобічного. У ANOVA логічний аргумент заснований на очікуваних значеннях для MS_treat та MS_error. Під гіпотезою "без ефекту лікування" H0: E (MS_treat) = E (MS_error) = дисперсія популяції. Будь-який значний ефект лікування призводить до HA: E (MS_treat)> E (MS_error). (Джерело будь-якого тексту Монтгомері, що охоплює ANOVA). Таким чином, HA має на увазі однобічний тест.
Джефф Коттер
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.