Нещодавно я написав запис у блозі, пов’язаному із зв’язком, в якому зазначив лемму Неймана Пірсона простими словами та наводив приклад. Я знайшов приклад відкривання очей у сенсі надання чіткої інтуїції леми. Як часто в імовірності, вона заснована на дискретній функції масової ймовірності, тому її легше здійснити, ніж при роботі з форматом pdf. Крім того, врахуйте, що я визначаю коефіцієнт ймовірності як вірогідність альтернативної гіпотези проти нульової гіпотези, всупереч вашому твердженню леми. Пояснення те саме, але швидше, ніж менше, ніж зараз. Я сподіваюся, що це допоможе ...
Ті з вас, хто працює в аналізі даних і пройшов деякі курси статистики, можливо, ознайомилися з леммою Неймана-Пірсона (NP-лема). Повідомлення просте, демонстрація не стільки, але те, що мені завжди було важко, - це зрозуміти здоровий глузд того, про що йдеться. Читаючи книгу PIGood та JWHardin під назвою "Найпоширеніші помилки у статистиці", я дійшов до пояснення та прикладу, який допоміг мені відчути це відчуття кишки щодо NP-леми, яку я завжди пропускав.
Не 100-відсотково математично досконала мова, про що говорить Нейман-Пірсон, - це те, що найпотужніший тест, який можна визначити, щоб підтвердити задану гіпотезу в межах певного рівня значущості, задається областю відхилення, зробленою всіма можливими спостереженнями, що випливають із цього тесту коефіцієнт ймовірності вище певного порогу ... ваа! Хто сказав, що це легко!
Зберігайте спокій і деконструюйте лему:
- Гіпотеза . У статистиці завжди працює з двома гіпотезами про те, що статистичний тест слід відхиляти чи не відхиляти. Існує нульова гіпотеза, яка не буде відхилена, доки вибіркові докази проти неї не будуть досить сильними. Існує також альтернативна гіпотеза - та, яку ми візьмемо, якщо нуль здається помилковим.
- Сила тесту (також чутливість) говорить нам, у якій кількості разів ми будемо правильно відкидати нульову гіпотезу, коли вона неправильна. Ми хочемо потужних тестів, тому більшу частину часу ми відкидаємо нульову гіпотезу, що ми праві!
- Рівень значущості тесту (він також називає помилковою позитивною швидкістю) говорить нам, у якій кількості разів ми помилково відкинемо нульову гіпотезу, коли це правда. Ми хочемо невеликого рівня значущості, тому більшість випадків, коли ми відкидаємо нульову гіпотезу, ми не помиляємося!
- Область відхилення , враховуючи всі можливі результати тесту, область відхилення включає ті результати, які змусять нас відкинути нульову гіпотезу на користь її альтернативної.
- Ймовірність - це ймовірність побачити спостережуваний результат тесту, враховуючи, що нульова гіпотеза (ймовірність нульової гіпотези) або альтернативна (ймовірність альтернативної гіпотези) були правдивими.
- Коефіцієнт ймовірності - це відношення ймовірності альтернативної гіпотези, поділеної на ймовірність нульової гіпотези. Якщо результат тесту дуже очікувався, якщо нульова гіпотеза була вірною проти альтернативної, коефіцієнт ймовірності повинен бути невеликим.
Досить визначень! (хоча якщо ви уважно подивитесь на них, то зрозумієте, що вони дуже проникливі!). Давайте перейдемо до того, що кажуть нам Нейман і Пірсон: якщо ви хочете провести найкращий статистичний тест з точки зору його потужності, просто визначте область відхилення, включивши ті результати тестування, які мають найвищий коефіцієнт ймовірності, і продовжуйте додавати більше тесту Результати, поки ви не досягнете певного значення, скільки разів ваш тест відкине нульову гіпотезу, коли вона відповідає дійсності (рівень значущості).
Давайте подивимось приклад, де, сподіваємось, все зійдеться разом. Приклад ґрунтується на згаданій вище книзі. Він повністю складений самим собою, тому його не слід розглядати як відображення будь-якої реальності чи особистої думки.
Уявіть, що хочеться визначити, чи хтось виступає за встановлення імміграційних квот (нульова гіпотеза) чи ні (альтернативна гіпотеза), запитуючи його почуття проти Європейського Союзу.
Уявіть, що ми знали фактичний розподіл ймовірностей для обох типів людей стосовно відповіді на наше запитання:
Давайте уявимо, що ми готові прийняти помилкову позитивну помилку 30%, тобто 30% часу ми відкинемо нульову гіпотезу і припустимо, що опитувана особа проти квот, коли вона / вона дійсно для них. Як ми побудували тест?
На думку Неймана та Пірсона, ми спочатку взяли б результат з найбільшою часткою ймовірності. Це відповідь "дуже подобається ЄС" із співвідношенням 3. З цим результатом, якщо припустимо, що хтось проти квот, коли він / вона сказав, що "дуже подобається ЄС", 10% часу ми б призначали для квот людей проти (значення). Однак ми б справедливо віднесли лише до квотних осіб 30% часу (владу), оскільки не всі в цій групі мають однакову думку щодо ЄС.
Це здається поганим результатом, що стосується влади. Однак тест не робить багато помилок при неправильному класифікації людей, які мають квоти (значення). Оскільки ми є більш гнучкими щодо значущості, давайте шукатимемо наступний результат тесту, який слід додати до пакета відповідей, які відкидають нульову гіпотезу (область відхилення).
Наступна відповідь з найбільшим коефіцієнтом ймовірності - "як ЄС". Якщо ми використовуватимемо відповіді "дуже подобається" та "подобається" ЄС як результати тестування, які дозволяють нам відкинути нульову гіпотезу про те, що хтось має квоти, ми б неправильно класифікували для людей, які не мають квот, як не 30% часу (10% від "дуже подобається" і 20% від "подобається"), і ми б правильно класифікували 65% часу від квот людей (30% від "дуже подобається" і 35% від "подобається"). У статистичному жаргоні: наша значимість зросла з 10% до 30% (погано!), Тоді як потужність нашого тесту зросла з 30% до 65% (добре!).
Така ситуація є у всіх статистичних тестів. Немає чогось такого, як безкоштовний обід навіть у статистиці! Якщо ви хочете збільшити потужність свого тесту, ви робите це за рахунок підвищення рівня значущості. Або простіше кажучи: ви хочете краще класифікувати хороших хлопців, ви зробите за рахунок того, що більше поганих хлопців виглядатимуть добре!
В основному, зараз ми зробили! Ми створили найпотужніший тест, який ми могли б надати дані та рівень значущості 30%, використовуючи мітки "дуже подобається" та "як", щоб визначити, чи хтось проти квот ... ми впевнені?
Що було б, якби ми включили на другий крок після того, як було обрано відповідь "дійсно подобається", а відповідь "байдужий" замість "подобається"? Значення тесту було б таким же, як і раніше, на рівні 30%: 10% для людей, які діють квоти, відповідають "справді", а 20% для квотних людей відповідають "не подобається". Обидва тести були б такими ж поганими при неправильному класифікації осіб, які займаються квотами. Однак потужність погіршиться! З новим тестом ми мали б потужність 50% замість тих 65%, які мали раніше: 30% від «дуже подобається» і 20% від «байдужих». З новим тестом ми були б менш точними при визначенні квотних осіб!
Хто тут допоміг? Співвідношення ймовірності Неймана-Людини чудова ідея! Отримуючи щоразу відповідь з найвищим коефіцієнтом ймовірності, ми гарантували, що ми включимо в новий тест якомога більше потужності (великий чисельник), зберігаючи при цьому значення під контролем (малий знаменник)!