Чи можу я використовувати тести на перестановку, щоб уникнути проблеми багаторазового порівняння в контексті пропорцій?


9

Я оцінюю ефективність 5 різних методів для прогнозування певного бінарного результату (називаємо їх «Успіх» та «Невдача»). Дані виглядають так:

Method    Sample_Size    Success    Percent_Success
1         28             4          0.14  
2         19             4          0.21  
3         24             7          0.29  
4         21             13         0.61  
5         22             9          0.40 

Я хотів би провести тест серед цих 5 методів для оцінки відносної переваги методів. Іншими словами, я хочу замовити методи в порядку виконання як метод 1> метод 2> ... метод 5. Щоб уникнути випуску декількох порівнянь, я планую зробити тест на перестановку в наступних рядках:

Крок 1: Об’єднайте всі дані, щоб загальний розмір вибірки становив 114 із загальними 37 успіхами.

Крок 2: Довільно розділити дані на 5 груп із відповідними розмірами вибірки 28, 19, 24, 21 і 22.

Крок 3: Збільшення лічильника, якщо спостережуваний порядок Percent_Success з кроку 2 відповідає порядку упорядкування моїх даних.

Крок 4: Повторіть кроки 2 і 3 багато разів (скажімо, 10000).

Бажане p-значення = Кінцеве значення лічильника / 10000.

Запитання:

  1. Чи в порядку вищевказана процедура?

  2. Чи є в R щось, що дозволило б мені виконати вищевказаний тест?

  3. Будь-які пропозиції щодо вдосконалення чи альтернативні методи були б корисними.


@whuber У вас є R-код, можливо, щоб поділитися тим, як ви це зробили?
B_Miner

Відповіді:


6

Запропонована процедура не відповідає на ваше запитання. Він лише оцінює частоту, під нульовою гіпотезою, з якою буде відбуватися ваш спостережуваний порядок. Але під цим нулем, до гарного наближення, всі замовлення однаково вірогідні, тому ваш розрахунок дасть значення, близьке до 1/5! = приблизно 0,83%. Це нам нічого не говорить.

Ще одне очевидне спостереження: порядок, виходячи з ваших даних, становить 4> 5> 3> 2> 1. Ваші оцінки їх відносної переваги - 0,61 - 0,40 = 21%, 0,40 - 0,21 = 11% тощо.

Тепер, припустимо, ваше питання стосується того, наскільки будь-яка різниця в пропорціях могла бути обумовлена ​​випадковістю при нульовій гіпотезі без різниці. Ви справді можете оцінити ці десять питань за допомогою тесту на перестановку. Однак у кожній ітерації потрібно відстежувати десять показників відносної різниці пропорцій, а не один глобальний показник загального порядку.(52)=10

Для ваших даних результати моделювання зі 100 000 ітераціями дають результати

543210.024390.00030.132330.2996120.097630.003740.2922230.202530.0088440.08702

Різниці в пропорціях між методом 4 та методами 1, 2 та 3 навряд чи будуть обумовлені випадковістю (з розрахунковими ймовірностями 0,03%, 0,37%, 0,88% відповідно), але можуть бути й інші відмінності. Існують певні докази (p = 2,44%) різниці між методами 1 і 5. Таким чином, виявляється, ви можете мати впевненість, що різниці у пропорціях, що беруть участь у взаємозв'язках 4> 3, 4> 2 і 4> 1, є позитивними , і, швидше за все, це різниця в 5> 1.


1
Це набагато краща відповідь, ніж моя! Боюсь, я не прочитав питання належним чином (зокрема, крок 3). Я думав видалити свою відповідь, але я відстоюю від більшої інтерпретації байєсівського підходу - це насправді рейтинг, який цікавить.
onestop

Просто для переконання, що я правильно розумію. Індикатор, який відстежує відносну різницю між методом 4 та 5, оновлюватиметься кожного разу, коли ми побачимо різницю, що перевищує 0,21.
sxv

@sxv Так, саме так. (Ну, я фактично використовував більші або рівні. Зв'язки трапляються. Я думаю, що включення рівності серед значущих результатів правильно робити, тому що ми оцінюємо ймовірність того, що розбіжності в цій великій чи більшій кількості можуть виникнути випадково.)
whuber

1

Ваша запропонована процедура тестування перестановки Монте-Карло дасть значення р для тесту нульової гіпотези про те, що ймовірність успіху однакова для всіх методів. Але мало підстав робити тут тест на перестановку в Монте-Карло, коли відповідний точний перестановочний тест є цілком можливим. Це точний тест Фішера (ну, деякі люди резервують це ім'я для 2х2 таблиць; в цьому випадку це умовно точний тест). Я щойно набрав ваші дані в Stata та -tabi ..., точно - дав p = .0067 (для порівняння, тест чи-квадрата Пірсона дає p = .0059). Я впевнений, що в R є еквівалентна функція, яку незабаром додадуть гуру R.

Якщо ви дійсно хочете подивитися на рейтинг, ви, можливо, найкраще використовувати байєсівський підхід, оскільки він може дати просту інтерпретацію, оскільки ймовірність того, що кожен метод є справді найкращим, другим найкращим, третім найкращим, .... Це, звичайно, вимагає від вас поставити пріори на свої ймовірності. Максимальна оцінка ймовірності рангів - це просто спостережуване впорядкування, але важко підрахувати невизначеність у рейтингу у частофілістських рамках таким чином, що його можна легко інтерпретувати, наскільки мені відомо.

Я розумію, що не згадував багаторазових порівнянь, але просто не бачу, як це входить у це.


2
Точний тест Фішера та Хі-квадрати Пірсона перевіряють нульову гіпотезу, що всі 5 методів однаково ефективні проти альтернативи, що принаймні 1 кращий за інші. Значення р говорять мені, що нуль відхилено. Отже, якщо я хочу дізнатися, які методи насправді кращі за інші, чи не доведеться мені робити 10 парних порівнянь?
sxv
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.