Який сенс порівнювати значення p між собою?


20

У мене дві популяції (чоловіки та жінки), кожна з яких містить зразків. Для кожного зразка у мене є два властивості A&B (середній бал першого року та оцінка SAT). Я використовував t-тест окремо для A&B: обидві виявили значні відмінності між двома групами; А з р = 0,008 і В з р = 0,002 .1000p=0.008p=0.002

Чи правильно стверджувати, що власність B краще дискримінована (більш значна), ніж властивість A? Або це тест-тест - це просто так чи ні (суттєвий чи незначний) захід?

Оновлення : згідно з коментарями тут і тим, що я читав у Вікіпедії , я вважаю, що відповідь повинна бути: скиньте безглузде значення p і повідомте про свій ефект . Будь-які думки?


+ пробачте, будь ласка, що я не є носієм англійської мови :)
Dov

Немає проблем: якщо ви відчуваєте, що (незначні) зміни, які я внесла, змінили ваше запитання будь-якими змістовними способами, будь ласка, не соромтеся їх виправити.
whuber

Який результат ви виміряли? (тобто чим він відрізняється між групами, визначеними A / не A, або B / не B?) Чи вимірюється він на всіх 1000 зразках, або деякі відсутні?
гість

3
Повідомлення двох різних розмірів ефекту або довірчих інтервалів для двох різних розмірів ефекту було б хорошою ідеєю. Було б простіше інтерпретувати це, якби результат у кожного з ваших двох наборів даних був однаковим (так?).
Пітер Елліс

2
Ви можете показати статистичну значущість та розмір ефекту дуже зручно, використовуючи лісову ділянку! Представлення 95% ІС означає, що ви використовуєте 4 числа замість 2, але, як усі натякають, це достатньо відображає обсяг інформації, необхідної для порівняння експериментів.
AdamO

Відповіді:


20

Багато людей стверджують, що -значення може бути значущим ( p < α ) або ні, і тому не має сенсу порівнювати два p -значення між собою. Це неправильно; в деяких випадках це і є.pp<αp

У вашому конкретному випадку абсолютно немає сумнівів у тому, що ви можете безпосередньо порівняти . Якщо розмір вибірки є фіксованим ( n = 1000 ), то p -значення монотонно пов'язані з t -значеннями, які, в свою чергу, монотонно пов'язані з розміром ефекту, виміряним d . Зокрема, d = 2 t / pn=1000ptd . Це означає, що вашіp-значення знаходяться у відповідність один до одного з розміром ефекту, і тому ви можете бути впевнені, що якщоp-значення для властивості A більше, ніж для властивості B, то розмір ефекту для A менший ніж для майна Б.d=2t/npp

Я вважаю, що це відповідає на ваше запитання.

Кілька додаткових пунктів:

  1. Це справедливо лише з огляду на те, що розмір вибірки є фіксованим. Якщо ви отримаєте p = 0,008 для властивості A в одному експерименті з одним розміром вибірки, а p = 0,002 для властивості B в іншому експерименті з іншим розміром вибірки, складніше їх порівняти.np=0.008p=0.002

    • Якщо питання конкретно полягає в тому, чи краще A чи B «дискримінуються» у сукупності (тобто: наскільки добре можна передбачити стать, переглядаючи значення A або B?), То вам слід дивитися на розмір ефекту. У простих випадках знання і n достатньо для обчислення розміру ефекту.pn

    • Якщо питання більш розпливчасте: який експеримент надає більше "доказів" проти нуля? (це може бути значущим, якщо, наприклад, A = B) - тоді питання стає складним і суперечливим, але я б сказав, що -значення за визначенням є скалярним підсумком доказів проти нуля, тому нижча р -значення , чим сильніше докази, навіть якщо розміри вибірки різні.pp

  2. Сказати, що розмір ефекту для B більший, ніж для A, не означає, що він значно більший. Вам потрібно зробити деяке пряме порівняння між A і B, щоб зробити таке твердження.

  3. Завжди корисно повідомити (та інтерпретувати) розміри ефекту та довірчі інтервали на додаток до значень.p


3
Хороші бали щодо монотонності та хороші остаточні 3 бали. Тепер, re: вислів "ви можете бути впевнені": досить правдивий для вибірки, але "значно так"? (Тобто, з достовірними наслідками для населення?) Ви коротко вирішили це питання у №2. Повніше лікування цього буде вітатися. Ура ~ ~
rolando2

4
Це правильно, але я також намагався дати зрозуміти, що в цьому випадку це обов'язково правильно (ви також це зазначаєте). Я думаю, що Мішель робила вагомий момент, що загалом не слід вживати значення p.
gung - Відновіть Моніку

1
(-1) Основна частина цієї публікації є правильною, але вступне речення ("Багато людей стверджують, що ... немає сенсу порівнювати два між собою. Це неправильно") занадто легко неправильно трактується як загальна порада, адже насправді це має місце лише в особливих випадках, таких, як тут. p
Ендрю М

1
@AndrewM Можливо Я відредагував початок своєї відповіді. Подивіться, чи вам це більше подобається зараз.
амеба каже, що повернеться до Моніки

0

Дякую тому, хто щойно прихильнив мене, тому що зараз я маю зовсім іншу відповідь на це запитання. Відповідно, я видалив свою оригінальну відповідь, оскільки з цієї точки зору вона неправильна.

У контексті цього питання, яке стосується лише питання "був А чи Б кращим дискримінатором у моєму дослідженні", ми маємо справу з переписом, а не вибіркою. Таким чином, використання інфекційних статистичних даних, таких як ті, які використовуються для отримання p-значень, не має значення. Пільгова статистика використовується для підрахунку оцінок населення з тих, які ми отримуємо з нашої вибірки. Якщо ми не хочемо узагальнювати популяцію, то ці методи зайві. (Існують деякі конкретні проблеми навколо пропущених значень перепису, але вони не мають значення в цій ситуації.)

Немає ймовірності отримати результат у популяції. Ми отримали результат, який ми отримали. Тому ймовірність наших результатів становить 100%. Не потрібно будувати довірчий інтервал - бальна оцінка для вибірки є точною. Нам просто не потрібно нічого оцінювати.

У конкретному випадку "яка змінна краще працювала з даними, які я маю", все, що потрібно зробити, - це подивитися на результати у простому резюме. Таблиця може бути достатньою, може бути графіком, як графічний графік.


-1

Ви отримуєте різницю в p, але незрозуміло, що означає ця різниця (велика вона, мала, значна?)

Можливо, використовуйте завантажувальний інструмент:

виберіть зі своїх даних (із заміною), повторіть тести, обчисліть різницю p (p_a - p_b), повторіть 100-200 разів

перевірте, яка частка вашої дельти p становить <0 (тобто р A є нижче p від B)

Примітка: я бачив це зроблено, але не є експертом.


1
Ця відповідь описує один із способів порівняння p-значень, але, мабуть, вихідне запитання залишається без відповіді: чи має процедура має сенс і як інтерпретувати результати?
whuber

-1

Додав відповідь, оскільки це було занадто довго для коментаря!

Мішель має добру відповідь, але багато коментарів показують деякі загальні дискусії, які виникають щодо p-значень. Основні ідеї:

1) Менше значення p не означає, що результат є більш-менш значущим. Це просто означає, що шанси отримати результат хоча б як екстремальний менш ймовірні. Значущість - це двійковий результат, заснований на обраному вами рівні значущості (який ви обираєте перед запуском тесту).

2) Розмір ефекту (часто стандартизований на # зі стандартними відхиленнями) - хороший спосіб оцінити два "чисті" два числа. Отже, якщо кількість A має розмір ефекту в розмірі .8 стандартних відхилень, а кількість B має розмір ефекту .5 стандартних відхилень, ви б сказали, що між цими двома групами у величині A існує більша різниця, ніж у кількості B. Стандартними вимірюваннями є :

.2 стандартні відхилення = "малий" ефект

.5 стандартних відхилень = "середній" ефект

.8 стандартні відхилення = "великий" ефект


1
Але з огляду на фіксований розмір вибірки, р-значення безпосередньо монотонно пов'язане з розміром ефекту!
Амеба каже: Відновити Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.