FPR (хибний позитивний показник) проти FDR (помилковий показник виявлення)

20

Наступна цитата походить з відомого дослідницького документу Статистичне значення для широких досліджень геному Storey & Tibshirani (2003):

Наприклад, хибнопозитивна ставка 5% означає, що в середньому 5% справді нульових ознак у дослідженні будуть називатися значущими. FDR (показник помилкового виявлення) 5% означає, що серед усіх функцій, які називаються значущими, 5% з них в середньому справді нульові.

Чи може хтось пояснити, що це означає, використовуючи простий числовий чи наочний приклад? Мені важко зрозуміти, що це означає. Я знаходив різні пости на FDR або FPR поодинці, але не знайшов жодного, де було б зроблено конкретне порівняння.

Було б особливо добре, якби хтось експерт у цій галузі міг проілюструвати ситуації, коли один кращий за інший, або обидва хороші чи погані.

— 李慕
джерело

3

Я помічаю, що ви нагородили @ mkt відповідь щедротою, Naseer. Якщо ця відповідь вирішила ваше питання для вас, ви можете також прийняти його, натиснувши прапорець ліворуч під індикатором щедрості.

— gung - Відновити Моніку

29

Я збираюся пояснити це кількома різними способами, тому що це допомогло мені зрозуміти це.

Візьмемо конкретний приклад. Ви робите тест на хворобу на групі людей. Тепер визначимося з деякими термінами. Я маю на увазі кожне з наступних дій:

Справжній позитивний (ТП) : Має захворювання, визначене як захворювання

Хибнопозитивний (FP) : не має захворювання, ідентифікованого як захворювання

Справжній негативний (TN) : не має захворювання, ідентифікованого як таке, що не має захворювання

Хибнонегативний (FN) : Має захворювання, визначене як таке, що не має захворювання

Візуально це, як правило, показано за допомогою матриці плутанини :

Помилкових спрацьовувань (FPR) є число людей, які не мають цього захворювання , але визначені як такі, що захворювання (всі Fps), поділене на загальне число людей, які не мають цього захворювання (включає в себе всі FPs і ТНС) .

Ж П R = \frac{Ж П}{Ж П + Т N}

$FPR = \frac{FP}{FP + TN}$

Показник помилкового виявлення (FDR) - це кількість людей, які не мають захворювання, але ідентифіковані як такі, що мають захворювання (усі ПП), поділене на загальну кількість людей, які ідентифіковані як такі, що мають захворювання (включає всі FP та TP ).

Ж D R = \frac{Ж П}{Ж П + Т П}

$FDR = \frac{FP}{FP + TP}$

Отже, різниця в знаменнику, тобто з чим ви порівнюєте кількість помилкових позитивних результатів?

FPR говорить вам частку всіх людей , які не мають захворювання , які будуть визначені як такі, що захворювання.

FDR говорить вам частину всіх людей , ідентифікованих як такі, що захворювання , які не мають це захворювання.

Тому обидва корисні, чіткі заходи відмови. Залежно від ситуації та пропорцій ТП, ФП, ТН і ФН, ви можете піклуватися про одне про інше.

Давайте тепер поставимо до цього кілька цифр. Ви відміряли 100 людей на хворобу, і ви отримали наступне:

Справжні позитиви (ТП) : 12

Помилкові позитиви (FP) : 4

Справжні негативи (ТН) : 76

Хибні негативи (FN) : 8

Щоб показати це за допомогою матриці плутанини:

Потім,

Ж П R = \frac{Ж П}{Ж П + Т N} = \frac{4}{4 + 76} = \frac{4}{80} = 0,05 = 5 %

$FPR = \frac{FP}{FP + TN} = \frac{4}{4 + 76} = \frac{4}{80} = 0.05 = 5\%$

Ж D R = \frac{Ж П}{Ж П + Т П} = \frac{4}{4 + 12} = \frac{4}{16} = 0,25 = 25 %

$FDR = \frac{FP}{FP + TP} = \frac{4}{4 + 12} = \frac{4}{16} = 0.25 = 25\%$

Іншими словами,

FPR повідомляє, що 5% людей, які не мали захворювання, були ідентифіковані як хворі. FDR повідомляє, що у 25% людей, яких було визначено як захворювання, насправді не було цього захворювання.

EDIT на основі коментаря @ amoeba (також цифри у прикладі вище):

$n$

[Побічна примітка: Вікіпедія вказує, що хоча FPR математично еквівалентний коефіцієнту помилок типу I, він вважається концептуально відмінним, оскільки один зазвичай встановлюється апріорі, а інший зазвичай використовується для вимірювання ефективності тесту після цього. Це важливо, але я не буду це обговорювати тут].

І для трохи більшої повноти:

Очевидно, що FPR і FDR - не єдині відповідні показники, які можна обчислити за допомогою чотирьох величин у матриці плутанини. З багатьох можливих показників, які можуть бути корисними в різних контекстах , два відносно поширених, з якими ви, швидше за все, зіткнетеся, є:

Справжній позитивний показник (TPR) , також відомий як чутливість , - це частка людей, які мають захворювання, ідентифікованих як захворювання.

Т П R = \frac{Т П}{Т П + Ж N}

$TPR = \frac{TP}{TP + FN}$

Справжній негативний показник (ТНР) , також відомий як специфічність , - це частка людей, які не мають захворювання, ідентифікованих як такі, що не мають захворювання.

Т N R = \frac{Т N}{Т N + Ж П}

$TNR = \frac{TN}{TN + FP}$

— mkt - Відновлення Моніки
джерело

3

+1. Можливо, має сенс відрегулювати числовий приклад таким чином, щоб FPR = 5%, тому що це ви матимете, якщо в якості критерію будете використовувати p <0,05 (якщо припустимо, що тест має правильний розмір). Або 1%, якщо р <0,01, що завгодно. Вказуючи, що це з'єднання може бути корисним для деяких читачів.

— Амеба каже: Відновити Моніку

1

@amoeba Дякую, це гарна ідея. Я спробую це зробити пізніше.

— mkt - Відновити Моніку

2

Ви повинні вивчити таблицю на https://en.wikipedia.org/wiki/Confusion_matrix . Зверніть увагу, що FPR розташований вертикально, тоді як FDR горизонтально.

ПП трапляється, якщо ваша нульова гіпотеза правдива, але ви її відкидаєте
FD трапляється, якщо ви прогнозуєте щось важливе, але не повинні

— Маленькі шахи
джерело

Я це знаю, але мене конкретно цікавить порівняння, як, наприклад, якщо ви могли б допомогти пояснити цю концепцію деякими цифрами та візуалізацією для підтримки ваших цифр, що було б дуже цікаво.

— 李慕