Чи опублікувала статистику неправильна відповідь?


28

Статистика.com опублікував проблему тижня: рівень шахрайства з житловим страхуванням становить 10% (один із десяти претензій є шахрайським). Консультант запропонував систему машинного навчання для розгляду претензій та класифікації їх як шахрайства чи без шахрайства. Система на 90% ефективніше виявляє шахрайські претензії, але лише 80% ефективна в правильній класифікації заяв про не шахрайство (помилково вона позначає кожну п’яту як "шахрайство"). Якщо система класифікує претензію як шахрайську, яка ймовірність, що вона справді є шахрайською?

https://www.statistics.com/news/231/192/Conditional-Probability/?showtemplate=true

Ми з однолітком самостійно придумали однакову відповідь, і це не відповідає опублікованому рішенню.

Наше рішення:

(.9 * .1) / ((. 9 * .1) + (. 2 * .9)) = 1/3

Їх рішення:

Це проблема за умовною ймовірністю. (Це також байєсівська проблема, але застосування формули в Правилі Байєса лише допомагає затьмарити те, що відбувається.) Розгляньте 100 претензій. 10 буде шахрайським, і система правильно позначить 9 з них як "шахрайство". 90 претензій буде нормальним, але система неправильно класифікує 72 (80%) як "шахрайство". Таким чином, загалом було позначено 81 заяву як шахрайські, але лише 9 з них, 11%, насправді є шахрайськими.

Хто мав рацію


4
Схоже , що вони виправили рішення на своєму веб - сайті , щоб бути у відповідності з тим, що ви розраховували
Нема

2
@nope, тихо виправив відповідь. підлий
Аксакал

Дрібниці: у поведінковому рішенні цю проблему часто називають «проблемою мамографії», оскільки її звичайна презентація стосується шансу того, що пацієнт може захворіти на рак, отримавши позитивну мамографію.
Кодіолог

"Гарна новина полягає в тому, що наша система класифікує 90% шахрайства як шахрайство. Погана новина полягає в тому, що 80% не шахрайства кваліфікуються як шахрайство". Зауважте, що 11%, які вони обчислюють, лише трохи перевищують базову ставку 10%. Модель машинного навчання, де рівень шахрайства у зафіксованих випадках лише на 10% перевищує базовий показник, є досить жахливим.
Накопичення

Відповіді:


41

Я вважаю, що ви та ваш колега вірні. Statistics.com має правильну думку, але робить просту помилку. З 90 претензій на "ОК" ми очікуємо, що 20% з них буде неправильно віднесено до шахрайства, а не до 80%. 20% з 90 - це 18, що призводить до 9 правильно ідентифікованих претензій та 18 неправильних тверджень із співвідношенням 1/3, саме те, що дає правило Байєса.


11

Ви праві. Рішення, яке розміщується на веб-сайті, ґрунтується на неправильному читанні проблеми в тому, що 80% недобросовісних вимог класифікуються як шахрайські замість 20%.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.