Філософське запитання про логістичну регресію: чому не навчається оптимальне порогове значення?


13

Зазвичай при логістичній регресії ми підходимо до моделі і отримуємо деякі прогнози на навчальному наборі. Тоді ми перехресно підтверджуємо ці прогнози тренувань (щось подібне тут ) і визначаємо оптимальне порогове значення на основі чогось кривої ROC.

Чому ми не включимо перехресну валідацію порогу в реальну модель і не навчимо все це в кінці?

Відповіді:


19

Поріг не навчається з моделлю, оскільки логістична регресія не є класифікатором (пор., Чому логістична регресія не називається логістичною класифікацією? ). Це модель для оцінки параметра, , який регулює поведінку розподілу Бернуллі. Тобто ви припускаєте, що розподіл відповіді, що залежить від коваріатів, є Бернуллі, і тому ви хочете оцінити, як змінюється параметр, який керує цією змінною, як функція коваріатів. Це лише модель прямої ймовірності . Звичайно, він може бути використаний як класифікатор згодом, а іноді є у певних контекстах, але це все ж імовірнісна модель. p


1
Гаразд, я розумію, що частина теорії (дякую за це красномовне пояснення!), Але чому ми не можемо включити класифікаційний аспект у модель? Тобто, чому ми не можемо знайти p, потім знайти поріг і навчити все це в кінці, щоб мінімізувати певні втрати?
StatsSorceress

4
Ви , звичайно , могли б (@ Sycorax в відповідь каже , що можливості). Але тому, що це не сама LR, а скоріше певна спеціальна розширення, вам доведеться самостійно кодувати повну схему оптимізації. Зауважимо, BTW, що Френк Харрелл зазначив, що процес призведе до того, що можна вважати неповноцінною моделлю за багатьма стандартами.
gung - Відновити Моніку

1
Хм. Я читаю прийняту відповідь у відповідному питанні тут , і з цим я погоджуюсь теоретично, але іноді в додатках класифікації машинного навчання нас не хвилюють відносні типи помилок, нас просто цікавить «правильна класифікація». У такому випадку, чи могли б ви тренуватися від кінця до кінця, як я описую?
StatsSorceress

4
Як я вже говорив, ви дуже можете налаштувати власну оптимізацію, яка буде тренувати модель та обирати поріг одночасно. Ви просто повинні зробити це самостійно; остаточна модель, швидше за все, буде біднішою за більшістю стандартів.
gung - Відновити Моніку

1
@StatsSorceress "... іноді в класифікації машинного навчання ...". Іноді слід робити великий акцент . Важко уявити проект, де точність - правильна відповідь. На мій досвід, це завжди передбачає точність та згадку про клас меншості.
Уейн

15

Це тому, що оптимальний поріг - це не тільки функція справжньої позитивної швидкості (TPR), помилкової позитивної швидкості (FPR), точності чи будь-чого іншого. Іншим важливим інгредієнтом є вартість та окупність правильних та неправильних рішень .

Якщо ваша мета - це звичайна застуда, ваша відповідь на позитивний тест полягає у призначенні двох аспірину, а вартість справжнього нелікованого позитиву - непотрібна головна біль у два дні, то ваш оптимальний поріг (не класифікація!) Поріг цілком інакше, ніж якщо ваша мета - якесь небезпечне для життя захворювання, і ваше рішення - це (а) порівняно проста процедура, як апендектомія, або (б) серйозне втручання, як місячні хіміотерапії! І зауважте, що хоча ваша цільова змінна може бути двійковою (хворий / здоровий), у ваших рішеннях може бути більше значень (відправити додому з двома аспірином / провести більше аналізів / приймати в лікарню і негайно спостерігати / оперувати).

Підсумок: якщо ви знаєте структуру витрат та всі різні рішення, ви, звичайно, можете навчити систему підтримки прийняття рішень (DSS) безпосередньо, яка включає ймовірнісну класифікацію чи прогнозування. Однак я настійно заперечую, що дискреційні прогнози чи класифікації через поріги - це не правильний шлях для цього.

Дивіться також мою відповідь на попередню тему "Поріг ймовірності класифікації" . Або ця моя відповідь . Або того .


4

Крім філософських проблем, це може спричинити обчислювальні труднощі.

Причиною цього є те, що функції з постійним виходом оптимізувати відносно просто. Ви шукаєте напрямок, де функція збільшується, а потім підете цим шляхом. Якщо ми змінимо нашу функцію втрат, щоб включити крок "відсічення", наш вихід стає дискретним, і наша функція втрати також є дискретна. Тепер, коли ми змінюємо параметри нашої логістичної функції "трохи" і спільно змінюємо значення відсікання на "трохи", наші втрати дають однакове значення, і оптимізація стає важкою. Звичайно, це не неможливо (існує ціла область вивчення дискретної оптимізації ), але безперервна оптимізація вже далекопростіше вирішити проблему, коли ви оптимізуєте багато параметрів. Зручно, що після того, як логістична модель була придатною, пошук оптимального обрізання, хоча все ще дискретна проблема виводу, тепер знаходиться лише в одній змінній, і ми можемо просто зробити пошук в сітці або якийсь такий, що є цілком життєздатним в одній змінній.


3

Незалежно від основної моделі, ми можемо розробити вибіркові розподіли TPR та FPR з порогом. Це означає, що ми можемо охарактеризувати мінливість у TPR та FPR на деякому порозі, і ми можемо повернутися до бажаного коефіцієнта помилок.

Крива ROC є дещо оманливою, оскільки єдине, чим ви керуєте, - це поріг, однак на графіку відображаються TPR та FPR, які є функціями порогу. Більше того, TPR і FPR - це обидві статистичні дані , тому вони підлягають капризам випадкової вибірки. Це означає, що якщо ви повторили процедуру (скажімо, перехресне підтвердження), ви могли б створити різні FPR та TPR за певним пороговим значенням.

Однак, якщо ми можемо оцінити мінливість у TPR та FPR, повторювати процедуру ROC не потрібно. Ми просто підбираємо поріг таким, щоб кінцеві точки довірчого інтервалу (з деякою шириною) були прийнятними. Тобто виберіть модель таким чином, щоб FPR був правдоподібним нижче деякого визначеного дослідником максимуму, та / або TPR правдоподібно перевищує визначений дослідником мінімум. Якщо ваша модель не може досягти своїх цілей, вам доведеться побудувати кращу модель.

Звичайно, те, які значення TPR і FPR допустимі у вашому використанні, буде залежати від контексту.

Для отримання додаткової інформації див. Криві ROC для постійних даних Wojtek J. Krzanowski та David J. Hand.


Це не відповідає на моє запитання, але це дуже приємний опис кривих ROC.
StatsSorceress

Яким чином це не відповідає на ваше запитання? Яке ваше запитання, якщо не запитувати про те, як вибрати поріг для класифікації?
Sycorax повідомляє, що

2
Я не знаю жодної статистичної процедури, яка б працювала таким чином. Чому це квадратне колесо хороша ідея? Яку проблему вона вирішує?
Sycorax каже, що

1
"Як вибрати поріг таким чином, щоб скоротити час тренувань?" здається, зовсім інше питання, ніж питання у вашій оригінальній публікації.
Sycorax повідомляє, що

1
Незважаючи на те, я не бачу, як це економить час. Створення кривої ROC не є найдорожчою частиною оцінки моделі, тому перехід порогу вибору на крок оптимізації здається спеціальним та непотрібним.
Sycorax повідомляє про відновлення Моніки

-2

Зазвичай у біомедичних дослідженнях ми не використовуємо навчальний набір --- ми просто застосовуємо логістичну регресію до повного набору даних, щоб побачити, які прогнози є важливими факторами ризику для результату, який ми дивимося; або дивитись на одного прогнозованого інтересу, контролюючи вплив інших можливих прогнозів на результат.
Я не впевнений, що ви маєте на увазі під пороговими значеннями, але є різні параметри, які можна прагнути оптимізувати: AUC, значення обрізання для дихотомізації безперервної змінної предиктора, позитивні та негативні прогнозні значення, довірчі інтервали та p-значення, хибнопозитивні та помилкові негативні ставки. Логістична регресія розглядає сукупність суб'єктів і оцінює силу та причинний напрямок факторів ризику, що сприяють результатам інтересу до цієї групи. Можна також "запустити це в зворотному порядку", так би мовити, і визначити ризик індивіда щодо результату, враховуючи фактори ризику, які має індивід. Логістична регресія призначає кожному окремому ризику результат, виходячи з їхніх окремих факторів ризику, а за замовчуванням це 0,5. Якщо предмет " s ймовірність досягнення результату (виходячи з усіх даних і предметів у вашій моделі) становить 0,5 або вище, це передбачає, що він матиме результат; якщо нижче 0,5, то це передбачає, що він цього не зробить. Але ви можете відрегулювати цей рівень відсікання, наприклад, позначити більше людей, які можуть загрожувати результатом, хоча ціною, якщо передбачити більше помилкових позитивних результатів. Ви можете відрегулювати цей рівень відсікання, щоб оптимізувати рішення щодо скринінгу, щоб передбачити, яким особам рекомендується пройти подальше медичне спостереження; і побудувати ваше позитивне прогнозне значення, негативне прогнозне значення та помилково негативні та хибнопозитивні показники для скринінгового тесту на основі моделі логістичної регресії. Ви можете розробити модель на половині вашого набору даних і протестувати її на іншій половині, але ви не ' t дійсно потрібно (і це скоротить ваші дані про тренування навпіл і, таким чином, зменшить можливість знайти значущі прогнози в моделі). Так що так, ви можете «тренувати всю справу до кінця». Звичайно, в біомедичних дослідженнях ви хочете перевірити його на іншій сукупності, інший набір даних, перш ніж сказати, що ваші результати можуть бути узагальнені для широкої сукупності. Інший підхід полягає у використанні підходу типу завантажувального типу, коли ви запускаєте свою модель на підпроборі досліджуваної сукупності, а потім замінюєте ці предмети в пул і повторюйте з іншим зразком багато разів (як правило, 1000 разів). Якщо ви отримаєте значні результати у встановлену більшість часу (наприклад, 95% часу), то вашу модель можна вважати валідованою --- принаймні за власними даними. Але знову ж таки, чим менша кількість дослідницької групи, на якій ви запускаєте свою модель, тим менш ймовірним буде те, що деякі прогноктори стануть статистично значущими факторами ризику для результату. Особливо це стосується біомедичних досліджень з обмеженою кількістю учасників.
Використання половини ваших даних для "навчання" своєї моделі, а потім "перевірки" на іншій половині - зайвий тягар. Ви цього не робите для t-тестів або лінійної регресії, так навіщо це робити в логістичній регресії? Найбільше це зробить - ви скажете «так, це працює», але якщо ви використовуєте повний набір даних, то все одно це визначите. Розбиття ваших даних на менші набори даних ризикує не виявити значущих факторів ризику в досліджуваній сукупності (АБО валідаційну сукупність), коли вони є насправді, через малий розмір вибірки, що має занадто багато прогнозів для розміру дослідження та можливості що ваш 'зразок валідації' не виявить асоціацій лише випадково. Логіка, що стоїть на підході "поїзд, а потім перевірити", виглядає так: якщо фактори ризику, які ви визначите як значущі, недостатньо сильні, тоді вони не будуть статистично значущими при моделюванні на випадково вибраній половині ваших даних. Але цей випадково обраний зразок може не виявляти жодної асоціації випадково або тому, що він занадто малий, щоб фактор (и) ризику був статистично значущим. Але саме величина факторів ризику та їх статистична значущість визначають їх важливість, і саме тому найкраще використовувати повний набір даних для створення вашої моделі. Статистична значимість стане менш значущою при менших розмірах вибірки, як це відбувається у більшості статистичних тестів. Логістична регресія - це мистецтво майже стільки, скільки статистична наука. Існують різні підходи до використання та різні параметри для оптимізації залежно від дизайну дослідження. не бути статистично значущим при моделюванні певної випадково вибраної половини даних. Але цей випадково обраний зразок може не виявляти жодної асоціації випадково або тому, що він занадто малий, щоб фактор (и) ризику був статистично значущим. Але саме величина факторів ризику та їх статистична значущість визначають їх важливість, і саме тому найкраще використовувати повний набір даних для створення вашої моделі. Статистична значимість стане менш значущою при менших розмірах вибірки, як це відбувається у більшості статистичних тестів. Логістична регресія - це мистецтво майже стільки, скільки статистична наука. Існують різні підходи до використання та різні параметри для оптимізації залежно від дизайну дослідження. не бути статистично значущим при моделюванні певної випадково вибраної половини даних. Але цей випадково обраний зразок може не виявляти жодної асоціації випадково або тому, що він занадто малий, щоб фактор (и) ризику був статистично значущим. Але саме величина факторів ризику та їх статистична значущість визначають їх важливість, і саме тому найкраще використовувати повний набір даних для створення вашої моделі. Статистична значимість стане менш значущою при менших розмірах вибірки, як це відбувається у більшості статистичних тестів. Логістична регресія - це мистецтво майже стільки, скільки статистична наука. Існують різні підходи до використання та різні параметри для оптимізації залежно від дизайну дослідження. Але цей випадково обраний зразок може не виявляти жодної асоціації випадково або тому, що він занадто малий, щоб фактор (и) ризику був статистично значущим. Але саме величина факторів ризику та їх статистична значущість визначають їх важливість, і саме тому найкраще використовувати повний набір даних для створення вашої моделі. Статистична значимість стане менш значущою при менших розмірах вибірки, як це відбувається у більшості статистичних тестів. Логістична регресія - це мистецтво майже стільки, скільки статистична наука. Існують різні підходи до використання та різні параметри для оптимізації залежно від дизайну дослідження. Але цей випадково обраний зразок може не виявляти жодної асоціації випадково або тому, що він занадто малий, щоб фактор (и) ризику був статистично значущим. Але саме величина факторів ризику та їх статистична значущість визначають їх важливість, і саме тому найкраще використовувати повний набір даних для створення вашої моделі. Статистична значимість стане менш значущою при менших розмірах вибірки, як це відбувається у більшості статистичних тестів. Логістична регресія - це мистецтво майже стільки, скільки статистична наука. Існують різні підходи до використання та різні параметри для оптимізації залежно від дизайну дослідження. s величина факторів ризику та їх статистична значущість, які визначають їх важливість, і саме тому найкраще використовувати повний набір даних для створення вашої моделі. Статистична значимість стане менш значущою при менших розмірах вибірки, як це відбувається у більшості статистичних тестів. Логістична регресія - це мистецтво майже стільки, скільки статистична наука. Існують різні підходи до використання та різні параметри для оптимізації залежно від дизайну дослідження. s величина факторів ризику та їх статистична значущість, які визначають їх важливість, і саме тому найкраще використовувати повний набір даних для створення вашої моделі. Статистична значимість стане менш значущою при менших розмірах вибірки, як це відбувається у більшості статистичних тестів. Логістична регресія - це мистецтво майже стільки, скільки статистична наука. Існують різні підходи до використання та різні параметри для оптимізації залежно від дизайну дослідження.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.