Чи можливо перевиконати модель логістичної регресії? Я побачив відео, яке говорить про те, що якщо моя площа під кривою ROC вище 95%, то, швидше за все, це буде надмірно встановленим, але чи можна переоцінити логістичну регресійну модель?
Чи можливо перевиконати модель логістичної регресії? Я побачив відео, яке говорить про те, що якщо моя площа під кривою ROC вище 95%, то, швидше за все, це буде надмірно встановленим, але чи можна переоцінити логістичну регресійну модель?
Відповіді:
Так, ви можете наближати логістичні регресійні моделі. Але спершу я хотів би звернутися до питання про AUC (Площа під характеристикою кривої, що працює на приймачі): Універсальних правил з AUC не існує ніколи і ніколи.
Що таке AUC - це ймовірність того, що випадковий вибірковий позитив (або випадок) матиме більше маркерне значення, ніж від'ємний (або контроль), оскільки AUC математично еквівалентний U-статистиці.
Що AUC не є стандартизованим показником точності прогнозування. Високодетерміновані події можуть мати одиночні показники AUC 95% або вище (наприклад, у контрольованій мехатроніці, робототехніці або оптиці), деякі складні багатопромінні моделі логістичного прогнозування ризику мають AUC на 64% або нижче, такі як прогнозування ризику раку молочної залози, і такі достовірно високий рівень точності прогнозування.
Розумне значення AUC, як і при аналізі потужності, є вказаним шляхом збору знань про передісторію і цілі дослідницької апріорно . Лікар / інженер описує, чого вони хочуть, а ви, статистик, вирішуєте цільове значення AUC для вашої прогнозної моделі. Потім починається розслідування.
Дійсно можна доповнити логістичну регресійну модель. Окрім лінійної залежності (якщо матриця моделі має дефіцитний ранг), ви також можете мати ідеальне узгодження, або це графік встановлених значень проти Y, відмінно розрізнює випадки та елементи управління. У цьому випадку ваші параметри не сходилися , а просто проживає де - то на кордоні простору , що дає можливість . Однак іноді AUC дорівнює 1 випадково.
Існує ще один тип зміщення, який виникає внаслідок додавання занадто багато прогнозів до моделі, і це невеликі вибіркові зміщення. Взагалі, коефіцієнти шансів журналу логістичної регресійної моделі мають тенденцію до зміщеного коефіцієнта через нерозбірливість коефіцієнта шансів і нульового підрахунку комірок. У висновку це робиться за допомогою умовної логістичної регресії для контролю за змішуванням та точністю змінних в стратифікованих аналізах. Однак у передбаченні ти SooL. Там немає узагальнення передбачення , коли у вас є р » п тг ( 1 - П ) , ( π = Проби ( Y = 1 )), тому що ви гарантовано моделювали "дані", а не "тенденцію" на той момент. Високомірне (велике ) прогнозування бінарних результатів краще робити методами машинного навчання. Розуміння лінійного дискримінантного аналізу, часткових найменших квадратів, прогнозування найближчого сусіда, прискорення та випадкових лісів було б дуже хорошим місцем для початку.
Простими словами .... переоснащена модель логістичної регресії має велику дисперсію, означає, що кордони прийняття рішень значною мірою стосуються невеликих змін змінної величини. Розглянемо наступне зображення, найбільш правильним є логістична модель, її межа прийняття великої немає. підйомів і падінь, тоді як середня середня підходить, вона має помірну дисперсію і помірний ухил. лівий - недоопрацьований, він має велику зміщення, але дуже менший варіант. ще одна річ_ Перенастроєна модель регресії має занадто багато функцій, тоді як модель недостатньої кількості не має. особливостей.
Ви можете переобладнати будь-яким методом, навіть якщо ви підходите до всього населення (якщо кількість населення обмежена). Існує два загальних рішення проблеми: (1) пеніалізована максимальна оцінка ймовірності (регресія хребта, пружна сітка, ласо і т.д.) та (2) використання інформативних пріорів за байєсівською моделлю.
Чи є якась модель, залиште осторонь логістичну регресію, яку не можна переоцінювати?
Перевиконання виникає принципово, тому що ви підходите до вибірки, а не всієї сукупності. Артефакти вашого зразка можуть виглядати як особливості популяції, і вони не є, а значить, переборщими.
Це схоже на питання про зовнішню силу. Використовуючи лише зразок, ви намагаєтеся отримати модель, яка дає найкращі показники щодо реальної сукупності, яку ви не можете бачити.
Звичайно, деякі модельні форми або процедури, швидше за все, переважають, ніж інші, але жодна модель ніколи не по-справжньому не захищена від переозброєння, чи не так?
Навіть перевірка зразка, яка не є зразком, процедури регуляризації тощо може захищати лише від надмірного прилягання, але срібної кулі немає. Насправді, якби можна було оцінити впевненість у здійсненні реального передбачення у світі на основі пристосованої моделі, завжди слід припускати, що певна ступінь перевиконання дійсно сталася.
Наскільки це може відрізнятися, але навіть модель, затверджена на наборі даних про витримку, рідко дасть ефективність у дикому вигляді, що відповідає тому, що було отримано на наборі даних про витримку. А надмірний прилад - це великий причинний фактор.
Те, що ми робимо з Roc, щоб перевірити, чи не є пристосовані, - це розділити набір даних випадковим чином під час тренувань та валудації та порівняти AUC між цими групами. Якщо AUC на тренінгу "набагато" (також немає правила), то це може бути надмірним.