Чи корисна моя модель на основі діагностичної метрики (


12

Я підходив до своєї моделі і намагаюся зрозуміти, чи корисна вона. Я розраховував рекомендовані показники для його оцінки ( R2 / AUC / точність / помилка передбачення / тощо), але не знаю, як їх інтерпретувати. Коротше кажучи, як я можу сказати, чи базується моя модель на основі метрики? Чи достатньо R2 0,6 (наприклад), щоб дозволити мені робити висновки або базувати наукові / ділові рішення?


Це питання є навмисно широким, щоб охопити найрізноманітніші ситуації, з якими часто стикаються члени; такі питання можуть бути закритими як копії цього. Внесення змін для розширення сфери застосування за межі згаданих тут показників вітається, а також додаткові відповіді - особливо ті, що пропонують уявлення про інші класи метрик.


1
R2=0.6

2
R2R2=0.03R2=0.05

Відповіді:


18

R2

R2R2

Чому це? Дозвольте проілюструвати на прикладі з власного досвіду (незначні деталі змінені).

R2

R2

R2

R2


Що призводить до цих великих відмінностей у очікуванні? Контекст. Цей розпливчастий термін охоплює велику область, тому дозвольте спробувати розділити його на деякі більш конкретні фактори (це, мабуть, неповно):

1. Що таке виплата / наслідок / застосування?

R2

R2птахів. До кількох десятиліть тому в США точність близько 85% вважалася високою. Сьогодні цінність досягнення найвищої точності - близько 99%? Заробітна плата, яка, очевидно, може становити від 60 000 до, можливо, 180 000 доларів на рік (виходячи з швидкого гуглінгу). Оскільки люди все ще обмежені у швидкості, з якою вони працюють, алгоритми машинного навчання, які можуть досягти подібної точності, але дозволяють сортування проходити швидше, можуть коштувати мільйони.

(Сподіваюся, вам сподобався приклад - альтернатива була гнітючою щодо дуже сумнівної алгоритмічної ідентифікації терористів).

2. Наскільки сильним є вплив немодельованих факторів у вашій системі?

R2

3. Наскільки точними та точними є ваші вимірювання?

R2

4. Складність моделі та узагальнення

R2R2

R2R2

ІМО, перевиконання напрочуд часто зустрічається у багатьох сферах. Як найкраще цього уникнути - це складна тема, і я рекомендую прочитати про процедури регуляризації та вибір моделі на цьому веб-сайті, якщо вас це цікавить.

5. Діапазон даних та екстраполяція

R2

Окрім цього, якщо ви пристосуєте модель до набору даних і вам потрібно передбачити значення поза межами діапазону X цього набору даних (тобто екстраполяту ), ви можете виявити, що його ефективність нижча, ніж ви очікували. Це тому, що відносини, які ви оцінили, цілком можуть змінитися за межами відповідного діапазону даних. На малюнку нижче, якщо ви проводили вимірювання лише в діапазоні, зазначеному зеленим полем, ви можете уявити, що пряма (червона) лінія добре описувала дані. Але якщо ви спробували передбачити значення за межами цього діапазону за допомогою цієї червоної лінії, ви були б абсолютно невірними.

введіть тут опис зображення

[Фігура є відредагованою версією цієї , знайденої за допомогою швидкого пошуку Google для "Кривої Монода".]

6. Метрики дають вам лише частину картини

Це насправді не є критикою метрик - вони резюме , а це означає, що вони також викидають інформацію за задумом. Але це означає, що будь-яка окрема метрика залишає поза інформацією, яка може мати вирішальне значення для її інтерпретації. Хороший аналіз враховує більше, ніж одну метрику.


Пропозиції, виправлення та інші відгуки вітаються. І інші відповіді теж, звичайно.


3
R2R2

@Lewian Дякую за відгук. Я думав, що це було розглянуто в пунктах 2 і 3, але я бачу, що це можна вдосконалити. Я подумаю над тим, як зробити це більш чітким.
mkt -

1
Так, я подумав, чи це вже висвітлено. Річ із 2 та 3 полягає в тому, що вони дають конкретні причини, чому це могло статися, проте це загальне питання.
Левіан

@ Левіан Погодився, я буду задумуватися над цим.
mkt -

2

Ця проблема виникає в моїй галузі гідрології при оцінці того, наскільки добре моделі прогнозують потік даних від кількості опадів та клімату. Деякі дослідники ( Chiew та McMahon, 1993 ) обстежили 93 гідрологів (63 відповіли), щоб з’ясувати, які діагностичні діаграми та корисність статистики відповідності вони використовували, які були найважливішими та як вони використовувались для класифікації якості модельного пристосування . Зараз результати датуються, але підхід все ще може представляти інтерес. Вони представили результати модельних наборів різних якостей і попросили гідрологів класифікувати їх на 4 категорії (1) цілком прийнятний результат; (2) прийнятний, але використаний із застереженням; (3) неприйнятне, використовуйте лише якщо немає іншої альтернативи; і (4) ніколи не використовуйте ні за яких умов.

Найважливішими діагностичними графіками були графіки хронометражу та діаграми розсіювання імітованих та записаних потоків із даних, що використовуються для калібрування. Коефіцієнт ефективності моделі Еш-Саткліффа (Е) був квадратним коефіцієнтом корисної статистики. Наприклад, результати вважалися прийнятними, якщо E => 0,8

У літературі є й інші приклади. При оцінці екосистемної моделі в Північному морі було використано наступну категоризацію: Е> 0,65 отримав відмінний результат, 0,5 - 0,65 дуже добре, 0,2 - 0,5 як хороший і <0,2 - поганий ( Allen et al., 2007 ).

Moriasi et al. (2015) надає таблиці прийнятних значень для метрик для різних типів моделей.

Я узагальнив цю інформацію та посилання в публікації в блозі .

Аллен, Дж., П. Сомерфілд та Ф. Гілберт (2007), кількісна оцінка невизначеності моделей екосистем, пов'язаних з високою роздільною здатністю, Дж. Мар. Сист., 64 (1–4), 3–14, дої: 10.1016 /j.jmarsys.2006.02.010.

Moriasi, D., Gitau, M. Pai, N. and Daggupati, P. (2015) Гідрологічні моделі якості води: операційні заходи та критерії оцінки ASABE (Американське товариство інженерів сільського господарства та біології) 58 (6): 1763-1785


0

Просто додати до чудових відповідей вище - на мій досвід, показники оцінки та діагностичні інструменти такі ж хороші та чесні, як і людина, яка їх використовує. Тобто, якщо ви розумієте математику, яка стоїть за ними, ви, швидше за все, можете штучно їх збільшити, щоб ваша модель виглядала краще, не збільшуючи її фактичну корисність.

R2=0.03R2=0.05

Я буду тримати цю відповідь коротким, оскільки вищезгадане виконує велику роботу, надаючи пояснення / посилання. Я просто хотів додати деяку точку зору на розділ на 6. Метрики дають вам лише фрагмент картини , відповівши mkt.

Сподіваюсь, це допомагає.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.