Чи відповідає значення R-квадрата для порівняння моделей?


17

Я намагаюся визначити найкращу модель для прогнозування цін на автомобілі, використовуючи ціни та можливості, доступні на сайтах рекламних оголошень для автомобілів.

Для цього я використав пару моделей з бібліотеки scikit-learn та моделей нейронної мережі з пібраїну та нейролаб. Я використовував поки що підхід - це запустити фіксовану кількість даних через деякі моделі (алгоритми машинного навчання) і порівняти там значення R2 які були розраховані за допомогою модуля метрики scikit-learn.

  1. Є чи R2 хороший спосіб порівняти продуктивність різних моделей?
  2. Хоча я цілком прийнятні результати для таких моделей, як еластична сітка і випадкових лісів я отримав дуже погані R2 значення для мережевих моделей нейронних, так R2 є підходящим методом для оцінки нейронних мереж (або нелінійних методів)?

2
Коротка відповідь - ні . Можливо, вам допоможе прочитати мою відповідь тут: Оцінка моделі та порівняння для вибору найкращої моделі , яка досить тісно пов'язана з вашим питанням. Кандидат рішення описано тут . Для більш загального розуміння, ви можете спробувати прочитати деякі теми на сайті, класифіковані під тегом вибору моделі .
gung - Відновіть Моніку

@gung Дякую! Чи можу я запитати, що було б відповідним показником придатності для регресії за допомогою нейронних мереж?
Манік

Відповіді:


18

Я думаю, що важлива частина, яку слід врахувати, відповідаючи на ваше запитання, - це

Я намагаюся визначити найкращу модель для прогнозування цін на автомобілі

тому що це твердження передбачає щось про те, чому ви хочете використовувати модель. Вибір моделі та оцінка повинні ґрунтуватися на тому, що ви хочете досягти за допомогою встановлених цінностей.

По-перше, давайте резюмувати те, що робить R2 : він обчислює масштабну міру, засновану на функції квадратичної втрати, про яку я впевнений, ви вже знаєте. Щоб переконатися в цьому, визначити залишкові для г-го спостереження у я і відповідне вбудовано значення у я . Використовуючи зручне позначення S S R : = N i = 1 e 2 i , S S T : = ei=yiy^iyiy^iSSR:=i=1Nei2,R2є просто визначена якR2=1-SSR/SST.SST:=i=1N(yiy¯)2R2R2=1SSR/SST

По-друге, давайте подивимося, що використовує для вибору / оцінки моделіR2 . Припустимо, ми вибираємо з набору прогнозів які були сформовані за допомогою моделі M : M M , де M - це сукупність розглянутих моделей (у вашому прикладі ця колекція міститиме нейронні мережі, випадкові ліси, еластичні сітки, ...). Так як S S T буде залишатися постійної серед всіх моделей, якщо звести до мінімуму R 2 ви будете вибирати саме ту модель , яка зводить до мінімуму S S R . Іншими словами, ви оберетеY¯MM:MMMSSTR2SSR що створює мінімальну втрату квадратних помилок!MM

По-третє, давайте розглянемо, чому R2 або еквівалентно може бути цікавим для вибору моделі . Традиційно квадратні втрати ( норма L 2 ) застосовуються з трьох причин: (1) Він легше обчислюється, ніж найменші абсолютні відхилення (LAD, норма L 1 ), оскільки в обчисленні не з’являється абсолютного значення, (2) він карає пристосованими величини, далекі від фактичної величини набагато більше ніж LAD (у квадраті, а не в абсолютному значенні) і тим самим гарантує, що у нас є менш екстремальні люди, (3) це симетрично : Завищена або занижена ціна автомобіля - це вважається однаково поганим.SSR L2L1

По-четверте (і остання), давайте подивимося, чи це те, що вам потрібно для ваших прогнозів. Тут може бути найбільший інтерес (3) з останнього абзацу. Припустимо, ви хочете зайняти нейтральну позицію, і ви не є ні покупцем, ні продавцем автомобіля. Тоді може мати сенс: Ви безсторонні і хочете покарати відхилення за завищення або заниження цілком однаково. Це ж стосується, якщо ви просто хочете моделювати співвідношення між величинами, не бажаючи передбачати незабезпечені значення. Тепер припустимо, що ви працюєте для споживача / покупця з обмеженим бюджетом: У цій ситуації ви можете покарати завищення ціни в квадратичному сенсі, але заниження в сенсі L p , де 1 pR2Lp . За p = 1 ви б покарали в абсолютному відхиленні. Це можна зрозуміти, що відображає цілі та наміри покупця, і зміщення оцінки вниз може зацікавити його / її. І навпаки, ви могли б перевернути мислення, якби моделювати прогнози цін продавця. Зайве говорити, що будь-яку норму L p можна було обрати для відображення уподобань модельєра / агента, для якого ви моделюєте. Ви також можете повністю покарати за межінорми L p , а також використовувати постійні, експоненціальні або втрати журналу з одного боку та інші втрати з іншого.1p<2p=1LpLp

Підсумовуючи, вибір / оцінку моделі не можна розглядати незалежно від мети моделі.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.