Я думаю, що важлива частина, яку слід врахувати, відповідаючи на ваше запитання, - це
Я намагаюся визначити найкращу модель для прогнозування цін на автомобілі
тому що це твердження передбачає щось про те, чому ви хочете використовувати модель. Вибір моделі та оцінка повинні ґрунтуватися на тому, що ви хочете досягти за допомогою встановлених цінностей.
По-перше, давайте резюмувати те, що робить R2 : він обчислює масштабну міру, засновану на функції квадратичної втрати, про яку я впевнений, ви вже знаєте. Щоб переконатися в цьому, визначити залишкові для г-го спостереження у я і відповідне вбудовано значення у я . Використовуючи зручне позначення S S R : = ∑ N i = 1 e 2 i , S S T : = ∑ei=yi−y^iyiy^iSSR:=∑Ni=1e2i,R2є просто визначена якR2=1-SSR/SST.SST:=∑Ni=1(yi−y¯)2R2R2=1−SSR/SST
По-друге, давайте подивимося, що використовує для вибору / оцінки моделіR2 . Припустимо, ми вибираємо з набору прогнозів які були сформовані за допомогою моделі M : M ∈ M , де M - це сукупність розглянутих моделей (у вашому прикладі ця колекція міститиме нейронні мережі, випадкові ліси, еластичні сітки, ...). Так як S S T буде залишатися постійної серед всіх моделей, якщо звести до мінімуму R 2 ви будете вибирати саме ту модель , яка зводить до мінімуму S S R . Іншими словами, ви оберетеY¯MM:M∈MMSSTR2SSR що створює мінімальну втрату квадратних помилок!M∈M
По-третє, давайте розглянемо, чому R2 або еквівалентно може бути цікавим для вибору моделі . Традиційно квадратні втрати ( норма L 2 ) застосовуються з трьох причин: (1) Він легше обчислюється, ніж найменші абсолютні відхилення (LAD, норма L 1 ), оскільки в обчисленні не з’являється абсолютного значення, (2) він карає пристосованими величини, далекі від фактичної величини набагато більше ніж LAD (у квадраті, а не в абсолютному значенні) і тим самим гарантує, що у нас є менш екстремальні люди, (3) це симетрично : Завищена або занижена ціна автомобіля - це вважається однаково поганим.SSR L2L1
По-четверте (і остання), давайте подивимося, чи це те, що вам потрібно для ваших прогнозів. Тут може бути найбільший інтерес (3) з останнього абзацу. Припустимо, ви хочете зайняти нейтральну позицію, і ви не є ні покупцем, ні продавцем автомобіля. Тоді може мати сенс: Ви безсторонні і хочете покарати відхилення за завищення або заниження цілком однаково. Це ж стосується, якщо ви просто хочете моделювати співвідношення між величинами, не бажаючи передбачати незабезпечені значення. Тепер припустимо, що ви працюєте для споживача / покупця з обмеженим бюджетом: У цій ситуації ви можете покарати завищення ціни в квадратичному сенсі, але заниження в сенсі L p , де 1 ⩽ pR2Lp . За p = 1 ви б покарали в абсолютному відхиленні. Це можна зрозуміти, що відображає цілі та наміри покупця, і зміщення оцінки вниз може зацікавити його / її. І навпаки, ви могли б перевернути мислення, якби моделювати прогнози цін продавця. Зайве говорити, що будь-яку норму L p можна було обрати для відображення уподобань модельєра / агента, для якого ви моделюєте. Ви також можете повністю покарати за межінорми L p , а також використовувати постійні, експоненціальні або втрати журналу з одного боку та інші втрати з іншого.1⩽p<2p=1LpLp
Підсумовуючи, вибір / оцінку моделі не можна розглядати незалежно від мети моделі.