З огляду на дві лінійні регресійні моделі, яка модель буде краще?


14

Я взяв курс машинного навчання в коледжі. В одній із цитат було задано це питання.

Модель 1:

y=θx+ϵ
Модель 2:
y=θx+θ2x+ϵ

Яка з перерахованих моделей краще відповідатиме даним? (припустимо, дані можна моделювати за допомогою лінійної регресії)

Правильна відповідь (за словами професора) полягає в тому, що обидві моделі працювали б однаково добре. Однак я вважаю, що перша модель буде краще підходити.

Це причина моєї відповіді. Друга модель, яку можна переписати як αx+ϵ , α=θ+θ2 , не була б такою ж, як перша модель. α насправді є параболою, а значить, має мінімальне значення ( 0.25 в цьому випадку). Тепер через це діапазон θ у першій моделі більший, ніж діапазон α у другій моделі. Отже, якби дані були такими, що найкраще прилягання було нахилом менше 0.25 , друга модель буде працювати дуже погано порівняно з першою. Однак у випадку, якщо нахил найкращого прилягання був більшим за , обидві моделі виконали б однаково добре.0.25

Тож перший краще, чи обидва точно однакові?


3
Я думаю, ти прав. Вимагання того, щоб параметр був виражальним як θ + θ 2 (для деяких θ ), дійсно накладає обмеження на те , що можливі α . Це означає, що друга модель може виражати менші стосунки, ніж перша, оскільки вона по суті зараз є проблемою з обмеженою оптимізацією. Ваші міркування здаються мені твердими. αθ+θ2θα
Меттью Друрі

@MatthewDrury Я просто зрозумів, куди я пішов не так, подивіться на відповідь нижче (і коментар)
kush

3
Я бачу ваш коментар, але це досить серйозна гімнастика, щоб припустити, що прийме складні значення. Я б неодмінно відвідував деякі робочі години, щоб поспілкуватися з вашим професором. У будь-якому випадку ви отримаєте хорошу дискусію. θ
Меттью Друрі

1
Мені незрозуміло, звідки береться -0,25. Ви можете уточнити?
Mad Jack

1
Мені було б цікаво, як ваш професор підходив би до кожної моделі до двоточкового набору даних . Для Моделі 1 і θ = - 1 придатність ідеальна, але як би оцінити θ в моделі 2, щоб отримати ідеальну форму? {(1,1),(2,2)}θ=1θ
whuber

Відповіді:


9

Модель 2 можна записати так: Це схоже на модель 1, лише з різними позначеннями для гіперпараметрів ( θ , β ). Тим НЕ менше, для моделі 1 можна записати θ = ( Х

y=(θ+θ2)x+ϵ=βx+ϵ.
θ,β
θ^=(XX)1Xy.

Але так як в моделі 2 ми маємо , що то , як ви згадали , дійсно діапазон р повинен належати [ - 0,25 , + ] для & thetas R . Що призведе до різниці в цих двох моделях.

β=θ+θ2,
β^[0.25,+]θR

Таким чином , в моделі 2 ви стримуючи свою оцінку коефіцієнта в відміну від моделі 1. Для того, щоб зробити це більш ясним, слід зазначити , що в моделі виходить шляхом мінімізації квадратичної функції втрат θ = Arg хв θ R ( у - X θ )θ^ Однак в моделі 2 оцінка виходитьдопомогою & beta ; =Arg хв & beta ; - 0,25 (у-Х& beta)

θ^=argminθR  (yXθ)(yXθ)=(XX)1Xy.
що може призвести до іншого результату.
β^=argminβ0.25  (yXβ)(yXβ)

1
Це має сенс, мене просто вразило, що у у другій моделі немає обмежень ! У випадку, коли θ + θ 2 негативний, θ може мати складні значення. Однак це насправді не впливає на модель, правда? У мене немає репортажу, але велике спасибі! θθ+θ2θ
куш

@kush ласка , перевірте мій відредагований відповідь , який також адреси вашого занепокоєння
І

1

Не впевнений, що я розумію ваші міркування. Якщо ви приймаєте:

і y = θ x + ϵ

y=αx+ϵ
y=θx+ϵ

αθαθR2θα=θ+θ2


5
θ(,)α(0.25,)x
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.