У кілька більш загальному контексті з - мірний вектор -observations (відповідей, або залежні змінні),YnyXn×p матрицяx-спостереження (коваріати або залежні змінні) та θ=(β1,β2,σ) параметри такі, що Y∼N(Xβ1,Σ(β2,σ)) то ймовірність мінус-журналу є
l(β1,β2,σ)=12(Y−Xβ1)TΣ(β2,σ)−1(Y−Xβ1)+12log|Σ(β2,σ)|
У питанні ОП:
Σ(β2,σ) діагональна з
Σ(β2,σ)ii=σ2g(zTiβ2)2
тому визначальним стає
σ2n∏ni=1g(zTiβ2)2 і результуючий мінус-log-вірогідність стає
12σ2∑i=1n(yi−xTiβ1)2g(zTiβ2)2+nlogσ+∑i=1nlogg(zTiβ2)
Існує кілька способів наблизитись до мінімізації цієї функції (якщо припустимо, що три параметри не залежать від варіантів).
- Можна спробувати звести до мінімуму функцію за допомогою стандартного алгоритму оптимізації, запам'ятовуючи це обмеження σ>0.
- Ви можете обчислити профіль мінус-імовірність імовірності (β1,β2) шляхом мінімізації над σ для фіксованих (β1,β2), а потім підключіть отриману функцію до стандартного алгоритму необмеженої оптимізації.
- Ви можете чергувати оптимізацію для кожного з трьох параметрів окремо. Оптимізація понадσ можна зробити аналітично, оптимізуючи β1 - проблема зваженого найменшого зваженого квадрату та її оптимізація β2 еквівалентно встановленню лінійної моделі, узагальненої гаммою g2 зворотна ланка.
Остання пропозиція мені подобається, оскільки вона ґрунтується на рішеннях, які я вже добре знаю. Крім того, перша ітерація - це те, що я все-таки вважаю за потрібне. Тобто спочатку обчисліть початкову оцінкуβ1 звичайними найменшими квадратами, ігноруючи потенційну гетерокедастичність, а потім прилаштувати гамма-glm до залишків у квадраті, щоб отримати початкову оцінку β2 −просто перевірити, чи здається, що більш складна модель коштує. Ітерації, що включають гетерокедастичність у рішення з найменшими квадратами, оскільки ваги можуть покращитись після оцінки.
Що стосується другої частини питання, я, мабуть, розглянути можливість обчислення довірчого інтервалу для лінійної комбінації wT1β1+wT2β2 або за допомогою стандартної асимптотики MLE (перевірка за допомогою симуляцій, що працює асимптотика), або шляхом завантаження.
Змінити: Під стандартною асимптотикою MLE я маю на увазі використання багатоваріантного нормального наближення до розподілу MLE з коваріаційною матрицею зворотної інформації Фішера. Інформація Фішера - це визначення матриці коваріації градієнтаl. Це взагалі залежить від параметрів. Якщо ви можете знайти аналітичний вираз для цієї кількості, ви можете спробувати підключити MLE. В якості альтернативи, ви можете оцінити інформацію про Фішера за спостереженою інформацією Фішера, яка є гессіанськоюlв MLE. Ваш цікавий параметр - це лінійна комбінація параметрів у двохβ-вектори, отже з наближеної багатоваріантної норми MLE можна знайти нормальне наближення розподілу оцінок, як описано тут . Це дає приблизну стандартну помилку, і ви можете обчислити довірчі інтервали. Це добре описано у багатьох (математичних) книгах зі статистикою, але досить доступною презентацією я можу порекомендувати " По всій вірогідності " Юді Павітана. У будь-якому разі формальне виведення асимптотичної теорії є досить складним і покладається на ряд умов регулярності, і це дає лише дійсні асимптотичнідистрибуції. Отже, якщо ви сумніваєтесь, я б завжди робив якісь симуляції з новою моделлю, щоб перевірити, чи можу я довіряти результатам за реалістичними параметрами та розмірами вибірки. Проста, непараметрична завантажувальна програма, де ви пробите трійки(yi,xi,zi) зі спостережуваного набору даних із заміною може бути корисною альтернативою, якщо процедура встановлення не занадто трудомістка.