Модельні припущення щодо регресії найменших часткових квадратів (PLS)


13

Я намагаюся знайти інформацію щодо припущень регресії PLS (одиночний ). Мене особливо цікавить порівняння припущень щодо ПЛС щодо регресії OLS. y

Я читав / проглядав велику кількість літератури на тему PLS; документи Уолда (Сванте та Германа), Абді та багатьох інших, але не знайшли задовільного джерела.

Wold та ін. (2001) PLS-регресія: основний інструмент хіміометрії згадує припущення про PLS, але він лише згадує, що

  1. X не повинні бути незалежними,
  2. система є функцією декількох прихованих змінних змін,
  3. система повинна проявляти однорідність протягом усього аналітичного процесу;
  4. Похибка вимірювання в є прийнятною. X

Не згадується жодних вимог до спостережуваних даних чи залишків моделі. Хтось знає джерело, яке вирішує щось із цього? Зважаючи на те, що основна математика є аналогічною PCA (з метою максимізації коваріації між і ), є багатоваріантною нормальністю припущення? Чи повинні залишки моделі проявляти однорідність дисперсії?yX(y,X)

Я також вважаю, що десь читав, що спостереження не повинні бути незалежними; що це означає з точки зору повторних досліджень вимірювань?


Посилання на Wold. та ін. неправильно. Це той, який має бути? libpls.net/publication/PLS_basic_2001.pdf
emudrak

Клієнт отримав коментар рецензента до статті, в якому сказано, що в рядку "показано, що ви перевірили припущення про лінійність". Як би ти це зробив?
емудрак

Відповіді:


5

Коли ми говоримо, що стандартна регресія OLS має деякі припущення, ми маємо на увазі, що ці припущення необхідні для отримання деяких бажаних властивостей ОЦІВ, таких як, наприклад, що це найкращий лінійний неупереджений оцінювач - див. Теорему Гаусса-Маркова та відмінну відповідь Автор @mpiktas в Що являє собою повний перелік звичайних припущень для лінійної регресії? Ніяких припущень не потрібні для того , щоб просто регрес на . Припущення з'являються лише в контексті тверджень про оптимальність.XyX

Загалом, "припущення" - це те, що може мати лише теоретичний результат (теорема).

Аналогічно для регресії PLS. Завжди можна використовувати PLS регресії для регресу на . Отже, коли ви запитуєте, які припущення щодо регресії PLS, які твердження про оптимальність ви думаєте? Насправді я не знаю жодного. Регресія PLS є однією з форм регуляризації усадки, дивіться мою відповідь у Теорії за частковою регресією найменших квадратів для деякого контексту та огляду. Регульовані оцінки оцінюються необ'єктивно, тому жодна кількість припущень, наприклад, не підтвердить об'єктивності.XyX

Більше того, фактичний результат регресії PLS залежить від того, скільки компонентів PLS включено в модель, яка виконує роль параметра регуляризації. Говорити про будь-які припущення має сенс лише в тому випадку, якщо процедура вибору цього параметра повністю вказана (а зазвичай це не так). Тому я не думаю, що взагалі відсутні результати оптимальності для PLS, а це означає, що регресія PLS не має припущень. Думаю, те саме стосується будь-яких інших методів регресії з санкціями, таких як регресія основних компонентів або регресія хребта.

Оновлення: я розширив цей аргумент у своїй відповіді на те, які припущення про регресію хребта та як їх перевірити?

Звичайно, все ще можуть бути правила, які говорять про те, коли регресія PLS може бути корисною, а коли ні. Будь ласка, дивіться мою відповідь, пов'язану вище, для деякої дискусії; досвідчені практики PLSR (я не один із них), безумовно, могли сказати більше.


А як щодо нормальності та незалежності вибірки?
WCMC

3

Мабуть, PLS не робить "важких" припущень щодо спільного розподілу ваших змінних. Це означає, що ви повинні бути обережними, щоб вибрати відповідну статистику тестів (я припускаю, що ця відсутність залежності від змінних розподілів класифікує PLS як непараметричну техніку). Пропозиції, які я знайшов для відповідної статистики: 1) з використанням r-квадрата для залежних прихованих змінних та 2) методів перекомпонування для оцінки стійкості оцінок.

Основна відмінність OLS / MLS від PLS полягає в тому, що перший зазвичай використовує максимальну оцінку ймовірності параметрів сукупності для прогнозування зв’язків між змінними, тоді як PLS оцінює значення змінних для справжньої сукупності для прогнозування зв’язків між групами змінних (шляхом об'єднання груп предиктора / змінні відповіді з прихованими змінними).

Мені також цікаво обробляти повторені / повторні експерименти, зокрема багатофакторні, але я не впевнений, як підійти до цього за допомогою PLS.

Довідник з часткових найменших квадратів: поняття, методи та застосування (стор. 659, розділ 28.4)

Wold, H. 2006. Специфікація прогноктора. Енциклопедія статистичних наук. 9.

http://www.rug.nl/staff/tkdijkstra/latentvariablesandindices.pdf (сторінки 4 та 5)


0

Я знайшов імітаційне дослідження, що стосується впливу ненормальності та малого розміру вибірки на ЛПЗ; автори роблять висновок: "Усі три методи [включені ПЛС] були надзвичайно міцними щодо помірних відступів від нормальності, і однаково так".

Однак для кваліфікації: "Виявляється, що всі три методи є досить стійкими до малого та помірного перекосу або куртозу (до перекосу = 1,1 та куртозу = 1,6). Однак, із більш надзвичайно перекошеними даними (перекос = 1,8 та куртоз = 3,8) , усі три методи зазнають значної та статистично значної втрати потужності як для n = 40, так і для n = 90 (два типи вибірків, які ми перевірили). Наприклад, з n = 90 та середнім розміром ефекту, потужність регресії становить 76% при нормальних даних , але падає до 53% для надзвичайно перекошених даних. За тих самих умов потужність PLS падає з 75% до 48%, тоді як LISREL падає з 79% до 50% ".

(Особисто я вважав би ці досить скромні відходи від нормальності з досить крутими декретами влади.)

Цитування: Дейл Л. Гудхью, Вільям Льюїс та Рон Томпсон. Чи мають PLS переваги для малого розміру вибірки або ненормальних даних? MIS Quarterly 2012; 36 (3): 891-1001.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.