Чи можна застосовувати випадкову лісову методологію до лінійних регресій?


14

Випадкові ліси працюють, створюючи ансамбль дерев рішень, де кожне дерево створюється за допомогою зразка завантажувального зразка вихідних навчальних даних (вибірки обох вхідних змінних та спостережень).

Чи можна застосувати подібний процес для лінійної регресії? Створіть k лінійних моделей регресії, використовуючи випадковий зразок завантаження для кожної з k регресій

Які причини НЕ створювати "випадкову регресію" на зразок моделі?

Спасибі. Якщо я щось принципово не розумію, будь ласка, дайте мені знати.


Коли агрегує дерева завантажувальної стрічки, загальна регресивна функція стає все складнішою з кожним доданим деревом. З іншого боку, коли бутстрап агрегує лінійні функції форми a_0 + a_1 * x_1 + ... + a_d * x_d, отримана усереднена лінійна функція (після агрегування завантажувальної програми) все ще має таку ж лінійну функціональну форму, як та, з якої ви починаєте (тобто "базовий учень").
Андре Хольцнер

1
@Andre Holzner - те, що ти кажеш, що це правда, але, але ... але робити цю випадкову форресту насправді є формою регуляризації, схожої на клас з верхом. Скажу вам секрет, дерево регресії - це насправді лінійна модель - схожий клас на сплайни. надягаючи мою шапку Байєса, випадковий регулятор forrest, швидше за все, приблизно відповідатиме пріорам "шип і плита", що використовуються в байєсівському контексті.
ймовірністьлогічний

@probabilityislogic, ви можете пояснити?
Саймон Куанг

Ви можете думати про дерева як лінійну модель . Z t - матриця проектування, яка вказує, до якого кінцевого вузла належить кожне спостереження для дерева t , а θ t - відповідний вектор прогнозів кінцевих вузлів. Будь-яке дерево можна описати таким чином - вибір дерева еквівалентний вибору стандартної лінійної моделі у просторі Z t - з яких я думаю, що 2 n можливих конфігурацій «кінцевого вузла» (я n - розмір навчальної вибірки). y=Ztθt+eZttθtZt2nn
вірогідність вірогідність

Відповіді:


5

Я частково не згоден з нинішніми відповідями, оскільки методологія випадкового лісу будується на основі введення дисперсії (CARTs, побудованої на завантажених зразках + метод випадкового підпростору), щоб зробити їх незалежними. Якщо у вас є ортогональні дерева, то середнє їх прогнозування (в багатьох випадках) краще, ніж прогнозування середнього дерева (через нерівність Дженсена). Незважаючи на те, що CART мають помітні переваги при обробці цієї методики, ця методологія, безумовно, застосовується до будь-якої моделі, і лінійні моделі не є винятком. Ось пакет R, який саме те, що ви шукаєте. У ньому представлений чудовий посібник щодо їх налаштування та інтерпретації та бібліографія на тему: Випадкові узагальнені лінійні моделі .


14

Щоб відповісти на @ ziggystar з точки зору машинного навчання жаргону: ідея методів агрегації завантажувальних програм (наприклад, випадкові ліси) полягає в тому, щоб підходити багато моделей з низьким ухилом, з високою дисперсією до даних, які мають певний елемент "випадковості" або "нестабільності". У випадку випадкових лісів нестабільність додається шляхом завантаження та вибору випадкового набору функцій для розділення кожного вузла дерева. Усереднення серед цих галасливих, але низьких ухилів дерева зменшує велику дисперсію будь-якого окремого дерева.

У той час як дерева регресії / класифікації є моделями "з низьким ухилом, з великою дисперсією", лінійні регресійні моделі, як правило, навпаки - "з великим зміщенням, низькою дисперсією". Таким чином, проблема, з якою часто стикаються лінійні моделі, - зменшення зміщення, а не зменшення дисперсії. Агрегація завантажувальної програми просто не робиться для цього.

Додатковою проблемою є те, що завантажувальна програма може не забезпечити достатньої кількості "випадковості" чи "нестабільності" в типовій лінійній моделі. Я б очікував, що дерево регресії буде більш чутливим до випадковості зразків завантаження, оскільки кожен лист містить лише кілька точок даних. Крім того, дерева регресії можна стохастично вирощувати, розділяючи дерево на випадковий підмножина змінних на кожному вузлі. Дивіться це попереднє питання, чому це важливо: Чому випадкові ліси розбиті на основі m випадкових ознак?

Все, що говорити, ви, звичайно, можете використовувати завантажувальний механізм завантаження на лінійних моделях [LINK] , і це може бути дуже корисним у певних контекстах. Однак мотивація сильно відрізняється від методики агрегування завантажувальної програми.


Дякуємо за посилання та відповідь. Якщо метод випадковості корисний для моделей "з низьким зміщенням, з великою дисперсією", чи існують методології поводження з моделями протилежного типу "висока зміщення, низька дисперсія"?
Рік

Якщо у вас низька модель зміщення, велика дисперсія, такі методи, як мішок, можуть зменшити дисперсію при незначному збільшенні зміщення. Якщо ви маєте високий ухил, низьку дисперсію, використовуйте модель із меншим зміщенням та більшою дисперсією - як поліноміальна регресія або більш загальні методи ядра.
Джо

10

кк

І ось чому не так привабливо робити "випадкове" те, що відбувається з лінійними моделями, як з деревами рішень:

Велике дерево рішень, створене з великої вибірки, дуже ймовірно, що перевищує дані, і випадковий лісовий метод бореться з цим ефектом, спираючись на голосування багатьох малих дерев.

З іншого боку, лінійна регресія - це модель, яка не дуже схильна до переозброєння, і тому не шкодить, навчаючи її на повній вибірці на початку. І навіть якщо у вас є багато змінних регресорів, ви можете застосувати інші методи, такі як регуляризація, для боротьби з надмірною обробкою.


0

Я згоден з @ziggystar. Як кількість проб завантаженнякконвергується до нескінченності, мішкована оцінка лінійної моделі переходить до оцінки OLS (Ordinary Least Squares) лінійної моделі, що працює на всій вибірці. Шлях довести це - бачити, що завантажувальна стрічка "робить вигляд", що розподіл населення такий же, як емпіричний розподіл. Коли ви вибираєте все більше і більше наборів даних з цього емпіричного розподілу, середнє оцінене значення гіперпланів буде сходити до "справжньої гіперплани" (що є оцінкою OLS, що працює за всіма даними) за асимптотичними властивостями звичайних найменших квадратів.

Крім того, мішок не завжди є хорошою справою. Він не тільки не бореться зі зміщенням, але може посилити упередженість у деяких своєрідних випадках . Приклад:

Х1,Х2,...,ХнБе(p)
(Випробування Бернуллі, які з вірогідністю приймають значення 1 p і значення 0 з вірогідністю 1-p). Далі визначимо параметр
θ=1{p>0}
і спробуйте це оцінити. Звичайно, достатньо побачити єдину точку данихХi=1 знати це θ=1. Весь зразок може містити таку точку даних і дозволяє нам оцінитиθбез жодної помилки. З іншого боку, будь-який зразок завантажувальної програми може не містити такої точки даних і призводить нас до неправильної оцінкиθз 0 (тут ми не приймаємо байєсівських рамок, використовує старий добрий метод максимальної ймовірності). Іншими словами,
Бiас баггiнг=Пrоб(iн а боотстrаp самpле Х(1)=...=Х(н)=0)>0,
умовний на θ=1.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.