Чому кілька моделей можуть дати майже однакові результати?


10

Я аналізував набір даних ~ 400k записів і 9 змінних Залежна змінна є двійковою. Я встановив логістичну регресію, дерево регресії, випадковий ліс і дерево, підсилене градієнтом. Усі вони надають віртуальну ідентичну корисність підходящих номерів, коли я перевіряю їх в іншому наборі даних.

Чому це так? Я здогадуюсь, що це тому, що відношення моїх спостережень до змінних настільки велике. Якщо це правильно, при якому співвідношенні спостереження до змінної різні моделі почнуть давати різні результати?

Відповіді:


7

Цей результат означає, що яким би методом ви не користуєтесь, ви зможете наблизитися до оптимального правила прийняття рішення (він же називається правилом Байєса ). Основні причини були пояснені в "Елементах статистичного навчання" Хасті, Тібшірані та Фрідмана . Вони продемонстрували, як працюють різні методи, порівнюючи рис. 2.1, 2.2, 2.3, 5.11 (у моєму першому виданні - у розділі про багатовимірні сплайни), 12.2, 12.3 (підтримуючі векторні машини) та, ймовірно, деякі інші. Якщо ви ще не прочитали цю книгу, вам потрібно кинути все ПРАВО ЗАРАЗ і прочитати її. (Я маю на увазі, не варто втрачати роботу, але варто пропустити домашнє завдання або два, якщо ви студент.)

Я не думаю, що пояснення до змінного відношення є поясненням. З огляду на моє обґрунтування, яке було запропоновано вище, саме такі методи, які ви намагалися, змогли визначити відносно простою формою межі, що розділяє ваші класи у багатовимірному просторі.


Я запитаю свого боса, чи зможу я змусити компанію заплатити за це.
JenSCDC

1
ESL є "безкоштовним" у вигляді PDF-файлу зі своєї домашньої сторінки ... також варто завантажити ISL (багатьма одними і тими ж авторами) - більш практичне www-bcf.usc.edu/~gareth/ISL
seanv507

4

варто також подивитися на помилки тренувань.

в основному я не згоден з вашим аналізом. якщо логістична регресія і т.д. дають однакові результати, то це дозволить припустити, що «найкраща модель» є дуже простою (що всі моделі можуть однаково добре вміщуватися - наприклад, в основному лінійні).

Тож тоді може виникнути питання, чому найкраща модель - це проста модель ?: Це може припустити, що ваші змінні не дуже прогнозовані. Звичайно, важко проаналізувати, не знаючи даних.


1

Як запропонував @ seanv507, подібні показники можуть бути просто обумовлені тим, що дані найкраще відокремлюються лінійною моделлю. Але загалом твердження, що це тому, що "співвідношення спостережень до змінних настільки велике" є невірним. Навіть якщо ваше співвідношення розміру вибірки та кількості змінних доходить до нескінченності, не слід очікувати, що різні моделі можуть працювати майже однаково, якщо тільки вони не забезпечують однакового передбачуваного зміщення.


Я щойно відредагував своє запитання, щоб додати, що залежна змінна є двійковою. Отже, лінійна модель не підходить.
JenSCDC

"не слід очікувати, що різні моделі працюватимуть однаково, якщо всі вони не мають однакових прогнозних ухилів." Я використовував МАЕ та співвідношення фактичного та прогнозованого результатів як міри перевірки, а коефіцієнти були дуже близькими.
JenSCDC

1
Енді, я б включив логістичну регресію (і лінійну SVM) як "лінійну" модель. Усі вони просто відокремлюють дані за зваженою сумою вхідних даних.
seanv507

1
@ seanv507 Точно - межа рішення все ще лінійна. Те, що виконується двійкова класифікація, цього не змінює.
bogatron

А що з деревами? Вони мені справді не здаються лінійними.
JenSCDC

0

Я здогадуюсь, що це тому, що відношення моїх спостережень до змінних настільки велике.

Я думаю, що це пояснення має ідеальний сенс.

Якщо це правильно, при якому співвідношенні спостереження до змінної різні моделі почнуть давати різні результати?

Це, ймовірно, буде дуже залежати від ваших конкретних даних (наприклад, навіть від того, чи є ваші дев'ять змінних безперервними, чинниками, звичайними чи двійковими), а також будь-якими рішеннями про налаштування, які ви приймали під час встановлення вашої моделі.

Але можна пограти зі співвідношенням спостереження до змінної - не збільшуючи кількість змінних, а зменшуючи кількість спостережень. Випадково намалюйте 100 спостережень, підходимо до моделей і подивімося, чи дають різні моделі різні результати. (Я думаю, що вони будуть.) Зробіть це кілька разів, використовуючи різні зразки, отримані з вашої загальної кількості спостережень. Потім подивіться на підпробові групи 1000 спостережень ... 10000 спостережень ... і так далі.


1
Гм чому це? більше спостережень, схоже, збільшує шанс на те, що межа прийняття рішення є більш складною - тобто, безумовно, не лінійною. І ці моделі роблять різні речі в складних випадках, і, як правило, роблять те саме в простих.
Шон Оуен

@SeanOwen: Я думаю, що я не розумію ваш коментар. На яку частину моєї відповіді йдеться "чому це"? ОП нічого не сказала про використання лінійних меж рішення - зрештою, він може певним чином трансформувати прогнози.
Стефан Коласа

Чому більше спостережень змушує різних класифікаторів приймати більше подібних рішень? моя інтуїція - навпаки. Так, я не думаю лише про лінійні межі рішення. Чим складніша оптимальна межа, тим менше ймовірність, що всі вони будуть відповідати чомусь подібному до цієї межі. І межа, як правило, є складнішим із більшими спостереженнями.
Шон Оуен
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.