Чому необхідний вибір змінних?


31

Загальні процедури вибору змінних на основі даних (наприклад, вперед, назад, поетапно, всі підмножини), як правило, дають моделі з небажаними властивостями, включаючи:

  1. Коефіцієнти відхиляються від нуля.
  2. Стандартні помилки, які занадто малі, і довірчі інтервали, які занадто вузькі.
  3. Статистика тестів та p-значень, які не мають рекламованого значення.
  4. Оцінки відповідності моделі, які надмірно оптимістичні.
  5. Включені терміни, які можуть бути безглуздими (наприклад, виключення термінів нижчого порядку).

Однак, різні процедури відбору зберігаються. Зважаючи на проблеми із змінним підбором, чому ці процедури необхідні? Що мотивує їх використання?

Деякі пропозиції для початку дискусії ....

  • Прагнення до інтерпретованих коефіцієнтів регресії? (Помилково в моделі з багатьма ІV?)
  • Усунути дисперсію, внесену невідповідними змінними?
  • Усунути непотрібну коваріацію / надмірність незалежних змінних?
  • Зменшити кількість оцінок параметрів (питання потужності, розмір вибірки)

Є інші? Чи вводяться проблеми, вирішені методами змінної селекції, більш-менш важливими, ніж проблеми, що вводяться в процедурах вибору змінних? Коли їх слід використовувати? Коли їх не слід використовувати?


На мою думку, щоб чітко обговорити проблему, нам потрібно спочатку її якось добре вказати, а потім сформулювати у відповідній математичній формі, щоб ми могли мати рамки, під якими чітко обговорюється проблема. Для задачі вибору змінної для, наприклад, лінійних регресійних моделей. Спочатку здається доцільним виправити модель та вивчити (i) переваги / недоліки (наприклад, поліпшення / погіршення оцінки чи прогнозування) варіабельного вибору? (ii) переваги процедури відбору змінних порівняно з оцінкою LS?

Відповіді:


17

Змінна селекція (без штрафу) лише погіршує ситуацію. Змінний вибір майже не має шансів знайти "правильні" змінні, що призводить до великих завищень ефектів інших змінних та величезного заниження стандартних помилок. Помилково вважати, що вибір змінних, здійснений звичайним способом, допомагає обійти проблему "великий p малий n". Суть - це остаточна модель, що вводить в оману всіляко. Це пов’язано з приголомшливим твердженням, яке я прочитав у роботі з епідеміології: "У нас не було адекватного розміру вибірки для розробки багатовимірної моделі, тому натомість ми виконували всі можливі тести для 2х2 таблиць".

Будь-який час, коли використовується набір даних для усунення змінних, використовуючи Y для прийняття рішення, всі статистичні величини будуть спотворені. Типовий вибір змінної - міраж.

Редагувати : (Копіювання коментарів знизу, прихованих складкою)

Я не хочу бути корисним, але моя книга " Регресійне моделювання стратегій" вникає в це в деякій глибині. Інтернет-матеріали, включаючи роздатковий матеріал, можна знайти на моїй веб-сторінці . Деякі доступні методи - це пеналізація (регресія хребта), пеналізація (ласо) та так звана еластична сітка (комбінація і ). Або скористайтеся скороченням даних (засліпленими відповіддю ) перед тим, як зробити регресію. Моя книга витрачає на це більше місця, ніж на пеналізацію.L2L1L1L2Y


6
Я думаю, що цю відповідь можна було б покращити, надавши деякі підказки, як діяти далі. Відповідь дає дуже широкі та остаточні твердження (багато з яких я загалом погоджуюсь), не посилаючись на ресурси, які могли б підтримати претензії. Безумовно, пеналізація теж не є панацеєю, і є багато варіантів, які можна зробити, якщо хтось піде цією дорогою.
кардинал

3
Будь ласка, дивіться вище, де я надав більше інформації. Найкоротший спосіб заявити про проблему полягає в тому, що головна причина того, що змінна "обрана", полягає в тому, що її ефект був завищений.
Френк Харрелл

2
Так, я погоджуюся, що у вашій книзі є хороший матеріал щодо цього, як, наприклад, ESL. (Це означає, що в ESL є, принаймні, кілька випадків, коли також використовується деяка форма відсталого відбору.) Ви згадуєте про пеналізацію (aka регресія хребта), але це, як правило, не надто далеко з точки зору змінної / моделі вибір як такий. Еластична сітка має деяку нормальну поведінку, але її недолік у моїй свідомості полягає в тому, що як би ви не дивилися на неї, вона не допускає дуже приємної чи природної "статистичної" інтерпретації, тоді як і і пеналізація роблять у певних сенсах. L2L1L2
кардинал

2
Хороші моменти, хоча я думаю, що дає природну інтерпретацію, оскільки це просто інший спосіб оцінки тих же коефіцієнтів моделі. Ви праві, що без не видаляє жодних змінних. Ми робимо це для чудової прогнозованої продуктивності та для обробки великого малого випадку. L2L2L1pn
Френк Харрелл

2
Можливо, мій коментар виявився не таким ясним, як я мав намір. Так, я погоджуюся, що пеналізація сама по собі має кілька приємних тлумачень, хоча це не призводить до будь-якого вибору змінної. Це еластична сітка, яку я не вважаю особливо добре мотивованою чи природною із статистичної точки зору поза тим, що в деяких випадках досягається краща прогнозована ефективність. L2
кардинал

14

Перш за все, згадані вами недоліки - це ефект вибору неправильної функції, зроблений неправильно , тобто переобладнаний, недобудований або завищений.

"Ідеальний" ФС має два кроки; Перший - це видалення всіх змінних, що не стосуються DV (так звана вся відповідна проблема, дуже важка задача, не пов'язана з використовуваною моделлю / класифікатором), друга - обмежити набір лише тими змінними, які можуть оптимально використовувати модель (наприклад, і однаково добре пояснюють , але лінійна модель скоріше не буде використовувати в загальному випадку) - цю називають мінімально оптимальною .eYYYeY

Весь відповідний рівень дає зрозуміти, що насправді рухає даний процес, тому має пояснювальне значення. Мінімальний оптимальний рівень (за задумом) дає якнайповнішу модель, що працює над максимально незатиснутими даними.

Фактичні ФС просто хочуть досягти однієї з цих цілей (зазвичай останньої).


4
Я припускаю, що ви маєте на увазі видалення змінних без використання підручних даних. Для цього ви не можете використовувати набір даних. Це було б ненадійним і спотворювало б статистичні умовиводи.
Френк Харрелл

Як я вже писав, це лише теоретична основа проблеми (походить від байєсівських мереж). Точний спосіб усвідомлення цього, очевидно, неможливий, і я, безумовно, погоджуюся, що статистичне моделювання багато постраждало від бездумного використання RFE та подібних речей - все ж машинне навчання має деякі евристичні алгоритми, які, безумовно, не безнадійні (тобто робити стабільні вибори та моделі які виявляються недостатніми у справедливих випробуваннях).

Що таке RFE ???????
kjetil b halvorsen

@kjetilbhalvorsen Рекурсивне усунення функцій

@mbq Thx за вашу цікаву відповідь! Чи можете ви надати будь-які довідки (книги, документи тощо)? Вдячний за вашу відповідь!
Каре

10

Змінна вибір необхідна тому, що більшість моделей не справляється з великою кількістю невідповідних змінних. Ці змінні будуть вносити лише шум у вашу модель, або, що ще гірше, спричинять перенапруження. Недоцільно виключити ці змінні з аналізу.

Крім того, ви не можете включити всі змінні, що існують у кожному аналізі, оскільки їх існує нескінченна кількість. У якийсь момент вам доведеться провести лінію, і це добре робити це суворо. Звідси вся дискусія про вибір варіанту.

Більшість проблем з вибором змінних можна вирішити за допомогою перехресної перевірки або за допомогою моделі із вбудованою пеналізацією та підбором функції (наприклад, еластична сітка для лінійних моделей).

Якщо вас цікавлять деякі емпіричні результати, пов’язані з численними змінними, що спричиняють надмірну підгонку, ознайомтеся з результатами змагань " Не переоцінюйте" на Kaggle.


1
Я думаю, перший абзац містить суттєве непорозуміння проблеми. Варіабельний вибір не допомагає цим проблемам жодним чином, він лише приховує їх. Змінна селекція призводить до величезних проблем із пристосуванням, хоча, як ви вже згадували пізніше, існують деякі способи, щоб чесно себе покарати за шкоду, заподіяну змінним вибором.
Френк Харрелл

3
@Frank Harrell: як ти вирішиш, які змінні виключити з моделі?
Зак

11
(1) Використовуйте знання з предметів, перш ніж дивитись набір даних; (2) Використовуйте аналіз надмірності / зменшення даних, засліплений Y; (3) Використовуйте метод, який адекватно штрафує за величезну проблему багаторазового порівняння, викликану вибором функцій (див. В інших місцях на цій сторінці).
Френк Харрелл
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.