Варіабельний вибір для прогнозного моделювання дійсно потрібен у 2016 році?

67

Це питання було задано в CV кілька років тому, але, здається, варто зробити репост з огляду на 1) на порядок кращу обчислювальну технологію (наприклад, паралельні обчислення, HPC тощо) та 2) новіші методи, наприклад [3].

По-перше, якийсь контекст. Припустимо, мета - не тестування гіпотез, не оцінка ефекту, а прогнозування на невидимому тестовому наборі. Отже, ніякої ваги для тлумачення не надається. По-друге, скажімо, ви не можете виключати актуальності будь-якого прогноктора щодо розгляду предмета, тобто. всі вони здаються правдоподібними окремо або в поєднанні з іншими прогнозами. По-третє, ви зіткнулися з (сотнями) мільйонами прогнозів. По-четверте, скажімо, у вас є доступ до AWS з необмеженим бюджетом, тому обчислювальна потужність не є обмеженням.

Звичайними причинами змінного вибору є 1) ефективність; швидше підходити до меншої моделі і дешевше збирати менше прогнозів; 2) інтерпретація; Знання "важливих" змінних дає розуміння основного процесу [1].

Зараз широко відомо, що багато варіабельних методів відбору неефективні та часто відверто небезпечні (наприклад, поступальна регресія вперед) [2].

По-друге, якщо обрана модель є корисною, взагалі не потрібно скорочувати список прогнозів. Модель повинна зробити це за вас. Хороший приклад - ласо, який присвоює нульовий коефіцієнт всім неактуальним змінним.

Мені відомо, що деякі люди виступають за використання моделі «слона», тобто. підкинути всі можливі передбачувачі у відповідність та бігти з нею [2].

Чи є якась принципова причина робити змінний вибір, якщо мета - точність прогнозування?

[1] Реунанен, Дж. (2003). Перевищення при порівнянні між варіабельними методами вибору. Журнал досліджень машинного навчання, 3, 1371-1382.

[2] Харрелл, Ф. (2015). Стратегічне моделювання регресії: із застосуванням до лінійних моделей, логістичної та порядкової регресії та аналізу виживання. Спрингер.

[3] Тейлор, Дж. Та Тібширані, RJ (2015). Статистичне навчання та вибіркове висновок. Праці Національної академії наук, 112 (25), 7629-7634.

[4] Чжоу, Дж., Фостер, Д., Стойн, Р., Унгар, Л. (2005, серпень). Вибір функції потокового потоку за допомогою альфа-інвестування. У матеріалах одинадцятої міжнародної конференції ACM SIGKDD про відкриття знань у галузі видобутку даних (с. 384-393). ACM.

— horaceT
джерело

6

Перше приємне питання - можливо, це може бути закрито як дублікат, але я вдячний, що ви витратили зусилля, встановивши те, що, на вашу думку, відрізняє це. Я б запропонував редагувати заголовок, тому чіткіше буде ваш акцент лише на передбаченні.

— Срібна рибка

5

Якщо це питання вже задавали, але вам здається важливим його повторно опублікувати через деякий час, ніж, можливо, ви могли б надати посилання на попереднє питання? Може бути цікавим можливість порівняти попередні відповіді.

— Тім

1

@ qbert65536 Один погляд - це ти не робиш. Вибір функцій за своєю суттю ненадійний.

— horaceT

8

Методи, які автоматично вибирають розріджений підмножина функцій (наприклад, l1 пенізованих моделей), також здійснюють вибір функцій. Отже, критичне питання полягає не в тому, "чи є вибір функції хорошим / поганим", а "які властивості відрізняють хороші методи вибору особливостей від поганих?". Виконання спільно з оцінкою параметрів (як у lasso) - це одна властивість, і ми можемо запитати, чи це має значення (разом із багатьма іншими властивостями).

— користувач20160

2

@ToussaintLouverture Оскільки я опублікував це питання рік тому, у мене є друга (і третя) думка. Тепер я вважаю, що відповідне питання полягає в тому, наскільки важливо спрямовувати зусилля на зміну вибору, а не на вибір моделі, щоб вибрати більш здатну модель, що узагальнюється з усіх особливостей експерименту.

— horaceT

37

Протягом багатьох років ходять чутки, що Google використовує всі доступні функції для побудови своїх алгоритмів прогнозування. На сьогоднішній день жодних заперечень, пояснень чи дописів не з’явилися, які б прояснили та / або спростували цю чутку. Навіть їх опубліковані патенти не допомагають зрозуміти. Як наслідок, ніхто, зовнішній для Google, не знає, що вони роблять, наскільки мені відомо.

/ * Оновлення у вересні 2019 року євангеліст Google Tensorflow продовжив свою презентацію, заявивши, що інженери Google регулярно оцінюють понад 5 мільярдів параметрів для поточної версії PageRank . * /

Як зазначає ОП, однією з найбільших проблем прогнозного моделювання є співвідношення між тестуванням класичної гіпотези та ретельним конкретизацією моделі проти чистого обміну даними. Класично навчені можуть бути досить догматичними щодо необхідності "суворості" в дизайні та розробці моделі. Справа в тому, що, зіткнувшись з величезною кількістю передбачувачів кандидатів та декількома можливими цілями або залежними змінними, класична структура не працює, не містить і не дає корисних рекомендацій. Численні останні документи виокремлюють цю дилему з чаттопадхей та блискучого документу Ліпсона: "Розбиття даних: Розкриття хованого порядку в даних" http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdf

Основне вузьке місце полягає в тому, що сьогодні більшість алгоритмів порівняння даних покладаються на людського експерта, щоб визначити, які "особливості" даних є релевантними для порівняння. Тут ми пропонуємо новий принцип оцінки схожості між джерелами довільних потоків даних, не використовуючи ні доменних знань, ні навчання.

До минулорічного документу AER про проблеми прогнозування політики Kleinberg та ін. https://www.aeaweb.org/articles?id=10.1257/aer.p20151023, яка робить видобуток даних та прогнозування корисними інструментами в розробці економічної політики, наводячи випадки, коли "висновок про причину не є центральним або навіть необхідним. "

Справа в тому, що більшим питанням у розмірі 64 000 доларів є широкий зміст мислення та викликів до класичної системи перевірки гіпотез, яка міститься , наприклад, у цьому симпозіумі Edge.org щодо "застарілого" наукового мислення https://www.edge.org/ відповіді / що - наукова ідея - готова до виходу на пенсію , а також ця нещодавня стаття Еріка Бейнхокера про "нову економіку", в якій представлені деякі радикальні пропозиції щодо інтеграції широко різних дисциплін, таких як поведінкова економіка, теорія складності, прогнозована модель розробка, теорія мережі та портфеля як платформа для впровадження та прийняття політики https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/Потрібно говорити, що ці питання виходять далеко за рамки просто економічних проблем і говорять про те, що ми зазнаємо кардинального зрушення в наукових парадигмах. Змінюються погляди є такими ж фундаментальними, як і відмінність між редукціоністичним, Бритва Оккама, як побудова моделей проти експансивного Принципу Поваги Епікура або багаторазових пояснень, які приблизно зазначають, що якщо кілька висновків щось пояснюють, зберігайте їх усі ... https: // en. wikipedia.org/wiki/Principle_of_plenitude

Звичайно, такі хлопці, як Бейнхокер, абсолютно не обтяжені практикою, що стосується траншей щодо прикладних, статистичних рішень цієї парадигми, що розвивається. Розмірковуючи про нестабільні питання ультрависокого розмірного варіабельного вибору, ОП є відносно неспецифічним щодо життєздатних підходів до побудови моделі, які можуть використовувати, наприклад, Lasso, LAR, ступінчасті алгоритми або "слонові моделі", які використовують всю наявну інформацію. Реальність полягає в тому, що навіть з AWS або суперкомп'ютером ви не можете одночасно використовувати всю наявну інформацію - просто не вистачає оперативної пам’яті, щоб все це завантажити. Що це означає? наприклад, виявлення NSF у складних або масових наборах даних: загальні статистичні теми"розподілити та перемогти" алгоритми для масового обміну даними, наприклад, статті Ванґ та ін., Огляд статистичних методів та обчислення великих даних http://arxiv.org/pdf/1502.07989.pdf , а також Leskovec та ін книга Майнінг масивних наборів даних http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&keywords=Mining+of+Massive+Datasets

Зараз існує буквально сотні, якщо не тисячі праць, які розглядають різні аспекти цих проблем, і всі пропонують аналітичні двигуни, що відрізняються різними характеристиками, як їх ядро від алгоритмів «розділити і перемагай»; непідконтрольні моделі "глибокого навчання"; теорія випадкових матриць, застосована до масивної побудови коваріації; Байєсові тензорні моделі до класичної, контрольованої логістичної регресії тощо. П'ятнадцять років або більше тому дебати в основному були зосереджені на питаннях щодо відносних достоїнств ієрархічних байесівських рішень та частофілістських кінцевих моделей сумішей. У документі, присвяченому цим питанням, Ainslie та ін. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdfдійшов висновку, що різні теоретичні підходи на практиці дають значною мірою еквівалентні результати, за винятком проблем, пов'язаних із розрідженими та / або великомірними даними, де моделі НВ мали перевагу. Сьогодні, з появою методів обліку D&C, будь-які арбітражні моделі НВ, можливо, історично користувалися, усуваються.

Основна логіка цих методів вирішення проблем науково-дослідних технологій - це, в основному, розширення відомої лісової техніки Бреймана, яка спиралася на завантаження та перекомпонування спостережень та особливостей. Брейман зробив свою роботу в кінці 90-х на одному процесорі, коли масивні дані означали кілька десятків концертів і пару тисяч функцій. На сьогодні масово паралельних багатоядерних платформах можна запустити алгоритми, аналізуючи терабайти даних, що містять десятки мільйонів функцій, будуючи мільйони міні-моделей "RF" за кілька годин.

З усього цього виникає безліч важливих питань. Слід побоюватися з приводу втрати точності через наближений характер цих обхідних шляхів. Цю проблему вирішили Чен та Сі в своїй роботі, підхід "Сплит-і-конвер" для аналізу надзвичайно великих даних http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf, де вони роблять висновок що наближення невідмінно відрізняються від моделей "повної інформації".

Друге питання, яке, наскільки мені відомо, не було належним чином розглянуто в літературі, пов'язане з тим, що робиться з результатами (тобто "параметрами") потенційно мільйонів прогнозних міні-моделей, коли обходиться проблема були зведені та узагальнені. Іншими словами, як можна виконати щось таке просте, як «забити» нові дані за допомогою цих результатів? Чи слід зберігати та зберігати коефіцієнти міні-моделі чи просто перезапускати алгоритм d & c на нові дані?

У своїй книзі « Numbers Rule Your World» Кайзер Фунг описує дилему, з якою Netflix зіткнувся, коли був представлений ансамблем із всього 104 моделей, переданих переможцям їхнього конкурсу. Переможці дійсно мінімізували MSE проти всіх інших конкурентів, але це призвело лише до покращення точності на кілька десяткових знаків за 5-бальною, оціночною шкалою типу Лікерта, використовуваною їх системою рекомендування фільмів. Крім того, необхідне технічне обслуговування ІТ для цього ансамблю моделей коштує набагато дорожче, ніж будь-яка економія, що спостерігається від «покращення» точності моделі.

Тоді виникає ціле питання про те, чи можлива "оптимізація" з інформацією такого масштабу. Наприклад, Еммануель Дерман, фізик та фінансовий інженер, у своїй книзі « Моє життя як квант» припускає, що оптимізація є міфом нестійким, принаймні у фінансовій інженерії.

Нарешті, важливі питання щодо відносної важливості функції з великою кількістю функцій ще не вирішені.

На питання, що стосуються необхідності змінного вибору та нових викликів, що відкриваються нинішніми проблемами, епікурейські шляхи вирішення ще залишаються невирішеними. Суть полягає в тому, що зараз ми всі вчені-дані.

**** EDIT *** Список літератури

Chattopadhyay I, Lipson H. 2014 Розбиття даних: виявлення прихованого порядку в даних. JR Soc. Інтерфейс 11: 20140826. http://dx.doi.org/10.1098/rsif.2014.0826
Кляйнберг, Йон, Єнс Людвіг, Сендхіл Муллайнатан і Зіад Обермейер. 2015. «Проблеми політики прогнозування». Американський економічний огляд, 105 (5): 491-95. DOI: 10.1257 / aer.p20151023
Edge.org, 2014 Щорічне запитання: ЩО НАУЧНА ІДЕЯ ГОТОВА ДО ПОВЕРНЕННЯ? https://www.edge.org/responses/what-scientist-idea-is-ready-for-retirement
Ерік Бейнхокер, Як глибокі зміни в економіці роблять ліві проти правильних дебати нерелевантними, 2016 р., Evonomics.org. https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/
Епікур принципом численних пояснень: зберігайте всі моделі. Вікіпедія https://www.coursehero.com/file/p6tt7ej/Epicurus-Principle-of-Multiple-Explanations-Keep-all-models-that-are-consistent/
NSF, «Відкриття у складних або масових наборах даних: загальні статистичні теми», практикум, що фінансується Національним науковим фондом, 16-17 жовтня 2007 року https://www.nsf.gov/mps/dms/documents/DiscoveryInComplexOrMassiveDatasets.pdf
Статистичні методи та обчислення великих даних, робочий документ Chun Wang, Ming-Hui Chen, Elizabeth Schifano, Jing Wu та Jun Yan, 29 жовтня 2015 р. Http://arxiv.org/pdf/1502.07989.pdf
Юре Лесковець, Ананд Раджараман, Джеффрі Девід Улман, майнінг масивних наборів даних, Кембриджський університетський прес; 2 видання (29 грудня 2014 р.) ISBN: 978-1107077232
Великі зразкові коваріаційні матриці та об'ємний аналіз даних (серія Кембридж у статистичній та ймовірнісній математиці), Цзянфенг Яо, Шуронг Чжен, Чжидун Бай, Кембриджський університетський прес; 1 видання (30 березня 2015 р.) ISBN: 978-1107065178
RICK L. ANDREWS, ANDREW AINSLIE та IMRAN S. CURRIM, Емпіричне порівняння моделей вибору Logit з дискретними попереду постійними уявленнями про гетерогенність, Journal of Marketing Research, 479 Vol. XXXIX (листопад 2002 р.), 479–487 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdf
Сплит-і-завойовницький підхід для аналізу надзвичайно великих даних, Xueying Chen та Minge Xie, технічний звіт DIMACS 2012-01, січень 2012 року http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf
Кайзер Фунг, числа керують твоїм світом: прихований вплив ймовірностей та статистика на все, що ти робиш, освіта McGraw-Hill; 1 видання (15 лютого 2010 р.) ISBN: 978-0071626538
Еммануель Дерман, Моє життя як кількість: Роздуми про фізику та фінанси, Вілі; 1 видання (11 січня 2016 р.) ISBN: 978-0470192733

* Оновлення в листопаді 2017 року *

Книга Натана Куца, 2013, Моделювання даних та наукове обчислення: Методи складних систем та великих даних - це математична та PDE орієнтована екскурсія на вибір змінних, а також методи та інструменти зменшення розмірів. Чудове ознайомлення з його мисленням за 1 годину можна знайти в цьому червні 2017 року на відео YouTube на основі даних Data Driver Discovery of Dynamical Systems and PDE . У ньому він посилається на останні події в цій галузі. https://www.youtube.com/watch?feature=youtu.be&v=Oifg9avnsH4&app=desktop

— Майк Хантер
джерело

1

У літній школі з машинного навчання пару років тому співрозмовник з Google поспілкувався (забув ім’я). Він згадав про пару моделей (двійкової класифікації) у виробництві, що передбачають щось на кшталт ~ 200 мільйонів функцій, підготовлених пакетно на ~ 30 Тб наборів даних; більшість з них, ймовірно, двійкові функції. Я не пам'ятаю, щоб він коли-небудь згадував вибір змін.

— horaceT

1

Чудові коментарі (хоча частина її відійшла від дотичної). Мені особливо подобається точка зору, що багато старомодні ідеї потребують перегляду в епоху великих даних.

— horaceT

1

@horaceT Дуже цікаво. Принаймні, це підтверджує чутку. Дякую. Яка програма ML була це?

— Майк Хантер

1

MLSS 2012 у Санта-Крус. Доповідачем виступив Тушар Чандра, ось слайди, users.soe.ucsc.edu/~niejiazhong/slides/chandra.pdf

— horaceT

2

@Glen_b Дякую за коментарі. Я думав, що надав імена та назви для посилань саме через проблему, що не працює. Незалежно від цього, я додамо довідковий розділ наприкінці. Повідомте мене, якщо чогось немає.

— Майк Хантер

14

З точки зору прогнозування, напевно, потрібно подумати над питанням, наскільки швидко модель засвоює важливі особливості. Навіть думаючи про OLS, це дасть вам щось на зразок вибору моделі з урахуванням достатньої кількості даних. Але ми знаємо, що він не підходить до цього рішення досить швидко - тому ми шукаємо щось краще.

Більшість методів роблять припущення про тип бета / коефіцієнтів, які будуть зустрічатися (на кшталт попереднього розподілу в баєсовій моделі). Вони найкраще працюють, коли ці припущення виконуються. Наприклад, регресія хребта / ласо передбачає, що більшість бета знаходяться в одній шкалі, а більшість - майже до нуля. Вони не працюватимуть також для регресій "голки в копиці сіна", де більшість бета дорівнює нулю, а деякі бета дуже великі (тобто масштаби дуже різні). Вибір функцій може працювати тут краще - ласо може застрягти між зменшуваним шумом і залишаючи сигнал недоторканим. Вибір функцій більш непостійний - ефект є або "сигналом", або "шумом".

Що стосується прийняття рішення - вам потрібно мати деяке уявлення про те, який тип змінних передбачувача у вас є. У вас є кілька справді хороших? Або всі змінні слабкі? Це призведе до профілю бета-версій у вас. І які методи штрафу / відбору ви використовуєте (коні на курси та все таке).

Вибір функцій також непоганий, але деякі старі наближення через обчислювальні обмеження вже не є добрими (поетапно, вперед). Усереднення моделей за допомогою вибору функцій (всі 1 вар. Моделі, 2 вар. Моделі тощо, зважене їх продуктивністю) зробить досить хорошу роботу при прогнозуванні. Але вони по суті штрафують бета-версії за рахунок ваги, наданої моделям з цією змінною, виключеною - просто не безпосередньо - і не таким чином, як проблема опуклої оптимізації.

— ймовірністьіслогічна
джерело

12

Я даю вам перспективу промисловості.

Промисловості не люблять витрачати гроші на сенсори та системи моніторингу, які вони не знають, скільки їм виграють.

Наприклад, я не хочу називати їх, тому уявіть собі компонент з 10 датчиками, що збирають дані щохвилини. Власник активу звертається до мене і запитує, наскільки добре ви можете передбачити поведінку мого компонента з цими даними за допомогою 10 датчиків? Потім вони проводять аналіз витрат і вигод.

Потім у них є той самий компонент з 20 датчиками, вони знову запитують мене, наскільки добре ви можете передбачити поведінку мого компонента з цими даними від 20 датчиків? Вони виконують ще один аналіз витрат та вигод.

У кожному з цих випадків вони порівнюють вигоду з вартістю інвестицій завдяки установкам датчиків. (Це не просто додавання датчика до $ 10 до компонента. Багато факторів відіграють певну роль). Ось де мінливий аналіз вибору може бути корисним.

— PeyM87
джерело

1

Влучне зауваження. Але ви б не знали 10 датчиків досить добре або вам знадобиться ще 10, поки у вас не з’являться дані з 20.

— horaceT

Щоправда, і завжди можна міркувати, грунтуючись на деяких дослідженнях. Ви встановлюєте кожен датчик з метою, щоб уникнути збоїв. Якщо рівень відмов низький або ви вже покрили значні частини компонента, ви знаєте, що додавання 1 датчика не принесе великої віддачі. Отже, вам не потрібно встановлювати ці датчики, збирати дані та проводити дослідження, щоб знати, чи є ці додаткові датчики справді досить хорошими.

— PeyM87

"Датчики" можуть не означати сенсорів - у моїй компанії ми передплачуємо всі наші дані, тому дійсно є можливість виявити функції, які ні до чого не сприяють, та зменшити витрати, видаливши їх із служби підписки (щоб було зрозуміло, тарифи на підписку розробляються на більш високому рівні, ніж окремі стовпці, але, безумовно, правдоподібно уявити елемент підписки, який вносить одну особливість до остаточної моделі, і бути в змозі припинити, якщо це не покращить продуктивність)

— Роберт де Грааф

9

Як частина алгоритму для вивчення суто прогнозної моделі, вибір змінних не обов'язково є поганим з точки зору продуктивності, а також не є автоматично небезпечним. Однак є деякі проблеми, про які слід пам’ятати.

Щоб зробити питання більш конкретним, розглянемо задачу лінійної регресії з для , а і є -вимірними векторами змінні та параметри відповідно. Завдання полягає в тому, щоб знайти гарне наближення функції що є прогнозом заданого . Цього можна досягти шляхом оцінки

E (Y_{i} ∣ X_{i}) = X_{i}^{T} β

$E(Y_i \mid X_i) = X_i^T \beta$

i = 1, \dots, N

$i = 1, \ldots, N$

X_{i}

$X_i$

β

$\beta$

p

$p$

x \mapsto E (Y ∣ X = x) = X^{T} β,

$x \mapsto E(Y \mid X = x) = X^T \beta,$

Y

$Y$

X = x

$X = x$

β

$\beta$ з використанням комбінацій змінного вибору та мінімізації функції збитків з покаранням або без нього. Можуть також використовуватися методи усереднення моделей або байєсівські методи, але зупинимось на передбаченні однієї моделі.

Покрокові алгоритми вибору , такі як вибір прямої та зворотної змінної, можна розглядати як приблизні спроби вирішити найкращу задачу вибору підмножини, що обчислювально важко (настільки важко, що поліпшення обчислювальної потужності мало має значення). Інтерес полягає у пошуку для кожного найкращої (або принаймні хорошої) моделі з змінними. Згодом ми можемо оптимізувати більше . $k = 1, \ldots, \min(N, p)$ $k$ $k$

Небезпека при такій змінної процедурі відбору є те , що багато стандартними розподільними результати є недійсними умовно на виборі змінного. Це стосується стандартних тестів та довірчих інтервалів, і є однією з проблем, про які Гаррелл [2] попереджає. Брейман також попереджений про вибір моделі на основі , наприклад , мальви в The Little Bootstrap ... . C_p або AIC з цього приводу не враховують вибір моделі, і вони даватимуть надто оптимістичні помилки прогнозування. $C_p$ $C_p$

Однак перехресна перевірка може бути використана для оцінки похибки прогнозування та для вибору , а вибір змінної може досягти гарного балансу між ухилом та дисперсією. Це особливо вірно, якщо має кілька великих координат з рештою, близькою до нуля як згадує @probabilityislogic. $k$ $\beta$ $-$

Методи усадки, такі як регресія хребта та ласо, дозволяють досягти хорошого компромісу між зміщенням та дисперсією без явного вибору змінної. Однак, як зазначає ОП, ласо робить неявний вибір змінних. Це насправді не модель, а метод підгонки до моделі, який робить змінний вибір. З цього погляду вибір змінних (неявний або явний) є просто частиною методу пристосування моделі до даних, і її слід розглядати як таку.

Алгоритми для обчислення оцінок ласо можуть бути вигідними від вибору змінної (або скринінгу). У розділі 5.10 у « Статистичному навчанні з рідкістю»: «Лассо та узагальнення» було описано, наскільки glmnetкорисний скринінг, який реалізовано в програмі . Це може призвести до істотно швидшого обчислення лассо-оцінки.

Один особистий досвід - із прикладу, коли вибір змінних дав можливість встановити більш складну модель (узагальнену модель добавок) з використанням вибраних змінних. Результати перехресної перевірки вказували на те, що ця модель перевершує ряд альтернатив хоча і не випадковий ліс. Якби гамзел був навколо який інтегрує узагальнені моделі добавок із змінним вибором я, можливо, міг би також спробувати його. $-$ $-$ $-$

Редагувати: Оскільки я написав цю відповідь, там було написано документ про конкретну програму, яку я мав на увазі. R-код для відтворення результатів у роботі є.

Підводячи підсумок, я скажу, що вибір змінної (в тій чи іншій формі) є і залишатиметься корисним навіть для чисто передбачувальних цілей як спосіб контролювати компроміс-зміну. Якщо не з інших причин, то хоча б тому, що складніші моделі можуть не в змозі обробити дуже велику кількість змінних поза межами коробки. Однак з часом ми, природно, побачимо такі події, як гейзель, який інтегрує вибір змінних у методологію оцінки. $-$ $-$

Звичайно, завжди важливо, щоб ми вважали вибір змінної частиною методу оцінки. Небезпека вважати, що вибір змінних виконує функцію оракул і визначає правильний набір змінних. Якщо ми вважаємо це і продовжуємо так, ніби змінні не були обрані на основі даних, то ми ризикуємо помилитися.

— NRH
джерело

1

Мені не зрозуміло, наскільки змінний вибір дозволив помістити більш складну модель. За допомогою змінного вибору ви все ще оцінюєте таку ж велику кількість параметрів; ви просто оцінюєте деякі з них як нуль. Стабільність умовної моделі, встановленої після вибору змінної, може бути міражем.

— Френк Харрелл

1

@Harrell, в конкретному прикладі вибір змінної здійснювався за допомогою ласо в поєднанні з вибором стабільності в моделі, де всі змінні введені лінійно. Потім була встановлена гра з використанням вибраних змінних. Я повністю погоджуюся, що вибір змінної просто оцінює деякі параметри до нуля, а додаток зробив саме це в ігровій моделі двоступеневою процедурою. Я впевнений, що гейзел забезпечує більш системний підхід. Моя думка полягала в тому, що без такого підходу мінливий вибір може бути корисним ярликом.

— NRH

1

Використання непеналізованого методу для повторного пристосування змінних, вибраних на попередній фазі пеналізації, не є доцільним. Це було б істотно упереджено. І неперевірений вибір змінної не є хорошим ярликом.

— Френк Харрелл

1

Вибір стійкості більш консервативний, ніж вибір змінних за допомогою ласо та повторного пристосування без штрафу. Останнє, як очікується, не дуже добре працювало з прогнозної точки зору (як міра за допомогою перехресної перевірки). Коли я за допомогою перехресної перевірки в конкретному випадку виявляю, що вибір змінної + gam дає кращу прогнозовану ефективність, ніж оцінювач гребеня або ласо, то це мій показник, чи є процедура хороша.

— NRH

1

Будь ласка, визначте "вибір стабільності". І повторна підгонка без штрафу є антиконсервативною.

— Френк Харрелл

4

Дозвольте мені прокоментувати твердження: "... пристосування k параметрів до n <k спостережень просто не відбудеться".

У хіміометрії нас часто цікавлять прогнозні моделі, і ситуація k >> n часто зустрічається (наприклад, у спектроскопічних даних). Ця проблема, як правило, вирішується просто проектуванням спостережень на нижній розмірний підпростір a, де a <n, до регресії (наприклад, регресія головного компонента). За допомогою часткової регресії найменших квадратів проекція та регресія виконуються одночасно, що сприяє якості прогнозування. Згадані методи знаходять оптимальні псевдо-обертання до (сингулярної) матриці коваріації чи кореляції, наприклад, шляхом розкладання сингулярного значення.

Досвід показує, що прогнозована продуктивність багатоваріантних моделей збільшується при видаленні шумних змінних. Тож навіть якщо ми - значущим чином - здатні оцінити k параметри, що мають лише n рівнянь (n <k), ми прагнемо до парсимонізованих моделей. Для цього стає актуальним змінне підбір, і цьому предмету присвячено багато хімічної літератури.

Незважаючи на те, що прогнозування є важливою метою, методи прогнозування водночас пропонують цінне розуміння, наприклад, моделей даних та відповідності змінних. Цьому сприяють в основному різноманітні графіки моделей, наприклад, партитури, навантаження, залишки тощо ...

Хіміометрична технологія широко застосовується, наприклад, у галузі, де надійні та точні прогнози справді враховуються.

— Карстен Райдер
джерело

3

У кількох добре відомих випадках, так, вибір змінних не потрібен. Глибоке навчання стало трохи завищеним саме з цієї причини.

Наприклад, коли згорнута нейронна мережа ( http://cs231n.github.io/convolutional-networks/ ) намагається передбачити, чи є в центрі зображення зображення людського обличчя, кути зображення, як правило, мають мінімальне прогностичне значення. Традиційне моделювання та вибір змінних змусили б моделера видалити кутові пікселі як предиктори; однак закручена нейронна мережа досить розумна, щоб по суті автоматично відкинути ці прогнози. Це справедливо для більшості моделей глибокого навчання, які намагаються передбачити наявність якогось предмета на зображенні (наприклад, автомобілі з самостійним проїздом, "прогнозуючи" розмітку смуги, перешкоди чи інші машини в рамках бортового потокового відео).

Глибоке навчання, ймовірно, є надмірним для багатьох традиційних проблем, наприклад, коли набори даних невеликі або де знань про домен достатньо, тому традиційний вибір змінних, ймовірно, залишатиметься актуальним протягом тривалого часу, принаймні в деяких областях. Тим не менше, глибоке навчання чудово, коли ви хочете зібрати разом "досить гарне" рішення з мінімальним втручанням людини. Можливо, мені знадобиться багато годин для ручної роботи та вибору передбачувачів для розпізнавання рукописних цифр у зображеннях, але за допомогою зведеної нейромережі та нульового вибору змінної я можу мати сучасну модель трохи менше 20 хвилин за допомогою Google TensorFlow ( https://www.tensorflow.org/versions/r0.8/tutorials/mnist/pros/index.html ).

— Райан Зотті
джерело

3

Мені дуже подобається ця перспектива DL. У програмі Computer Vision матриці даних, з якими ви стикаєтесь, - це сплющені двовимірні зображення, де значення певного стовпця залежить від спостереження. Наприклад, піксель 147 може бути обличчям кота на зображенні № 27, але це фонова стінка на зображенні № 42. Отже, вибір функцій, як ми знаємо, невдало закінчиться. Ось чому ConvNet настільки потужний, оскільки має вбудовану поступальну / обертальну інваріантність.

— horaceT