Запитання з тегом «feature-selection»

Методи та принципи вибору підмножини атрибутів для використання в подальшому моделюванні

5
Чи потрібно ще робити вибір функції під час використання алгоритмів регуляризації?
У мене є одне питання щодо необхідності використання методів вибору функцій (значення випадкових лісів, значення важливості функції або методи вибору функцій Univariate тощо) перед запуском алгоритму статистичного навчання. Ми знаємо, щоб уникнути перевитрати, ми можемо ввести штраф за регуляризацію вагових векторів. Отже, якщо я хочу зробити лінійну регресію, то я …


2
Як має сенс робити OLS після вибору змінної LASSO?
Нещодавно я виявив, що в літературі з прикладної економетрики, коли вирішуються проблеми вибору особливостей, не рідкість виконувати LASSO з наступною регресією OLS з використанням вибраних змінних. Мені було цікаво, як можна визначити обгрунтованість такої процедури. Чи це спричинить неприємності, такі як опущені змінні? Будь-які докази, що показують, що це ефективніше, …

1
Що робити висновок із цього сюжету ласо (glmnet)
Далі наводиться графік glmnet з альфа-замовчуванням (1, отже, і ласо), використовуючи mtcarsнабір даних у R mpgяк DV та інші як змінні прогнозувальника. glmnet(as.matrix(mtcars[-1]), mtcars[,1]) Що можна зробити з цього сюжету стосовно різних змінних, особливо am, cylта wt(червоних, чорних та світло-синіх ліній)? Як би ми сформулювали висновок у звіті, який публікується? …

2
Значення категоричного предиктора в логістичній регресії
У мене виникають проблеми з інтерпретацією значень z для категоричних змінних в логістичній регресії. У наведеному нижче прикладі я маю категоричну змінну з 3 класами, і відповідно до значення z, CLASS2 може бути релевантним, а інші - ні. Але тепер що це означає? Що я міг би об'єднати інші класи …

1
Що таке "простір функцій"?
Що таке визначення "простір функцій"? Наприклад, читаючи про SVM, я читав про "відображення в просторі для функцій". Читаючи про CART, я читав про "розділення для розміщення простору". Я розумію, що відбувається, особливо для CART, але думаю, що є якесь визначення, яке я пропустив. Чи існує загальне визначення поняття "простір функцій"? …

2
Чи страждає LASSO від тих самих проблем поетапна регресія?
Покрокові алгоритмічні методи вибору змінних мають тенденцію вибирати для моделей, які зміщують більш-менш кожну оцінку в регресійних моделях ( s та їх SE, p -значення, F- статистика тощо), і приблизно так само ймовірно виключають справжні прогнози, як включають помилкові прогнози відповідно до досить зрілої імітаційної літератури.ββ\beta Чи страждає LASSO тими …

2
Швидкість, обчислювальні витрати PCA, LASSO, еластична сітка
Я намагаюся порівняти складну обчислювальну складність / швидкість оцінки трьох груп методів лінійної регресії, як це відмічено у Hastie et al. "Елементи статистичного навчання" (2-е видання), глава 3: Вибір підмножини Методи усадки Методи з використанням похідних напрямків введення (PCR, PLS) Порівняння може бути дуже приблизним, просто щоб дати деяку думку. …

1
Парадокс у виборі моделі (AIC, BIC, пояснити чи передбачити?)
Прочитавши Галіт Шмулі «Пояснити або передбачити» (2010), мене спантеличить очевидне протиріччя. Є три приміщення, Вибір моделі на основі AIC проти BIC (кінець стор. 300 - початок стор. 301): просто кажучи, AIC слід використовувати для вибору моделі, призначеної для прогнозування, тоді як BIC слід використовувати для вибору моделі для пояснення . …

4
Як обчислити кількість функцій на основі роздільної здатності зображення?
Просто покрита нелінійна Гіпотеза Ендрю Нг з Neural Netowrks, і у нас було питання множинного вибору для визначення кількості функцій для зображення дозволу 100x100 з grescale інтенсивності. І відповідь була 50 мільйонів, х10 755510710710^7 Однак раніше для 50х50 пікселів зображення сірого масштабу. кількість функцій - 50x50 (2500) Чому це було …

5
Варіативність у результатах cv.glmnet
Я використовую cv.glmnetдля пошуку прогнозів. Я використовую наступну настройку: lassoResults<-cv.glmnet(x=countDiffs,y=responseDiffs,alpha=1,nfolds=cvfold) bestlambda<-lassoResults$lambda.min results<-predict(lassoResults,s=bestlambda,type="coefficients") choicePred<-rownames(results)[which(results !=0)] Щоб переконатися, що результати відтворюються я set.seed(1). Результати дуже різняться. Я запустив такий самий код 100, щоб побачити, наскільки результативні. У 98/100 запусках завжди був обраний один конкретний предиктор (іноді просто самостійно); були вибрані інші предиктори …

3
Чи краще побудувати класифікатор багатокласового рівня, ніж кілька двійкових?
Мені потрібно класифікувати URL-адреси на категорії. Скажімо, у мене є 15 категорій, на які я планую занулювати кожну URL-адресу. Чи краще 15-ти класичний класифікатор? Де я маю 15 міток і генерую функції для кожної точки даних. Або створити 15 двійкових класифікаторів, скажімо: Movie чи Non-Movie, і використати цифри, які я …

5
Розуміння, які особливості були найважливішими для логістичної регресії
Я створив класифікатор логістичної регресії, який є дуже точним для моїх даних. Тепер я хочу краще зрозуміти, чому це так добре працює. Зокрема, я хотів би оцінити, які функції роблять найбільший внесок (які функції є найважливішими) і, в ідеалі, кількісно оцінити, наскільки кожна функція сприяє точності загальної моделі (або чогось …

3
Висновок після використання Lasso для вибору змінної
Я використовую Lasso для вибору функцій у відносно низькому розмірі (n >> p). Після встановлення моделі Лассо я хочу використовувати коваріати з ненульовими коефіцієнтами, щоб відповідати моделі без штрафних санкцій. Я роблю це, тому що хочу об'єктивних оцінок, які Лассо мені не може дати. Я також хотів би p-значень та …

1
У випадковому лісі більший чи гірший% IncMSE?
Після того, як я побудував (регресійну) випадкову лісову модель в R, виклик rf$importanceнадає мені два заходи для кожної змінної предиктора %IncMSEта IncNodePurity. Чи є інтерпретація, що змінні предиктора з меншими %IncMSEзначеннями важливіші, ніж змінні предиктора з більшими %IncMSEзначеннями? Як щодо IncNodePurity?

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.