Запитання з тегом «feature-selection»

Методи та принципи вибору підмножини атрибутів для використання в подальшому моделюванні


7
Вибір змінних для включення в модель множинної лінійної регресії
В даний час я працюю над створенням моделі з використанням множинної лінійної регресії. Після познайомлення зі своєю моделлю я не знаю, як найкраще визначити, які змінні зберігати, а які видалити. Моя модель розпочалася з 10 прогнозів для DV. При використанні всіх 10 предикторів чотири вважалися значущими. Якщо я видалю лише …


5
Виявлення значних прогнозів з багатьох незалежних змінних
У наборі даних про дві групи, що не перетинаються (пацієнти та здорові, загальна ), я хотів би знайти (із незалежних змінних) значних прогнозів для постійної залежної змінної. Кореляція між предикторами є. Мені цікаво з'ясувати, чи пов’язаний будь-який з предикторів із залежною змінною "насправді" (а не прогнозувати залежну змінну якомога точніше). …

3
Чому необхідний вибір змінних?
Загальні процедури вибору змінних на основі даних (наприклад, вперед, назад, поетапно, всі підмножини), як правило, дають моделі з небажаними властивостями, включаючи: Коефіцієнти відхиляються від нуля. Стандартні помилки, які занадто малі, і довірчі інтервали, які занадто вузькі. Статистика тестів та p-значень, які не мають рекламованого значення. Оцінки відповідності моделі, які надмірно …

6
Змінна процедура вибору для двійкової класифікації
Який вибір змінної / ознак, який ви віддаєте перевагу для двійкової класифікації, коли в навчальному наборі є набагато більше змінних / ознак, ніж спостереження? Метою тут є обговорення того, яка процедура вибору ознак дозволяє зменшити найкращу помилку класифікації. Ми можемо виправити позначення на послідовність: для , нехай є навчальним набором …

3
Як боротися з мультиколінеарністю при виконанні варіативного вибору?
У мене є набір даних з 9 безперервними незалежними змінними. Я намагаюся вибрати серед цих змінних , щоб відповідати моделі до одного відсотка ( в залежності) змінної Score. На жаль, я знаю, що між декількома змінними буде серйозна колінеарність. Я намагався використовувати stepAIC()функцію в R для вибору змінної, але цей …

1
Чи може ступінь свободи бути цілим числом?
Коли я використовую GAM, це дає мені залишковий коефіцієнт DF (останній рядок у коді). Що це означає? Виходячи за приклад GAM, загалом, чи може число ступенів свободи бути нецілим числом?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

5
Що може призвести до того, що PCA погіршить результати класифікатора?
У мене є класифікатор, на якому я роблю перехресну перевірку, разом із сотнею функцій, на які я роблю вибір вперед для пошуку оптимальних комбінацій функцій. Я також порівнюю це з тими ж експериментами з PCA, де я використовую потенційні функції, застосовую SVD, перетворюю вихідні сигнали на новий простір координат і …

3
Навіщо використовувати оцінки Lasso над оцінками OLS для ідентифікованого Лассо підмножини змінних?
Для регресії Лассо припустимо, найкраще рішення (наприклад, мінімальна помилка тестування) вибирає функції, так що \ hat {\ beta} ^ {lasso} = \ ліворуч (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ {lasso}, 0, ... 0 \ праворуч) …

6
Точність тесту вища, ніж тренування. Як інтерпретувати?
У мене є набір даних, що містить щонайменше 150 прикладів (розділених на навчальні та тестові), з багатьма можливостями (вище 1000). Мені потрібно порівняти класифікатори та методи вибору функцій, які добре працюють на даних. Отже, я використовую три методи класифікації (J48, NB, SVM) та 2 методи вибору функції (CFS, WrapperSubset) з …

3
Стабільність моделі при вирішенні великої , малої проблеми
Вступ: У мене є набір даних із класичною "великою р, малою російською проблемою". Кількість доступних вибірок n = 150, тоді як кількість можливих предикторів p = 400. Результатом є суцільна змінна. Я хочу знайти найважливіші дескриптори, тобто ті, які є найкращими кандидатами для пояснення результату та допомоги в побудові теорії. …

2
Кращий підхід для вибору моделі байесівської або перехресної перевірки?
Коли я намагаюся вибрати серед різних моделей або кількість функцій, які слід включити, скажімо, передбачення, я можу придумати два підходи. Розподіліть дані на навчальні та тестові набори. Ще краще, використовуйте завантажувальну чи перехресну перевірку k-кратну кількість разів. Тренуйтеся на навчальному наборі щоразу і обчислюйте помилку над тестовим набором. Помилка тесту …


1
Чому LASSO не знаходить мою ідеальну пару передбачувачів у високій розмірності?
Я проводжу невеликий експеримент з регресією LASSO в R, щоб перевірити, чи зможе він знайти ідеальну пару передбачувачів. Пара визначається так: f1 + f2 = результат Результатом цього є заздалегідь визначений вектор, який називається "вік". F1 і f2 створюються, беручи половину вікового вектора і встановлюючи решта значень 0, наприклад: age …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.