Запитання з тегом «feature-selection»

Методи та принципи вибору підмножини атрибутів для використання в подальшому моделюванні

8
Алгоритми автоматичного вибору моделі
Я хотів би реалізувати алгоритм автоматичного вибору моделі. Я думаю про поступову регресію, але все, що буде робити (він повинен базуватися на лінійних регресіях). Моя проблема полягає в тому, що я не в змозі знайти методологію чи реалізацію з відкритим кодом (я прокидаюся в Java). Я маю на увазі методологію: …

3
Приклад: регресія LASSO з використанням glmnet для двійкового результату
Я починаю балуватися з використанням glmnetз LASSO регресією , де мій результат становить інтерес дихотомический. Я створив невеликий макетний кадр даних нижче: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
Вибір функції та перехресне підтвердження
Нещодавно я багато читав на цьому веб-сайті (@Aniko, @Dikran Marsupial, @Erik) та інших місцях про проблему пристосування, що виникає з перехресною валідацією - (Smialowski et al. 2010 Біоінформатика, Хасті, Елементи статистичного навчання). Припущення полягає в тому, що будь-який підбір контрольованих функцій (використовуючи кореляцію з мітками класів), виконаний поза оцінкою продуктивності …

6
Вибір особливостей для "остаточної" моделі при виконанні перехресної перевірки в машинному навчанні
Я трохи розгублений щодо вибору функцій та машинного навчання, і мені було цікаво, чи можете ви мені допомогти. У мене є набір даних мікромасив, який класифікується на дві групи та має 1000 функцій. Моя мета - отримати невелику кількість генів (мої особливості) (10-20) у підписі, які я теоретично зможу застосувати …

3
Чому Lasso забезпечує змінний вибір?
Я читав Елементи статистичного навчання , і хотів би знати, чому Лассо забезпечує змінний вибір, а регрес хребта не робить. Обидва способи мінімізують залишкову суму квадратів і обмежують можливі значення параметрів . Для Лассо обмеження є , тоді як для хребта це , для деякого .ββ\beta||β||1≤t||β||1≤t||\beta||_1 \le t||β||2≤t||β||2≤t||\beta||_2 \le tttt …

6
Варіабельний вибір для прогнозного моделювання дійсно потрібен у 2016 році?
Це питання було задано в CV кілька років тому, але, здається, варто зробити репост з огляду на 1) на порядок кращу обчислювальну технологію (наприклад, паралельні обчислення, HPC тощо) та 2) новіші методи, наприклад [3]. По-перше, якийсь контекст. Припустимо, мета - не тестування гіпотез, не оцінка ефекту, а прогнозування на невидимому …

9
Які недоліки використання ласо для змінного вибору для регресії?
З того, що мені відомо, використання ласо для змінного вибору вирішує проблему корельованих входів. Крім того, оскільки він еквівалентний регресії з найменшим кутом, він обчислюється не повільно. Однак багато людей (наприклад, люди, яких я знаю, що займаються біостатистикою) все ще, здається, віддають перевагу поетапному або поетапному змінному вибору. Чи є …

3
Змінні часто коригуються (наприклад, стандартизовані) перед виготовленням моделі - коли це гарна ідея, а коли погана?
За яких обставин ви хочете чи не хочете масштабувати або стандартизувати змінну до монтажу моделі? І які переваги / недоліки масштабування змінної?

2
Більш чітке обговорення варіабельного вибору
Фон Я займаюся клінічними дослідженнями в медицині і пройшов кілька курсів статистики. Я ніколи не публікував папір з використанням лінійної / логістичної регресії і хотів би зробити вибір змінної правильно. Інтерпретабельність є важливою, тому немає фантазійних методик машинного навчання. Я узагальнив своє розуміння варіабельного вибору - чи хтось буде проти …

3
Використання аналізу основних компонентів (PCA) для вибору функцій
Я новачок у виборі функцій, і мені було цікаво, як ви використовуєте PCA для вибору функцій. Чи PCA обчислює відносну оцінку для кожної вхідної змінної, яку можна використовувати для фільтрації неінформативних змінних вводу? В основному, я хочу мати можливість замовити оригінальні функції в даних за відхиленням або кількістю інформації, що …

3
Чи може бути використаний випадковий ліс для вибору ознак при множинній лінійній регресії?
Оскільки РФ може обробляти нелінійність, але не може надати коефіцієнтів, чи було б розумно використовувати випадковий ліс для збору найважливіших характеристик, а потім підключити ці функції до множинної лінійної регресійної моделі для отримання їх коефіцієнтів?

6
Особливості класифікації часових рядів
Я розглядаю проблему (багатокласової) класифікації на основі часових рядів змінної довжини , тобто знайти функцію за допомогою глобального представлення серії часу набором вибраних функцій фіксованого розміру незалежно від , а потім використовувати стандартні методи класифікації для цього набору функцій. Мене не цікавить прогнозування, тобто прогнозуванняf ( X T ) = …

5
Як можна інтерпретувати SVM з вагами?
Я намагаюся інтерпретувати змінні ваги, задані встановленням лінійного SVM. (Я використовую scikit-learn ): from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ Я не можу знайти нічого в документації, яка б конкретно вказувала, як обчислюються чи тлумачаться ці ваги. Чи має ознака ваги щось спільне з класом?

5
Використання LASSO з пакету lars (або glmnet) в R для вибору змінної
Вибачте, якщо це питання стикається з невеликим принципом. Я хочу використовувати вибір змінної LASSO для множинної лінійної регресійної моделі в Р. У мене є 15 предикторів, один з яких є категоричним (це спричинить проблему?). Після встановлення і я використовую такі команди:ухxxуyy model = lars(x, y) coef(model) Моя проблема, коли я …

8
Коли слід включати змінну в регресію, незважаючи на те, що вона не є статистично значимою?
Я студент економіки з певним досвідом роботи з економетрикою та Р. Я хотів би знати, чи є колись ситуація, коли ми повинні включати змінну в регресію, незважаючи на те, що вона не є статистично значимою?

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.