Запитання з тегом «feature-selection»

Методи та принципи вибору підмножини атрибутів для використання в подальшому моделюванні

2
Вибір функцій для проблем кластеризації
Я намагаюся згрупувати різні набори даних, використовуючи непідтримувані алгоритми (кластеризація). Проблема полягає в тому, що у мене багато особливостей (~ 500) і невелика кількість справ (200-300). Поки що я займався лише проблемами з класифікацією, для яких я завжди мав дані як навчальні набори. Там я використав деякий критерій (тобто випадковий.форест.важливість …

6
Як підготувати / побудувати функції для виявлення аномалії (дані безпеки мережі)
Моя мета - проаналізувати мережеві журнали (наприклад, Apache, syslog, аудит безпеки Active Directory тощо), використовуючи кластеризацію / виявлення аномалії для виявлення вторгнень. З журналів у мене є багато текстових полів, таких як IP-адреса, ім’я користувача, ім’я хоста, порт призначення, порт джерела тощо (загалом 15-20 полів). Я не знаю, чи є …

4
Налаштування порядку відставання?
Припустимо, у мене є поздовжні дані форми Y =(Y1, … ,YJ) ∼ N( μ , Σ )Y=(Y1,…,YJ)∼N(μ,Σ)\mathbf Y = (Y_1, \ldots, Y_J) \sim \mathcal N(\mu, \Sigma)(У мене є кілька спостережень, це просто форма єдиного). Мене цікавлять обмеження щодоΣΣ\Sigma. Без обмеженьΣΣ\Sigma еквівалентно прийому Yj=αj+∑ℓ = 1j - 1ϕℓ jYj - ℓ+εjYj=αj+∑ℓ=1j−1ϕℓjYj−ℓ+εj …

1
Як порівняти спостережувані та очікувані події?
Припустимо, у мене є один зразок частоти 4 можливих подій: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 і я маю очікувані ймовірності моїх подій: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 За допомогою суми спостережуваних частот моїх чотирьох подій (18) …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
Випадкова перевірка перестановки для вибору функції
Мене бентежить аналіз перестановки для вибору особливостей у контексті логістичної регресії. Чи можете ви надати чітке пояснення тесту випадкової перестановки та як це застосовується до вибору функцій? Можливо, з точним алгоритмом та прикладами. Нарешті, як воно порівнюється з іншими методами усадки, такими як Лассо або ЛАР?

4
Як здійснити декілька пост-хо-хі-квадратних тестів на таблиці 2 X 3?
Мій набір даних складається із загальної смертності чи виживання організму на трьох типах ділянок, прибережних, середніх каналів та офшорних. Цифри в таблиці нижче представляють кількість сайтів. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Мені хотілося б дізнатися, чи кількість сайтів, де 100% смертність сталася, …

2
Чи можливо використовувати ядро ​​PCA для вибору функцій?
Чи можливо використовувати аналіз основних компонентів ядра (kPCA) для латентної семантичної індексації (LSI) так само, як використовується PCA? Я виконую LSI в R за допомогою функції prcompPCA і добуваю функції з найвищими навантаженнями з перших компонентів. Цим я отримую функції, що описують компонент найкраще.kkk Я спробував використати kpcaфункцію (з kernlibпакета), …

3
Використання серединного лаку для вибору ознак
У статті, яку я читав нещодавно, в розділі аналізу даних я натрапив на наступний біт: Далі таблицю даних розділили на тканини та клітинні лінії, а обидві підмножини були окремо відполіровані медіаною (рядки та стовпці були ітераційно відрегульовані, щоб мати медіану 0), перш ніж вони були знову об'єднані в одну таблицю. …

3
Обчислення найкращого набору предикторів для лінійної регресії
Для вибору провісників в багатовимірної лінійної регресії з відповідними провісниками, які методи доступні , щоб знайти «оптимальні» підмножина предикторов без явного тестування всіх підмножин? У "Прикладному аналізі виживання" Хосмер і Лемшоу посилаються на метод Кука, але не можу знайти оригінальний документ. Чи може хтось описати цей метод чи, ще краще, …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.