Запитання з тегом «feature-selection»

Методи та принципи вибору підмножини атрибутів для використання в подальшому моделюванні

2
Виявлення аномалії: який алгоритм використовувати?
Контекст: Я розробляю систему, яка аналізує клінічні дані, щоб відфільтрувати неправдоподібні дані, які можуть бути помилковими. Що я робив до цього часу: Для кількісної оцінки правдоподібності моєю спробою поки що була нормалізація даних, а потім обчислення значення правдоподібності для точки p на основі її відстані до відомих точок даних у …

1
У яких реалізаціях необхідні масштабування змінних (функціональних) дерев рішень та нормалізація змінної (функції), в яких реалізаціях?
У багатьох алгоритмах машинного навчання масштабування функцій (так само змінне масштабування, нормалізація) є поширеним попереднім етапом Вікіпедії - Масштабування функцій - це питання було закритим Питання № 41704 - Як і чому працюють нормалізація та масштабування функцій? У мене є два питання, зокрема, щодо дерев рішень: Чи є реалізація дерева …

3
Чи повинен вибір функції проводитися лише на даних про навчання (або на всіх даних)?
Чи повинен підбір функції проводитись лише на даних про навчання (або всіх даних)? Я пройшов деякі дискусії та документи, такі як Гайон (2003) та Сінгхі та Лю (2006) , але все ще не впевнений у правильній відповіді. Моя установка експерименту така: Набір даних: 50 здорових груп контролю та 50 пацієнтів …

3
Вибір функцій з використанням взаємної інформації в Matlab
Я намагаюся застосувати ідею взаємної інформації до вибору функцій, як описано в цих конспектах лекцій (на сторінці 5). Моя платформа - Matlab. Одна з проблем, які я виявляю при обчисленні взаємної інформації з емпіричних даних, полягає в тому, що число завжди зміщується вгору. Я знайшов близько 3 ~ 4 різних …

1
Робота з дуже великими наборами часових рядів
У мене є доступ до дуже великого набору даних. Дані з MEG- записів людей, які слухають музичні уривки, з одного з чотирьох жанрів. Дані такі: 6 Предметів 3 Експериментальні повтори (епохи) 120 випробувань за епоху 8 секунд даних за пробу при 500 Гц (= 4000 зразків) з 275 МЕГ-каналів Отже, …

4
Чи існує спосіб використання перехресної перевірки для вибору змінної / функції в R?
У мене є набір даних з приблизно 70 змінними, які я хотів би скоротити. Що я хочу зробити, це використовувати CV для пошуку найбільш корисних змінних у наступний спосіб. 1) Випадково виберіть скажімо 20 змінних. 2) Використовуйте stepwise/ LASSO/ lars/ тощо, щоб вибрати найбільш важливі змінні. 3) Повторіть ~ 50x …

4
Поліпшення класифікації SVM діабету
Я використовую SVM для прогнозу діабету. Для цього я використовую набір даних BRFSS . Набір даних має розміри і перекошений. Відсоток s у цільовій змінній становить тоді як s складають решта .432607 × 136432607×136432607 \times 136Y11 %11%11\%N89 %89%89\% Я використовую тільки 15з 136незалежних змінних з набору даних. Однією з причин …

2
Найкращі методи вибору ознак для непараметричної регресії
Тут питання новачків. В даний час я виконую непараметричну регресію, використовуючи пакет np в Р. У мене є 7 особливостей і за допомогою підходу грубої сили я визначив найкращий 3. Але незабаром у мене буде набагато більше 7 функцій! Моє питання - які найкращі в даний час методи вибору особливостей …

1
Як кількісно оцінити надмірність функцій?
У мене є три функції, які я використовую для вирішення проблеми класифікації. Спочатку ці функції давали булеві значення, тому я міг оцінити їх надмірність, дивлячись, наскільки набори позитивних і негативних класифікацій перетинаються. Тепер я розширив можливості для отримання реальних значень (балів) замість цього, і я хотів би ще раз проаналізувати …

3
Вибір моделі Баєса і надійний інтервал
У мене є набір даних із трьома змінними, де всі змінні є кількісними. Нехай називаємо це , та . Я підганяю регресійну модель в байєсівській перспективі через MCMCуyyх1x1x_1х2x2x_2rjags Я зробив дослідницький аналіз, і розсіювання дозволяє припустити використання квадратичного терміна. Тоді я прилаштував дві моделіу×х2y×x2y\times x_2 (1)у=β0+β1∗х1+β2∗х2у=β0+β1∗х1+β2∗х2y=\beta_0+\beta_1*x_1+\beta_2*x_2 (2)у=β0+β1∗ x 1 +β2∗х2+β3∗х1х2+β4∗х21+β5∗х22у=β0+β1∗х1+β2∗х2+β3∗х1х2+β4∗х12+β5∗х22y=\beta_0+\beta_1*x1+\beta_2*x_2+\beta_3*x_1x_2+\beta_4*x_1^2+\beta_5*x_2^2 …

3
Визначення відфільтрованих функцій після вибору функцій за допомогою scikit learn
Ось мій код вибору функції в Python: from sklearn.svm import LinearSVC from sklearn.datasets import load_iris iris = load_iris() X, y = iris.data, iris.target X.shape (150, 4) X_new = LinearSVC(C=0.01, penalty="l1", dual=False).fit_transform(X, y) X_new.shape (150, 3) Але після отримання нової X (залежної змінної - X_new), як я можу знати, які змінні …


3
Як зменшити прогнози правильний шлях для логістичної регресійної моделі
Тож я читав деякі книги (або їх частини) про моделювання (Ф. Гаррелл «Стратегії моделювання регресії» серед інших), оскільки зараз у мене ситуація полягає в тому, що мені потрібно зробити логістичну модель, засновану на даних бінарних відповідей. У моєму наборі даних є як безперервні, категоричні, так і двійкові дані (предиктори). В …

3
Вибір особливостей за допомогою глибокого навчання?
Я хочу обчислити важливість кожної вхідної функції за допомогою глибокої моделі. Але я знайшов лише один документ про вибір функції за допомогою глибокого навчання - глибокого вибору функцій . Вони вставляють шар вузлів, підключених до кожної функції безпосередньо, перед першим прихованим шаром. Я чув, що мережа глибоких переконань (DBN) також …

2
Чи справді добре виконувати непідконтрольний підбір функції до перехресної перевірки?
У елементах статистичного навчання я знайшов таке твердження: Існує одна кваліфікація: початкові кроки скринінгу без нагляду можуть бути виконані до того, як зразки будуть випущені. Наприклад, ми могли вибрати 1000 предикторів з найбільшою дисперсією для всіх 50 зразків, перш ніж починати перехресну перевірку. Оскільки ця фільтрація не передбачає міток класу, …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.