Статистика та великі дані machine-learning

3

Я розробив доказову систему концепції розпізнавання звуку за допомогою mfcc та прихованих моделей markov. Це дає перспективні результати, коли я тестую систему на відомі звуки. Хоча система, коли вводиться невідомий звук, повертає результат з найбільшою відповідністю, і оцінка не є такою чіткою для розробки, що це невідомий звук, наприклад: Я …

14 machine-learning hidden-markov-model pattern-recognition

2

Робота з наборами даних зі змінною кількістю функцій

Які існують деякі підходи до класифікації даних із змінною кількістю функцій? Як приклад, розглянемо проблему, коли кожна точка даних є вектором x і y точок, а у нас немає однакової кількості точок для кожного екземпляра. Чи можемо ми розглядати кожну пару точок x і y як особливість? Або ми повинні …

14 machine-learning missing-data

3

Що можна розповісти школяреві про статистику та машинне навчання?

Наступного тижня у нас є стажист із місцевої школи. Концепція його короткого стажування полягає в тому, щоб отримати уявлення про те, як працює реальний світ і якими певними роботами займаються, як виглядає щоденна робота тощо. Тепер я поцікавився, що можна розповісти / показати / продемонструвати такому маленькому малюкові про статистику …

14 machine-learning teaching

2

Кодування категоричних ознак до чисел для машинного навчання

Багато алгоритмів машинного навчання, наприклад нейронні мережі, розраховують мати справу з числами. Отже, коли у вас є категоричні дані, вам потрібно їх перетворити. Під категоричністю я маю на увазі, наприклад: Марки автомобілів: Audi, BMW, Chevrolet ... Ідентифікатори користувачів: 1, 25, 26, 28 ... Незважаючи на те, що ідентифікаційні дані користувачів …

14 machine-learning many-categories

1

Чи відрізняється максимізація точності, коли надмірна / недостатня вибірка неврівноважених класів відрізняється від мінімізації витрат на помилкову класифікацію?

Перш за все, я хотів би описати деякі загальні схеми, якими користуються книги Data Mining, що пояснюють, як поводитися з незбалансованими наборами даних . Зазвичай основний розділ має назву Незбалансовані набори даних, і вони охоплюють ці два підрозділи: Методи класифікації та вибірки, що чутливі до витрат. Схоже, що, зіткнувшись з …

14 machine-learning classification unbalanced-classes

8

Які "гарячі алгоритми" для машинного навчання?

Це наївне питання того, хто починає вивчати машинне навчання. Я читаю в наші дні книгу "Машинне навчання: алгоритмічна перспектива" від Marsland. Я вважаю це корисним як вступна книга, але зараз я хотів би перейти до вдосконалених алгоритмів, тих, які в даний час дають найкращі результати. Мене найбільше цікавить біоінформатика: кластеризація …

14 machine-learning clustering bioinformatics

1

Інтерпретація відстані від гіперплану в SVM

У мене є кілька сумнівів у розумінні SVM інтуїтивно. Припустимо, ми навчили модель SVM для класифікації, використовуючи стандартний інструмент, наприклад SVMLight або LibSVM. Коли ми використовуємо цю модель для прогнозування тестових даних, модель генерує файл із значеннями "альфа" для кожної точки тестування. Якщо значення альфа позитивне, тестова точка належить до …

14 machine-learning svm max-margin

1

Коли хочеться використовувати AdaBoost?

Коли я чув про класифікатор AdaBoost, який неодноразово згадувався на роботі, я хотів краще зрозуміти, як він працює і коли можна захотіти ним користуватися. Я пішов вперед і прочитав низку робіт та навчальних посібників, які я знайшов в Google, але є такі аспекти класифікатора, які я все ще не можу …

14 machine-learning boosting adaboost

2

Впорядкування часових рядів для машинного навчання

Прочитавши один із "порад щодо досліджень" Р. Дж. Хайндмана про перехресну перевірку та часові ряди, я повернувся до старого мого питання, яке я спробую сформулювати тут. Ідея полягає в тому, що при проблемах класифікації чи регресії впорядкування даних не має важливого значення, і, отже, може бути використана k- кратна перехресна …

14 time-series machine-learning cross-validation

2

Чому оцінка випадкової помилки OOB в лісовій галузі покращується, коли кількість вибраних функцій зменшується?

Я застосовую алгоритм випадкового лісу як класифікатор до набору даних мікромасив, які розділені на дві відомі групи з 1000-ма функціями. Після початкового запуску я переглядаю важливість функцій і знову запускаю алгоритм дерева з 5, 10 та 20 найважливішими функціями. Я вважаю, що для всіх функцій, топ-10 та 20, показник помилок …

14 r machine-learning classification random-forest

1

Чим ніжне прискорення відрізняється від AdaBoost?

Існує варіант прискорення, який називається gentleboost . Чим ніжне прискорення відрізняється від більш відомого AdaBoost ?

14 machine-learning boosting

1

Caret glmnet vs cv.glmnet

Здається, існує велика плутанина в порівнянні використання glmnetв рамках caretпошуку оптимальної лямбда та використання cv.glmnetтого ж завдання. Поставлено багато питань, наприклад: Класифікаційна модель train.glmnet vs. cv.glmnet? Який правильний спосіб використання glmnet з каретою? Перехресне підтвердження `glmnet` за допомогою` caret` але відповіді не надано, що може бути пов'язано з відтворюваністю питання. …

14 r caret glmnet machine-learning neural-networks maximum softmax probability distributions mathematical-statistics random-variable cdf statistical-significance variance expected-value ratio sample-size reliability tolerance-interval wilcoxon-signed-rank self-study variance sampling mean machine-learning svm libsvm self-study sampling ranks data-visualization histogram machine-learning classification normal-distribution mathematical-statistics maximum-likelihood mixture predictive-models prediction seasonality

4

Інтервали прогнозування алгоритмів машинного навчання

Я хочу знати, чи описаний нижче процес є дійсним / прийнятним та чи є доступне обґрунтування. Ідея: контрольовані алгоритми навчання не передбачають базових структур / розподілів даних. Наприкінці дня вони виводять оціночні показники. Я сподіваюся якось кількісно оцінити невизначеність оцінок. Тепер процес побудови моделі ML є по своїй суті випадковим …

14 machine-learning confidence-interval bootstrap supervised-learning gbm

3

Як моделювати поздовжні великі дані?

Традиційно ми використовуємо змішану модель для моделювання поздовжніх даних, тобто таких даних, як: id obs age treatment_lvl yield 1 0 11 M 0.2 1 1 11.5 M 0.5 1 2 12 L 0.6 2 0 17 H 1.2 2 1 18 M 0.9 ми можемо припустити випадковий перехоплення або нахил …

14 machine-learning data-transformation random-forest panel-data large-data

1

GAM vs LOESS проти сплайнів

Контекст : Я хочу , щоб намалювати лінію в діаграмі розсіювання , що не виникає параметрическими, тому я використовую geom_smooth()в ggplotв R. Він автоматично повертається, geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to …

14 r gam splines loess r data-visualization boxplot mathematical-statistics theory sufficient-statistics machine-learning classification correlation svm feature-selection probability stochastic-processes machine-learning reinforcement-learning

Запитання з тегом «machine-learning»