Статистика та великі дані machine-learning

2

Вкладена перехресна перевірка - чим вона відрізняється від вибору моделі через kfold CV на навчальному наборі?

Я часто бачу людей, які говорять про перехресну перевірку 5x2 як про особливий випадок вкладеної перехресної перевірки . Я припускаю, що перше число (тут: 5) стосується кількості складок у внутрішній петлі, а друге число (тут: 2) стосується кількості складок у зовнішній петлі? Отже, чим це відрізняється від "традиційного" підбору моделі …

10 machine-learning cross-validation hyperparameter

3

Виявлення аномалії часового ряду з Python

Мені потрібно реалізувати виявлення аномалії на кількох наборах даних часових рядів. Я ніколи цього не робив і сподівався на поради. Мені дуже зручно з python, тому я вважаю за краще, щоб рішення було втілено в ньому (більшість мого коду - це python для інших частин моєї роботи). Опис даних: дані …

10 machine-learning time-series python computational-statistics anomaly-detection

3

Чому людям подобаються безперебійні дані?

Я повинен використовувати ядро квадратичного експоненціалу (SE) для регресії Гауссового процесу. Перевагами цього ядра є: 1) просте: лише 3 гіперпараметри; 2) гладка: це ядро гауссова. Чому люди так люблять «гладкість»? Я знаю, що ядро Гаусса нескінченно диференційоване, але чи це так важливо? (Будь ласка, дайте мені знати, чи є інші …

10 machine-learning

4

Чому KNN не є "модельною"?

Розділ 2.4 ESL, схоже, класифікує лінійну регресію як "засновану на моделі", оскільки вона передбачає , тоді як аналогічне наближення не вказано для k-найближчих сусідів. Але чи не обидва методи роблять припущення щодо ?f( x ) ≈ x ⋅ βf(x)≈x⋅βf(x) \approx x\cdot\betaf( х )f(x)f(x) Пізніше в 2.4 він навіть говорить: Найменші …

10 machine-learning model k-nearest-neighbour

1

Чи можуть випадкові ліси зробити набагато краще, ніж 2,8% помилки тесту на MNIST?

Я не знайшов жодної літератури щодо застосування випадкових лісів до MNIST, CIFAR, STL-10 тощо. Тому я подумав, що спробував би їх з інваріантним перестановкою MNIST. У R я спробував: randomForest(train$x, factor(train$y), test$x, factor(test$y), ntree=500) Це тривало протягом 2 годин і отримало 2,8% тестової помилки. Я також спробував scikit-learn , с …

10 r machine-learning classification random-forest scikit-learn

2

Класифікатор лише для одного класу

У простій класифікації ми маємо два класи: клас-0 та клас-1. У деяких даних у мене є лише значення для класу-1, тому жодне для класу-0. Зараз я думаю про створення моделі для моделювання даних для 1 класу. Отже, коли з'являються нові дані, ця модель застосовується до нових даних і знаходить ймовірність, …

10 machine-learning one-class

1

Які обмеження методів ядра та коли використовувати методи ядра?

Методи ядра дуже ефективні у багатьох контрольованих завданнях класифікації. Отже, які обмеження є методами ядра та коли використовувати методи ядра? Особливо в епоху даних великого масштабу, якими є досягнення ядерних методів? Яка різниця між методами ядра та навчанням з кількома примірниками? Якщо дані є 500x10000, чи 500є кількість вибірок і …

10 machine-learning kernel-trick

2

Варіантне значення випадкових Найменше негативних значень

Я запитую себе, чи є гарною ідеєю видалити ті змінні зі значенням негативної значущості змінної ("% IncMSE") в контексті регресії. І якщо це дає мені кращий прогноз? Як ти гадаєш?

10 machine-learning feature-selection random-forest importance

3

Алгоритм машинного навчання для ранжирування

У мене набір елементів XXX яку я можу описати згідно nnnхарактеристики. Таким чином: xi:{ci1,ci2,…,cin}∣xi∈Xxi:{ci1,ci2,…,cin}∣xi∈Xx_i: \{c_{i1}, c_{i2}, \ldots, c_{in}\} \mid x_i \in X де cijcijc_{ij} є (числовою) оцінкою для елемента iii за характеристиками jjj. Тому мої елементи можна розглядати як точки в аnnn розмірний простір. Згідно з моїми показаннями, існують такі …

10 machine-learning algorithms ranking feature-construction

2

Регресія Гауссова процесу для наборів даних з високими розмірами

Просто хотілося дізнатись, чи має хто-небудь досвід застосування регресії процесів Гаусса (GPR) до наборів даних високих розмірів. Я розглядаю деякі з різних розріджених методів GPR (наприклад, рідкісні псевдо входи GPR), щоб побачити, що може працювати для наборів даних високих розмірів, де ідеально підбір функції є частиною процесу вибору параметрів. Будь-які …

10 machine-learning predictive-models large-data gaussian-process

1

R лінійна регресія, категоріальна змінна значення «приховане»

Це лише приклад, на який я зустрічався кілька разів, тому у мене немає даних про вибірку. Запуск лінійної регресійної моделі в R: a.lm = lm(Y ~ x1 + x2) x1є суцільною змінною. x2категоричний і має три значення, наприклад "Низький", "Середній" та "Високий". Однак вихід, отриманий R, був би на кшталт: …

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

1

Який тип нормалізації даних слід використовувати з KNN?

Я знаю, що існує більше двох типів нормалізації. Наприклад, 1- Трансформація даних за допомогою z-оцінка або t-оцінка. Зазвичай це називається стандартизацією. 2- Розміщення даних для значень між 0 і 1. Питання зараз, чи потрібно мені нормалізувати Який тип нормалізації даних слід використовувати з KNN? і чому?

9 machine-learning normalization standardization k-nearest-neighbour

1

Моя нейронна мережа навіть не може вивчити евклідову відстань

Тому я намагаюся навчити себе нейронних мереж (для регресійних застосувань, а не для класифікації зображень котів). Першими моїми експериментами було навчання мережі для впровадження фільтра FIR та дискретної трансформації Фур'є (тренування сигналів "до" та "після"), оскільки це обидві лінійні операції, які можуть бути реалізовані одним шаром без функції активації. Обидва …

9 machine-learning neural-networks optimization keras euclidean

3

Прогнозування декількох періодів за допомогою машинного навчання

Нещодавно я переробив свої знання в Time Series і зрозумів, що машинне навчання здебільшого дає лише на крок попереду прогнози. Під прогнозами на крок вперед я маю на увазі прогнози, які, наприклад, якщо ми маємо погодинні дані, використовують дані з 10 ранку до прогнозу 11 ранку та 11 ранку до …

9 machine-learning time-series forecasting arima

2

Чи правда, що байєсцям не потрібні тестові набори?

Нещодавно я спостерігав за цим розмовою Еріка Дж. Ма і перевіряв його запис у блозі , де він цитує Радфорда Ніла, що байєсські моделі не надмірно (але вони можуть переповнювати ), і при їх використанні нам не потрібні тестові набори для їх перевірки (для мені здається, що цитати, швидше, говорять …

9 machine-learning bayesian cross-validation deep-learning

Запитання з тегом «machine-learning»