Статистика та великі дані dataset

3

Чи повинен вибір функції проводитися лише на даних про навчання (або на всіх даних)?

Чи повинен підбір функції проводитись лише на даних про навчання (або всіх даних)? Я пройшов деякі дискусії та документи, такі як Гайон (2003) та Сінгхі та Лю (2006) , але все ще не впевнений у правильній відповіді. Моя установка експерименту така: Набір даних: 50 здорових груп контролю та 50 пацієнтів …

10 dataset cross-validation experiment-design feature-selection

3

Який найефективніший спосіб навчання даних з використанням найменшої пам'яті?

Це мої дані про навчання: 200 000 Приклади х 10 000 Особливості. Тож моя матриця даних про навчання - 200 000 х 10 000. Мені вдалося зберегти це у плоскому файлі без проблем із пам'яттю, зберігаючи кожен набір даних один за одним (один приклад за іншим), оскільки я генерую функції …

10 machine-learning dataset algorithms python

3

Статистична освіта дітей у різних країнах?

Мені цікаво дізнатися, на якому рівні статистики діти навчаються в різних країнах світу. Чи можете ви запропонувати запропонувати дані / посилання, які проливають світло на те, що відбувається у зв'язку з цим? Почну. Ізраїль: Студенти, які більше або менше вивчають математику, - середня, sd, гістограма, нормальний розподіл, дуже основна ймовірність.

10 dataset teaching

3

Використання регресії для проектування поза діапазоном даних нормально? ніколи добре? іноді гаразд?

Які ваші думки щодо використання регресії для проектування поза діапазоном даних? Якщо ми впевнені, що вона відповідає лінійній або силовій моделі моделі, чи не могла вона бути корисною поза діапазоном даних? Наприклад, у мене є обсяг, керований ціною. Ми повинні мати можливість проектувати ціни за межами діапазону даних, на який …

10 regression dataset linear-model

2

Що таке букетизація?

Я ходив довкола, щоб знайти чітке пояснення "букетизації" в машинному навчанні без удачі. Що я розумію поки що, букетизація схожа на квантування в цифровій обробці сигналів, коли діапазон нескінченних значень замінюється одним дискретним значенням. Це правильно? Які плюси і мінуси (крім очевидного впливу втрати інформації) застосування букетізації? Чи є якісь …

10 machine-learning dataset data-preprocessing

2

Максимальний та закритий частий - відповідь включена

Му гa t a s e t :My dataset:My \ \ dataset: 1 : А , В , С, Е1:A,B,C,E1: A,B,C,E 2 : А , С, D , E2:A,C,D,E2:A,C,D,E 3 : Б , С , Е3: B,C,E3:\ \ \ \ \ B,C,E 4 : А , С, D , E4:A,C,D,E4:A,C,D,E …

10 data-mining dataset association-rules

2

Навчання за реляційними даними

Налаштування Багато алгоритмів працюють на одному відношенні або таблиці, в той час як багато реальних баз даних зберігають інформацію в декількох таблицях (Domingos, 2003). Запитання Які види алгоритмів добре навчаються з декількох (реляційних) таблиць. Зокрема, мене цікавлять алгоритми, застосовні до задач регресії та класифікації (не орієнтовані на мережевий аналіз, наприклад, …

9 regression machine-learning classification dataset

1

Як порівняти спостережувані та очікувані події?

Припустимо, у мене є один зразок частоти 4 можливих подій: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 і я маю очікувані ймовірності моїх подій: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 За допомогою суми спостережуваних частот моїх чотирьох подій (18) …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

2

Де я можу знайти набори даних корисні для тестування власних реалізацій машинного навчання? [зачинено]

Зачинено. Це питання поза темою . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для перехресної перевірки. Закрито 6 років тому . Зараз я намагаюся самостійно реалізувати деякі алгоритми машинного навчання. Багато хто з них має противною властивістю бути важкою налагодження, деякі помилки не …

9 dataset

1

Як кількісно оцінити статистичну незначущість?

Я відносно новачок статистики і розумію, що моє запитання може бути повністю неправильним. Я тестую власний алгоритм проти іншого. Хоча результати не є однаковими, я хочу показати, що відмінності "статистично незначні". Як я можу це кількісно оцінити, щоб зробити свою думку?

9 correlation statistical-significance dataset

4

Як боротися з розривами / NaN в даних часових рядів при використанні Matlab для автокореляції та нейронних мереж?

У мене є часовий ряд вимірювань (висоти - одновимірний ряд). У період спостереження процес вимірювання за деякий час знижувався. Таким чином, отримані дані є вектором з NaN, де у даних були прогалини. Використовуючи MATLAB, це викликає у мене проблеми при обчисленні автокореляції ( autocorr) та застосуванні нейронних мереж ( nnstart). …

9 time-series dataset matlab autocorrelation missing-data

7

Шукаємо 2D штучні дані для демонстрації властивостей алгоритмів кластеризації

Я шукаю набори даних з двомірних точок даних (кожна точка даних є вектором двох значень (x, y)) за різними розподілами та формами. Код для створення таких даних також буде корисним. Я хочу використовувати їх для побудови / візуалізації ефективності роботи деяких алгоритмів кластеризації. Ось кілька прикладів: зірка, як хмарні дані …

9 distributions data-visualization clustering dataset

7

Набори даних для прикладів візуалізації даних, викладання та дослідження

Я шукаю наявні набори даних, які ми можемо використовувати для тестування декількох методів дослідження даних, які ми досліджуємо. Я знаю кілька ресурсів, таких як включені до R (спробуйте plot(Orange)чи дивіться тут ). Але я хотів би зробити це на крок вперед: Які найкращі набори даних у реальному світі для тестування …

9 data-visualization dataset teaching

2

Обчисліть криву ROC для даних

Отже, у мене є 16 випробувань, в яких я намагаюся ідентифікувати людину з біометричної ознаки за допомогою дистанції Hamming. Мій поріг встановлено на 3,5. Мої дані нижче, і лише пробна версія 1 - справжнє Позитивне: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

Запитання з тегом «dataset»