Статистика та великі дані data-mining

2

Як можна групувати рядки за загальними темами?

Я намагаюся згрупувати, наприклад, рядки про програмування з іншими рядками про програмування, рядки про фізику з іншими рядками про фізику тощо, для широкого кола тем. Незважаючи на яскравий теоретичний лінгвістичний аспект проблеми, я хочу реально зробити це за допомогою програмування / програмного забезпечення. Епізод: Зважаючи на велику кількість рядків, як …

10 natural-language data-mining

3

Перший швидкий погляд на набір даних

Пробачте про моє незнання, але ... Я постійно опиняюся в ситуації, коли мені стикається з купою нових даних, які мені вдалося знайти. Ці дані зазвичай виглядають приблизно так: Date Number1 Number2 Category1 Category2 20120125 11 101 Dog Brown 20120126 21 90 Cat Black 20120126 31 134 Cat Brown (...) Зазвичай …

10 data-visualization correlation data-mining eda

1

Як я можу знайти кореляції між збоями та системними середовищами?

У вільний час я працюю над невеликою веб-системою, яка збирає звіти про збої (але не інші звіти про помилки, що не збиваються), що надсилаються з програм Delphi Windows. Для усунення несправностей користувачі хочуть мати функцію обміну даними для пошуку зв’язків між апаратними версіями або версіями операційної системи та конкретною помилкою …

10 data-mining

1

Задокументовані / відтворювані приклади успішних реальних застосувань економетричних методів?

Це питання може звучати дуже широко, але ось що я шукаю. Я знаю, що існує багато чудових книг про економетричні методи, і багато чудових статей про економетричні методи. Існують навіть відмінні відтворювані приклади економетрики, як описано в цьому перекладеному питанні . Насправді приклади в цьому питанні дуже близькі до того, …

10 r machine-learning forecasting data-mining econometrics

2

Чим відрізняється функціональний аналіз даних від високомірного аналізу даних

У статистичній літературі є багато посилань на " функціональні дані " (тобто дані, які є кривими), і паралельно на " дані високих розмірів " (тобто, коли дані є великомірними векторами). Моє запитання - про різницю між двома типами даних. Коли ми говоримо про застосовані статистичні методології, які застосовуються у випадку …

10 data-mining signal-processing curve-fitting wavelet

6

Сумнівне використання принципів обробки сигналів для виявлення тенденції

Я пропоную спробувати знайти тенденцію в деяких дуже галасливих довгострокових даних. Дані - це, в основному, щотижневі вимірювання чогось, що рухалося приблизно на 5 мм протягом приблизно 8 місяців. Дані складаються з точності 1 мм і дуже шумно регулярно змінюються +/- 1 або 2 мм на тиждень. Ми маємо дані …

10 time-series data-mining signal-processing trend

1

К-означає: Скільки ітерацій у практичних ситуаціях?

Я не маю досвіду в галузі видобутку даних або великих даних, тому хотілося б почути, як ви поділилися певним досвідом. Чи реально люди керують k-засобами, PAM, CLARA тощо на дійсно великому наборі даних? Або вони просто випадковим чином вибирають з нього зразок? Якщо вони просто беруть вибірку набору даних, чи …

10 clustering data-mining k-means convergence large-data

2

Максимальний та закритий частий - відповідь включена

Му гa t a s e t :My dataset:My \ \ dataset: 1 : А , В , С, Е1:A,B,C,E1: A,B,C,E 2 : А , С, D , E2:A,C,D,E2:A,C,D,E 3 : Б , С , Е3: B,C,E3:\ \ \ \ \ B,C,E 4 : А , С, D , E4:A,C,D,E4:A,C,D,E …

10 data-mining dataset association-rules

1

R лінійна регресія, категоріальна змінна значення «приховане»

Це лише приклад, на який я зустрічався кілька разів, тому у мене немає даних про вибірку. Запуск лінійної регресійної моделі в R: a.lm = lm(Y ~ x1 + x2) x1є суцільною змінною. x2категоричний і має три значення, наприклад "Низький", "Середній" та "Високий". Однак вихід, отриманий R, був би на кшталт: …

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

5

Відео лекції про майнінг даних?

Я хочу навчитися майнінгу даних. Чи є якісь безкоштовні відео лекції, які глибоко пояснюють процес вилучення даних?

10 references data-mining

2

Оцінка помилки, що не входить у сумку, для підвищення?

У випадковому лісі кожне дерево вирощується паралельно на унікальній вибірці даних для завантаження. Оскільки, як очікується, кожен зразок завантаження може містити близько 63% унікальних спостережень, це залишає приблизно 37% спостережень, які можна використовувати для тестування дерева. Тепер, здається, що в Stohastic Gradient також існує аналогічна оцінці в РФ:О ОБe r …

9 machine-learning cross-validation data-mining random-forest boosting

2

Чи фіксують дерева CART взаємодії між передбачувачами?

У цьому документі стверджується, що в CART, оскільки бінарний розкол виконується по одному коваріату на кожному кроці, всі розщеплення є ортогональними, тому взаємодії між коваріатами не враховуються. Однак багато дуже серйозних посилань стверджують, навпаки, що ієрархічна структура дерева гарантує, що взаємодія між предикторами буде автоматично змодельована (наприклад, цей документ , …

9 machine-learning classification data-mining cart

1

Вибір k-значення для аналізу виявлення локального фактора (LOF)

У мене є набір тривимірних даних, і я намагаюся використовувати аналіз локального фактора Outlier, щоб визначити найбільш унікальні або дивні значення. Як можна вирішити k-значення, яке потрібно використовувати в аналізі LOF? Я розумію, що визначає значення k, і тому я не здивований, що я бачу дещо інші результати за допомогою …

9 data-mining outliers

1

Використання інструментів для видобутку тексту / природної мови для економетрики

Я не впевнений, чи повністю це питання тут підходить, якщо ні, видаліть. Я студент економіки. Для проекту, який досліджує проблеми соціального страхування, я маю доступ до великої кількості звітів про адміністративні справи (> 200 тис.), Які стосуються оцінки відповідності. Ці звіти, можливо, можуть бути пов'язані з окремою адміністративною інформацією. Я …

9 machine-learning data-mining econometrics text-mining natural-language

5

Чи допомагає попереднє кластерування побудувати кращу модель прогнозування?

Для завдання моделювання збивання я розглядав: Обчисліть k кластери для даних Побудуйте k моделі для кожного кластеру окремо. Обґрунтуванням цього є те, що немає чого доводити, що популяція субрибелів є однорідною, тому розумно вважати, що процес генерації даних може бути різним для різних "груп" Моє запитання, чи це відповідний метод? …

9 machine-learning clustering data-mining predictive-models

Запитання з тегом «data-mining»