Статистика та великі дані data-mining

2

Як зробити дійсні висновки з "великих даних"?

"Великі дані" є скрізь у ЗМІ. Всі кажуть, що "великі дані" - це найбільша річ у 2012 році, наприклад, опитування KDNuggets на гарячі теми 2012 року . Однак у мене тут є глибокі занепокоєння. Маючи великі дані, всі, здається, щасливі лише отримати щось . Але чи не ми порушуємо всі …

40 data-mining dataset large-data validation

5

Захист міри в обробці даних

Я шукав багато веб-сайтів, щоб знати, що саме буде робити? Результати, які я знайшов, стосувалися використання його в самих додатках. Я знаю про функцію підтримки та довіри. З Вікіпедії, при обробці даних, ліфтинг - це міра ефективності моделі при прогнозуванні або класифікації випадків, вимірюючи по відношенню до моделі випадкового вибору. …

36 data-mining

5

Думайте, як байєсий, перевіряйте як частолюбиця: Що це означає?

Я дивлюся на деякі слайди лекцій з курсу інформатики, які можна знайти тут: https://github.com/cs109/2015/blob/master/Lectures/01-Introduction.pdf Я, на жаль, не можу побачити відео для цієї лекції, і в один момент на слайді ведучий має такий текст: Деякі основні принципи Думайте, як байєсий, переконайтесь, як часто лікар (примирення) Хтось знає, що це насправді …

35 bayesian data-mining frequentist

3

Чому існує різниця між ручним обчисленням логістичної регресії 95% довірчого інтервалу та використанням функції conint () в R?

Дорогі всі - я помітив щось дивне, чого я не можу пояснити, чи не так? Підсумовуючи: ручний підхід до обчислення довірчого інтервалу в моделі логістичної регресії та функції R confint()дають різні результати. Я пережив прикладну логістичну регресію Hosmer & Lemeshow (2-е видання). У 3-й главі є приклад обчислення коефіцієнта шансів …

34 r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

6

Обмін даними: Як мені зайнятися пошуком функціональної форми?

Мені цікаво , повторюваних процедур , які можуть бути використані , щоб виявити функціональну форму функції , y = f(A, B, C) + error_termде мій єдиний вхід безліч спостережень ( y, A, Bі C). Зверніть увагу, що функціональна форма fневідома. Розглянемо наступний набір даних: AA BB CC DD EE FF …

34 regression machine-learning algorithms model-selection data-mining

1

Відносна змінна важливість для підвищення рівня

Я шукаю пояснення того, як обчислюється відносна змінна важливість у градієнтних підсилених деревах, що не є надто загальним / спрощеним, як: Заходи ґрунтуються на кількості вибраних змінних для розщеплення, зважених вдосконаленням у формі квадрата в результаті кожного розколу та усередненому для всіх дерев . [ Еліт та ін. 2008 р., …

33 machine-learning data-mining predictive-models cart boosting

1

Чи є статистичні уроки з епізоду «Біблійний кодекс»

Хоча це питання є дещо суб'єктивним, я сподіваюсь, що це кваліфікується як хороший суб'єктивне запитання згідно з настановами по faq . Він ґрунтується на питанні, яке мені задав рік тому Олле Яггстрем, і хоча у мене є деякі думки з цього приводу, я не маю однозначної відповіді, і я буду …

31 hypothesis-testing data-mining

8

Які математичні предмети ви б запропонували підготувати до видобутку даних та машинного навчання?

Я намагаюся скласти самостійну навчальну програму з математики для підготовки до вивчення даних та машинного навчання. Це мотивовано початком уроку машинного навчання Ендрю Нг на Coursera і відчуттям, що перед тим, як продовжувати, мені потрібно вдосконалити свої навички математики. Нещодавно я закінчив коледж, тому моя алгебра та статистика (конкретно на …

30 machine-learning references data-mining

2

Чому p-значення вводять в оману після поетапного вибору?

Розглянемо, наприклад, модель лінійної регресії. Я чув, що при обробці даних після поетапного відбору, заснованого на критерії AIC, оманливим є перегляд p-значень для перевірки нульової гіпотези про те, що кожен справжній коефіцієнт регресії дорівнює нулю. Я чув, що слід вважати, що всі змінні, залишені в моделі, мають справжній коефіцієнт регресії, …

28 multiple-regression predictive-models data-mining stepwise-regression

1

Різниця між стандартними та сферичними алгоритмами k-означає

Я хотів би зрозуміти, в чому полягає основна різниця в реалізації між стандартними та сферичними алгоритмами кластеризації к-засобів. На кожному кроці k-означає обчислює відстані між елементами векторів і центроїдами кластера і переназначає документ цьому кластеру, центроїд якого найближчий. Потім всі центроїди перераховуються. У сферичних k-засобах всі вектори нормалізуються, а міра …

28 clustering data-mining algorithms k-means

9

Програмні засоби для статистики та обміну даними для роботи з великими наборами даних

В даний час мені доведеться проаналізувати приблизно 20 млн записів та побудувати моделі прогнозування. Поки я спробував Statistica, SPSS, RapidMiner та R. Серед цих даних Statistica, здається, є найбільш підходящим для роботи з обміном даними, і користувальницький інтерфейс RapidMiner також дуже зручний, але здається, що Statistica, RapidMiner і SPSS підходять …

27 large-data software data-mining

7

Який розпорядок дня роботи вченого з машинного навчання?

Я студент магістерської школи в німецькому університеті, зараз пишу дисертацію. Мені закінчуться через два місяці. Я повинен прийняти дуже важке рішення, якщо продовжувати докторську чи знайти роботу в галузі. Мої причини доктора наук: Я дуже допитлива людина і відчуваю, що мені все ще не вистачає надто багато знань. Я хочу …

25 machine-learning data-mining careers

3

LSA проти PCA (кластеризація документів)

Я досліджую різні методи, що використовуються в кластеризації документів, і я хотів би усунути деякі сумніви щодо PCA (аналіз основних компонентів) та LSA (латентний семантичний аналіз). Перше - які відмінності між ними? Я знаю, що в PCA розкладання SVD застосовується до терміна-коваріаційної матриці, тоді як в LSA - матриця терміна-документа. …

25 clustering pca data-mining svd lsa

3

Які міри для точності багатозначних даних?

Розглянемо сценарій, коли вам надаються матриця K PoznaLabel і матриця PredictedLabel. Я хотів би виміряти добротність матриці PredictedLabel щодо матриці KknownLabel. Але проблема тут полягає в тому, що у матриці K knownLabel є кілька рядків, лише один 1, а інші кілька рядків мають багато 1 (ці екземпляри мають багато міток). …

25 machine-learning data-mining multilabel

2

Чим відрізняється функція втрати від функції прийняття рішень?

Я бачу, що обидві функції є частиною методів видобутку даних, таких як градієнтні бустерні регресори. Я бачу, що це теж окремі об’єкти. Якими є взаємини між обома загалом?

23 regression classification data-mining decision-theory

Запитання з тегом «data-mining»