Запитання з тегом «data-mining»

Для обміну даними використовуються методи штучного інтелекту в контексті бази даних для виявлення раніше невідомих закономірностей. Як такі, методи, як правило, не контролюються. Це тісно пов'язане, але не тотожне машинному навчанню. Основними завданнями вибору даних є кластерний аналіз, зовнішнє виявлення та розробка правил асоціації.

2
Як зробити дійсні висновки з "великих даних"?
"Великі дані" є скрізь у ЗМІ. Всі кажуть, що "великі дані" - це найбільша річ у 2012 році, наприклад, опитування KDNuggets на гарячі теми 2012 року . Однак у мене тут є глибокі занепокоєння. Маючи великі дані, всі, здається, щасливі лише отримати щось . Але чи не ми порушуємо всі …

5
Захист міри в обробці даних
Я шукав багато веб-сайтів, щоб знати, що саме буде робити? Результати, які я знайшов, стосувалися використання його в самих додатках. Я знаю про функцію підтримки та довіри. З Вікіпедії, при обробці даних, ліфтинг - це міра ефективності моделі при прогнозуванні або класифікації випадків, вимірюючи по відношенню до моделі випадкового вибору. …

5
Думайте, як байєсий, перевіряйте як частолюбиця: Що це означає?
Я дивлюся на деякі слайди лекцій з курсу інформатики, які можна знайти тут: https://github.com/cs109/2015/blob/master/Lectures/01-Introduction.pdf Я, на жаль, не можу побачити відео для цієї лекції, і в один момент на слайді ведучий має такий текст: Деякі основні принципи Думайте, як байєсий, переконайтесь, як часто лікар (примирення) Хтось знає, що це насправді …

3
Чому існує різниця між ручним обчисленням логістичної регресії 95% довірчого інтервалу та використанням функції conint () в R?
Дорогі всі - я помітив щось дивне, чого я не можу пояснити, чи не так? Підсумовуючи: ручний підхід до обчислення довірчого інтервалу в моделі логістичної регресії та функції R confint()дають різні результати. Я пережив прикладну логістичну регресію Hosmer & Lemeshow (2-е видання). У 3-й главі є приклад обчислення коефіцієнта шансів …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

6
Обмін даними: Як мені зайнятися пошуком функціональної форми?
Мені цікаво , повторюваних процедур , які можуть бути використані , щоб виявити функціональну форму функції , y = f(A, B, C) + error_termде мій єдиний вхід безліч спостережень ( y, A, Bі C). Зверніть увагу, що функціональна форма fневідома. Розглянемо наступний набір даних: AA BB CC DD EE FF …

1
Відносна змінна важливість для підвищення рівня
Я шукаю пояснення того, як обчислюється відносна змінна важливість у градієнтних підсилених деревах, що не є надто загальним / спрощеним, як: Заходи ґрунтуються на кількості вибраних змінних для розщеплення, зважених вдосконаленням у формі квадрата в результаті кожного розколу та усередненому для всіх дерев . [ Еліт та ін. 2008 р., …

1
Чи є статистичні уроки з епізоду «Біблійний кодекс»
Хоча це питання є дещо суб'єктивним, я сподіваюсь, що це кваліфікується як хороший суб'єктивне запитання згідно з настановами по faq . Він ґрунтується на питанні, яке мені задав рік тому Олле Яггстрем, і хоча у мене є деякі думки з цього приводу, я не маю однозначної відповіді, і я буду …

8
Які математичні предмети ви б запропонували підготувати до видобутку даних та машинного навчання?
Я намагаюся скласти самостійну навчальну програму з математики для підготовки до вивчення даних та машинного навчання. Це мотивовано початком уроку машинного навчання Ендрю Нг на Coursera і відчуттям, що перед тим, як продовжувати, мені потрібно вдосконалити свої навички математики. Нещодавно я закінчив коледж, тому моя алгебра та статистика (конкретно на …

2
Чому p-значення вводять в оману після поетапного вибору?
Розглянемо, наприклад, модель лінійної регресії. Я чув, що при обробці даних після поетапного відбору, заснованого на критерії AIC, оманливим є перегляд p-значень для перевірки нульової гіпотези про те, що кожен справжній коефіцієнт регресії дорівнює нулю. Я чув, що слід вважати, що всі змінні, залишені в моделі, мають справжній коефіцієнт регресії, …

1
Різниця між стандартними та сферичними алгоритмами k-означає
Я хотів би зрозуміти, в чому полягає основна різниця в реалізації між стандартними та сферичними алгоритмами кластеризації к-засобів. На кожному кроці k-означає обчислює відстані між елементами векторів і центроїдами кластера і переназначає документ цьому кластеру, центроїд якого найближчий. Потім всі центроїди перераховуються. У сферичних k-засобах всі вектори нормалізуються, а міра …

9
Програмні засоби для статистики та обміну даними для роботи з великими наборами даних
В даний час мені доведеться проаналізувати приблизно 20 млн записів та побудувати моделі прогнозування. Поки я спробував Statistica, SPSS, RapidMiner та R. Серед цих даних Statistica, здається, є найбільш підходящим для роботи з обміном даними, і користувальницький інтерфейс RapidMiner також дуже зручний, але здається, що Statistica, RapidMiner і SPSS підходять …

7
Який розпорядок дня роботи вченого з машинного навчання?
Я студент магістерської школи в німецькому університеті, зараз пишу дисертацію. Мені закінчуться через два місяці. Я повинен прийняти дуже важке рішення, якщо продовжувати докторську чи знайти роботу в галузі. Мої причини доктора наук: Я дуже допитлива людина і відчуваю, що мені все ще не вистачає надто багато знань. Я хочу …

3
LSA проти PCA (кластеризація документів)
Я досліджую різні методи, що використовуються в кластеризації документів, і я хотів би усунути деякі сумніви щодо PCA (аналіз основних компонентів) та LSA (латентний семантичний аналіз). Перше - які відмінності між ними? Я знаю, що в PCA розкладання SVD застосовується до терміна-коваріаційної матриці, тоді як в LSA - матриця терміна-документа. …

3
Які міри для точності багатозначних даних?
Розглянемо сценарій, коли вам надаються матриця K PoznaLabel і матриця PredictedLabel. Я хотів би виміряти добротність матриці PredictedLabel щодо матриці KknownLabel. Але проблема тут полягає в тому, що у матриці K knownLabel є кілька рядків, лише один 1, а інші кілька рядків мають багато 1 (ці екземпляри мають багато міток). …


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.