Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

2
Інтерпретація сюжету (glm.model)
Чи може хто-небудь сказати мені, як інтерпретувати графіки "залишки та пристосованість", "нормальні q-q", "масштаб-розташування" та "залишки проти важеля"? Я встановлюю двочленний GLM, зберігаю його, а потім малюю його.

2
Як інтерпретувати р-значення тесту Колмогорова-Смірнова (пітон)?
У мене є два зразки, які я хочу перевірити (використовуючи python), якщо вони отримані з одного розподілу. Для цього я використовую статистичну функцію ks_2samp від scipy.stats. Він повертає 2 значення, і я знаходжу труднощі, як їх інтерпретувати. Допоможіть, будь ласка!
30 python 

7
Які галузі статистики?
У математиці існують такі галузі, як алгебра, аналіз, топологія тощо. У машинному навчанні існує навчання під наглядом, без нагляду та посилення. У межах кожної з цих гілок є більш тонкі гілки, які далі розділяють методи. У мене виникають проблеми провести паралель зі статистикою. Які будуть основні галузі статистики (і підгалузі)? …

3
Розширення парадокса іменинника більш ніж на 2 людини
У традиційному парадоксі від дня народження виникає питання "які шанси на те, що два або більше людей у ​​групі з людей поділяють день народження". Я застряг у проблемі, яка є продовженням цього.nnn Замість того, щоб знати ймовірність того, що двоє людей поділяють день народження, мені потрібно розширити питання, щоб знати, …

3
Якщо X і Y є некорельованими, чи є X ^ 2 і Y також некорельованими?
Якщо дві випадкові величини і є некорельованими, чи можемо ми також знати, що і некорельовані? Моя гіпотеза - так.Y X 2 YХXXYYYХ2X2X^2YYY E [ X Y ] = E [ X ] E [ Y ]Х, YX,YX, Y некорельований означає , абоЕ[ XY] = Е[ X] Е[ Y]E[XY]=E[X]E[Y]E[XY]=E[X]E[Y] Е[ XY] …

7
У чому сенс аналізу часових рядів?
Який сенс аналізу часових рядів? Існує багато інших статистичних методів, таких як регресія та машинне навчання, які мають очевидні випадки використання: регресія може надати інформацію про взаємозв'язок між двома змінними, тоді як машинне навчання чудово підходить для прогнозування. Але тим часом я не бачу, для чого хороший аналіз часових рядів. …

4
Коли я повинен збалансувати класи в наборі даних про навчання?
У мене був онлайн-курс, де я дізнався, що незбалансовані класи в навчальних даних можуть призвести до проблем, оскільки алгоритми класифікації відповідають правилам більшості, оскільки це дає хороші результати, якщо дисбалансу занадто багато. У завданні потрібно було збалансувати дані, підкресливши мажоритарний клас. Однак у цьому блозі хтось стверджує, що збалансовані дані …

3
Чи може метааналіз досліджень, які всі «не є статистично значущими», призвести до «значного» висновку?
Метааналіз включає в себе купу досліджень, усі з яких повідомили про значення P, яке перевищує 0,05. Чи можливо для загального метааналізу повідомити значення Р менше 0,05? За яких обставин? (Я впевнений, що відповідь "так", але я хотів би посилання чи пояснення.)

4
Чи схвалив журнал Science «Сад форкінгу патетів»?
Ідея адаптивного аналізу даних полягає в тому, що ви змінюєте свій план аналізу даних, коли ви дізнаєтесь більше про них. Що стосується дослідницького аналізу даних (EDA), це, як правило, гарна ідея (ви часто шукаєте непередбачені зразки в даних), але для підтверджуючого дослідження це широко сприймається як дуже хибний метод аналізу …

6
Чому б не використати третю похідну для чисельної оптимізації?
Якщо гессіанці настільки хороші для оптимізації (див., Наприклад , метод Ньютона ), навіщо зупинятися на цьому? Давайте скористаємось похідними третьої, четвертої, п’ятої та шостої? Чому ні?

5
Розмежування двох груп у статистиці та машинному навчанні: тест гіпотез проти класифікації та кластеризації
Припустимо, що у мене є дві групи даних, позначені A і B (кожна містить, наприклад, 200 зразків та 1 ознака), і я хочу знати, чи вони різні. Я міг би: а) провести статистичний тест (наприклад, t-тест), щоб перевірити, чи є вони статистично різними. б) використовувати контрольоване машинне навчання (наприклад, класифікатор …



5
Як боротися з ієрархічними / вкладеними даними в машинному навчанні
Я поясню свою проблему на прикладі. Припустимо, ви хочете передбачити дохід фізичної особи за деякими ознаками: {Вік, стать, країна, регіон, місто}. У вас такий навчальний набір даних train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

3
Статистичні методи для даних, де відомо лише мінімальне / максимальне значення
Чи існує галузь статистики, яка займається даними, для яких точні значення невідомі , але для кожної окремої людини ми знаємо або максимальне, або мінімальне значення, пов'язане зі значенням ? Я підозрюю, що моя проблема багато в чому випливає з того, що я намагаюся сформулювати її в статистичному плані, але, сподіваюся, …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.