Статистика та великі дані regression

4

Швидка лінійна регресія, міцна для людей, що втратили лих

Я маю справу з лінійними даними з випереджаючими людьми, деякі з яких мають більше 5 стандартних відхилень від розрахункової лінії регресії. Я шукаю техніку лінійної регресії, яка зменшує вплив цих точок. Поки що я зробив, це оцінити лінію регресії з усіма даними, потім відкинути точку даних з дуже великими залишками …

50 regression linear-model outliers robust fused-lasso

1

Кодування "гаряче проти фіктивного" в Scikit-learn

Існує два різні способи кодування категоричних змінних. Скажімо, одна категоріальна змінна має n значень. Одно гаряче кодування перетворює його в n змінних, тоді як фіктивне кодування перетворює його в n-1 змінні. Якщо у нас є k категоріальні змінні, кожна з яких має n значень. Одне гаряче кодування закінчується змінними kn …

50 regression categorical-data data-transformation scikit-learn data-preprocessing

2

Чи є різниця між "контролем за" та "ігноруванням" інших змінних при множинній регресії?

Коефіцієнт пояснювальної змінної у множинній регресії говорить нам про зв'язок цієї пояснювальної змінної із залежною змінною. Все це, одночасно "контролюючи" інші пояснювальні змінні. Як я бачив це досі: Хоча кожен коефіцієнт розраховується, інші змінні не враховуються, тому я вважаю їх ігнорованими. Тож я маю рацію, коли думаю, що терміни «контрольований» …

50 regression multiple-regression

4

Чому ANOVA еквівалентний лінійній регресії?

Я читав, що ANOVA та лінійна регресія - це одне і те ж. Як це може бути, враховуючи, що вихід ANOVA є деяким значенням і деяким значенням, на основі якого ви робите висновок, чи означає вибірки для різних вибірок однакові чи різні.рFFFppp Але якщо припустити, що засоби не рівні (відкидають …

50 regression anova

4

Як регресія, t-тест і ANOVA всі версії загальної лінійної моделі?

Як вони всі версії одного основного статистичного методу?

49 regression self-study anova generalized-linear-model t-test

7

Вплив перемикання відповіді та пояснювальної змінної в простій лінійній регресії

Скажімо, існує деякий "справжній" взаємозв'язок між yyy і xxx таким, що y=ax+b+ϵy=ax+b+ϵy = ax + b + \epsilon , де aaa і bbb - постійні, а ϵϵ\epsilon - нормальний шум. Коли я випадково генерую дані з цього коду R: x <- 1:100; y <- ax + b + rnorm(length(x))а потім …

48 regression

7

З чого почати зі статистики для досвідченого розробника

Протягом першої половини 2015 року я пройшов курс машинного навчання (Ендрю Нг, ВЕЛИКИЙ курс). А також засвоїли основи машинного навчання (лінійна регресія, логістична регресія, SVM, нейронні мережі ...) Також я був розробником 10 років, тому вивчення нової мови програмування не було б проблемою. Останнім часом я почав вивчати R з …

47 r regression machine-learning references

11

Чи можна просту лінійну регресію зробити без використання графіків та лінійної алгебри?

Я повністю сліпий і походжу з фону програмування. Що я намагаюся зробити - це навчитися машинному навчанню, і для цього мені спочатку потрібно дізнатися про лінійну регресію. Усі пояснення в Інтернеті, які я знаходжу з цього приводу, спочатку описують дані. Я шукаю практичне пояснення лінійної регресії, яка не залежить від …

47 regression intuition

2

Чи сплайни перевищують дані?

Моя проблема : Нещодавно я зустрічався зі статистиком, який повідомив мені, що сплайни корисні лише для дослідження даних і піддаються надмірній відповідності, тому не корисні для прогнозування. Він вважав за краще досліджувати прості полиноми ... Оскільки я великий фанат сплайнів, і це суперечить моїй інтуїції, мені цікаво дізнатися, наскільки ці …

47 regression splines

5

Якщо t-тест і ANOVA для двох груп рівнозначні, чому їх припущення не еквівалентні?

Я впевнений, що у мене це цілком загорнута голова, але я просто не можу це зрозуміти. T-тест порівнює два звичайних розподілу, використовуючи розподіл Z. Ось чому існує припущення про нормальність у DATA. ANOVA еквівалентна лінійній регресії з фіктивними змінними і використовує суми квадратів, як і OLS. Ось чому існує припущення …

47 distributions regression normality-assumption t-test anova

5

Розуміння регресій - роль моделі

Як може бути корисна модель регресії, якщо ви не знаєте функції, для якої намагаєтеся отримати параметри? Я побачив фрагмент дослідження, в якому говорилося, що матері, які годували грудьми своїх дітей, рідше хворіють на діабет у подальшому житті. Дослідження було проведене під час опитування близько 1000 матерів і було контрольовано на …

46 regression modeling epidemiology log-linear

4

Що таке контрастна матриця?

Що саме є контрастною матрицею (термін, що стосується аналізу з категоричними предикторами) і як саме вказана контрастна матриця? Тобто, що таке стовпці, що таке рядки, які обмеження в цій матриці і що означає число у стовпці jта рядку i? Я спробував заглянути в документи та в Інтернеті, але, схоже, всі …

46 regression categorical-data definition contrasts categorical-encoding

6

Інтуїтивне пояснення компромісного відхилення?

Я шукаю інтуїтивно зрозуміле пояснення зміщення дисперсії, як загалом, так і конкретно в контексті лінійної регресії.

46 regression variance bias

3

Інтерпретація прогнозованого прогнозу та / або відповіді перетвореного журналом

Мені цікаво, чи має значення інтерпретація, чи трансформуються лише залежні, і залежні, і незалежні, або лише незалежні змінні. Розглянемо випадок log(DV) = Intercept + B1*IV + Error Я можу трактувати ІV як збільшення відсотка, але як це змінюється, коли я маю log(DV) = Intercept + B1*log(IV) + Error або коли …

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

3

Звідки походить помилкове уявлення про те, що Y повинен бути нормально розподілений?

Начебто авторитетні джерела стверджують, що залежна змінна повинна бути нормально розподілена: Модельні припущення: YYY зазвичай розподіляється, помилки нормально розподіляються, ei∼N(0,σ2)ei∼N(0,σ2)e_i \sim N(0,\sigma^2) , і незалежні, і XXX є фіксованим, а постійна дисперсія σ2σ2\sigma^2 . Penn State, STAT 504 Аналіз дискретних даних По-друге, аналіз лінійної регресії вимагає, щоб усі змінні були …

45 regression least-squares linear-model dependent-variable

Запитання з тегом «regression»