Статистика та великі дані regression

1

Як інтерпретувати коефіцієнти від бета-регресії?

У мене є деякі дані, які обмежені між 0 і 1. Я використав betaregпакет в R, щоб відповідати регресійній моделі з обмеженими даними як залежною змінною. Моє запитання: як я інтерпретую коефіцієнти від регресії?

15 r regression interpretation beta-distribution regression-coefficients

4

Чи існує "непідконтрольна регресія"?

Якщо я правильно, "непідконтрольна класифікація" - це те саме, що кластеризація. Тоді чи існує "непідконтрольна регресія"? Спасибі!

15 regression unsupervised-learning

3

Чому коригується R-квадрат менше, ніж R-квадрат, якщо відрегульований R-квадрат прогнозує модель краще?

Наскільки я розумію, пояснює, наскільки добре модель прогнозує спостереження. Налагоджений - це той, який враховує більше спостережень (або ступенів свободи). Отже, скоригований прогнозує модель краще? Тоді чому це менше ? Здається, часто повинно бути більше.R2R2R^2R2R2R^2R2R2R^2R2R2R^2

15 regression r-squared

1

Як ggplot обчислює довірчі інтервали для регресії?

Пакет R-графіки ggplot2 має дивовижну функцію під назвою stat_smooth для побудови лінії регресії (або кривої) з пов'язаною смугою довіри. Однак мені важко зрозуміти, як саме формується ця смуга довіри для кожного періоду регресії (або "методу"). Як я можу знайти цю інформацію?

15 r regression confidence-interval ggplot2

7

Випадковий ліс витончений

Я намагаюся використовувати випадкову регресію лісу в науках-учах. Проблема в тому, що я отримую дійсно високу помилку тесту: train MSE, 4.64, test MSE: 252.25. Ось так виглядають мої дані: (синій: реальні дані, зелений: передбачуваний): Я використовую 90% для тренувань і 10% для тесту. Це код, який я використовую після спробу …

15 regression random-forest scikit-learn

1

Регресія помилок в змінних: чи дійсно об'єднання даних з трьох сайтів?

Нещодавно мені прийшов клієнт, щоб зробити аналіз завантаження, оскільки рецензент FDA сказав, що регресія їх помилок у змінних є недійсною, оскільки при об'єднанні даних із сайтів аналіз включає об'єднання даних із трьох сайтів, де два сайти включали деякі зразки, які були той самий. Передумови У клієнта був новий метод аналізу, …

15 regression errors-in-variables deming-regression pooling

3

Автоматизована процедура вибору підмножини точок даних з найсильнішим співвідношенням?

Чи існує якась стандартна процедура (така, яку можна цитувати як посилання) для вибору підмножини точок даних з більшого пулу з найсильнішою кореляцією (уздовж всього двох вимірів)? Наприклад, скажімо, у вас є 100 точок даних. Ви хочете підмножину в 40 балів з найсильнішим співвідношенням, можливим уздовж розмірів X і Y. Я …

15 regression correlation autocorrelation

2

Як вибрати між різними регульованими

Я маю на увазі скориговані формули R-квадрата, запропоновані: Єзекіїль (1930), який, на мою думку, є таким, який зараз використовується в SPSS. R2adjusted=1−(N−1)(N−p−1)(1−R2)Radjusted2=1−(N−1)(N−p−1)(1−R2)R^2_{\rm adjusted} = 1 - \frac{(N-1)}{(N-p-1)} (1-R^2) Олкін і Пратт (1958) R2unbiased=1−(N−3)(1−R2)(N−p−1)−2(N−3)(1−R2)2(N−p−1)(N−p+1)Runbiased2=1−(N−3)(1−R2)(N−p−1)−2(N−3)(1−R2)2(N−p−1)(N−p+1)R^2_{\rm unbiased} = 1 - \frac{(N-3)(1-R^2)}{(N-p-1)} - \frac{2(N-3)(1-R^2)^2}{(N-p-1)(N-p+1)} За яких обставин (якщо такі є) я повинен віддати перевагу …

15 regression r-squared

2

Як вибрати рівень значущості для великого набору даних?

Я працюю з набором даних, що має близько 200 000. У регресії я бачу дуже малі значення значущості << 0,001, пов'язані з дуже малими розмірами ефекту, наприклад r = 0,028. Що я хотів би знати, чи існує принциповий спосіб визначення відповідного порогу значущості щодо розміру вибірки? Чи є якісь важливі …

15 regression probability statistical-significance sample-size

5

Що може бути причиною використання перетворення квадратних коренів на даних?

Чи є якась причина того, що я можу придумати, щоб перетворити дані квадратним коренем? Я маю на увазі те, що я завжди спостерігаю, це те, що R ^ 2 збільшується. Але це, мабуть, лише через центрування даних! Будь-яка думка цінується!

15 regression data-transformation variance-stabilizing

4

Інтервали довіри для параметрів регресії: Байесова проти класичної

З огляду на два масиви x і y, обидві довжиною n, я підходять до моделі y = a + b * x і хочу обчислити 95% довірчий інтервал для схилу. Це (b - дельта, b + дельта), де b зустрічається звичайним чином і delta = qt(0.975,df=n-2)*se.slope а se.slope - це …

15 r regression bayesian confidence-interval frequentist

5

Як моделювати ціни?

Я задав це запитання на сайті matemathics stackexchange і мені рекомендували задати тут. Я працюю над хобі-проектом і мені потрібна допомога з наступною проблемою. Трохи контексту Скажімо, є колекція предметів з описом особливостей та ціни. Уявіть список машин та ціни. Усі автомобілі мають перелік особливостей, наприклад, розмір двигуна, колір, потужність …

15 regression forecasting econometrics

5

Чи можна використовувати декілька регресій для прогнозування одного основного компонента (ПК) від кількох інших ПК?

Нещодавно користувач у списку розсилки R-help запитав про надійність використання балів PCA в регресії. Користувач намагається використовувати деякі результати на ПК, щоб пояснити зміни в іншому ПК (див. Повну дискусію тут ). Відповідь була: ні, це не звучить, оскільки ПК є ортогональними один для одного. Чи може хтось пояснити трохи …

15 regression pca

5

Чому припущення нормальності в лінійній регресії

Моє запитання дуже просте: чому ми обираємо нормальне як розподіл, за яким слід термін помилки, припускаючи лінійну регресію? Чому ми не обираємо інших, таких як уніформа, т чи інше?

15 regression mathematical-statistics normal-distribution error linear

5

Яка потреба припущень у лінійній регресії?

При лінійній регресії робимо наступні припущення Середнє значення відповіді, E(Yi)E(Yi)E(Y_i) , на кожен набір значень предикторів (x1i,x2i,…)(x1i,x2i,…)(x_{1i}, x_{2i},…) - це лінійна функція предикторів. Помилки, εiεiε_i , є незалежними. Похибки, εiεiε_i , для кожного набору значень предикторів (x1i,x2i,…)(x1i,x2i,…)(x_{1i}, x_{2i},…) , як правило, розподіляються. Похибки εiεiε_i для кожного набору значень предикторів (x1i,x2i,…)(x1i,x2i,…)(x_{1i}, …

15 regression assumptions

Запитання з тегом «regression»