Запитання з тегом «regression»

Методи аналізу взаємозв'язку між однією (або більше) змінними "залежними" та "незалежними" змінними.

1
Як інтерпретувати коефіцієнти від бета-регресії?
У мене є деякі дані, які обмежені між 0 і 1. Я використав betaregпакет в R, щоб відповідати регресійній моделі з обмеженими даними як залежною змінною. Моє запитання: як я інтерпретую коефіцієнти від регресії?


3
Чому коригується R-квадрат менше, ніж R-квадрат, якщо відрегульований R-квадрат прогнозує модель краще?
Наскільки я розумію, пояснює, наскільки добре модель прогнозує спостереження. Налагоджений - це той, який враховує більше спостережень (або ступенів свободи). Отже, скоригований прогнозує модель краще? Тоді чому це менше ? Здається, часто повинно бути більше.R2R2R^2R2R2R^2R2R2R^2R2R2R^2

1
Як ggplot обчислює довірчі інтервали для регресії?
Пакет R-графіки ggplot2 має дивовижну функцію під назвою stat_smooth для побудови лінії регресії (або кривої) з пов'язаною смугою довіри. Однак мені важко зрозуміти, як саме формується ця смуга довіри для кожного періоду регресії (або "методу"). Як я можу знайти цю інформацію?

7
Випадковий ліс витончений
Я намагаюся використовувати випадкову регресію лісу в науках-учах. Проблема в тому, що я отримую дійсно високу помилку тесту: train MSE, 4.64, test MSE: 252.25. Ось так виглядають мої дані: (синій: реальні дані, зелений: передбачуваний): Я використовую 90% для тренувань і 10% для тесту. Це код, який я використовую після спробу …

1
Регресія помилок в змінних: чи дійсно об'єднання даних з трьох сайтів?
Нещодавно мені прийшов клієнт, щоб зробити аналіз завантаження, оскільки рецензент FDA сказав, що регресія їх помилок у змінних є недійсною, оскільки при об'єднанні даних із сайтів аналіз включає об'єднання даних із трьох сайтів, де два сайти включали деякі зразки, які були той самий. Передумови У клієнта був новий метод аналізу, …

3
Автоматизована процедура вибору підмножини точок даних з найсильнішим співвідношенням?
Чи існує якась стандартна процедура (така, яку можна цитувати як посилання) для вибору підмножини точок даних з більшого пулу з найсильнішою кореляцією (уздовж всього двох вимірів)? Наприклад, скажімо, у вас є 100 точок даних. Ви хочете підмножину в 40 балів з найсильнішим співвідношенням, можливим уздовж розмірів X і Y. Я …

2
Як вибрати між різними регульованими
Я маю на увазі скориговані формули R-квадрата, запропоновані: Єзекіїль (1930), який, на мою думку, є таким, який зараз використовується в SPSS. R2adjusted=1−(N−1)(N−p−1)(1−R2)Radjusted2=1−(N−1)(N−p−1)(1−R2)R^2_{\rm adjusted} = 1 - \frac{(N-1)}{(N-p-1)} (1-R^2) Олкін і Пратт (1958) R2unbiased=1−(N−3)(1−R2)(N−p−1)−2(N−3)(1−R2)2(N−p−1)(N−p+1)Runbiased2=1−(N−3)(1−R2)(N−p−1)−2(N−3)(1−R2)2(N−p−1)(N−p+1)R^2_{\rm unbiased} = 1 - \frac{(N-3)(1-R^2)}{(N-p-1)} - \frac{2(N-3)(1-R^2)^2}{(N-p-1)(N-p+1)} За яких обставин (якщо такі є) я повинен віддати перевагу …

2
Як вибрати рівень значущості для великого набору даних?
Я працюю з набором даних, що має близько 200 000. У регресії я бачу дуже малі значення значущості << 0,001, пов'язані з дуже малими розмірами ефекту, наприклад r = 0,028. Що я хотів би знати, чи існує принциповий спосіб визначення відповідного порогу значущості щодо розміру вибірки? Чи є якісь важливі …

5
Що може бути причиною використання перетворення квадратних коренів на даних?
Чи є якась причина того, що я можу придумати, щоб перетворити дані квадратним коренем? Я маю на увазі те, що я завжди спостерігаю, це те, що R ^ 2 збільшується. Але це, мабуть, лише через центрування даних! Будь-яка думка цінується!

4
Інтервали довіри для параметрів регресії: Байесова проти класичної
З огляду на два масиви x і y, обидві довжиною n, я підходять до моделі y = a + b * x і хочу обчислити 95% довірчий інтервал для схилу. Це (b - дельта, b + дельта), де b зустрічається звичайним чином і delta = qt(0.975,df=n-2)*se.slope а se.slope - це …

5
Як моделювати ціни?
Я задав це запитання на сайті matemathics stackexchange і мені рекомендували задати тут. Я працюю над хобі-проектом і мені потрібна допомога з наступною проблемою. Трохи контексту Скажімо, є колекція предметів з описом особливостей та ціни. Уявіть список машин та ціни. Усі автомобілі мають перелік особливостей, наприклад, розмір двигуна, колір, потужність …

5
Чи можна використовувати декілька регресій для прогнозування одного основного компонента (ПК) від кількох інших ПК?
Нещодавно користувач у списку розсилки R-help запитав про надійність використання балів PCA в регресії. Користувач намагається використовувати деякі результати на ПК, щоб пояснити зміни в іншому ПК (див. Повну дискусію тут ). Відповідь була: ні, це не звучить, оскільки ПК є ортогональними один для одного. Чи може хтось пояснити трохи …
15 regression  pca 

5
Чому припущення нормальності в лінійній регресії
Моє запитання дуже просте: чому ми обираємо нормальне як розподіл, за яким слід термін помилки, припускаючи лінійну регресію? Чому ми не обираємо інших, таких як уніформа, т чи інше?

5
Яка потреба припущень у лінійній регресії?
При лінійній регресії робимо наступні припущення Середнє значення відповіді, E(Yi)E(Yi)E(Y_i) , на кожен набір значень предикторів (x1i,x2i,…)(x1i,x2i,…)(x_{1i}, x_{2i},…) - це лінійна функція предикторів. Помилки, εiεiε_i , є незалежними. Похибки, εiεiε_i , для кожного набору значень предикторів (x1i,x2i,…)(x1i,x2i,…)(x_{1i}, x_{2i},…) , як правило, розподіляються. Похибки εiεiε_i для кожного набору значень предикторів (x1i,x2i,…)(x1i,x2i,…)(x_{1i}, …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.