Припустимо, ваш набір даних складається з набору для і ви хочете подивитися на залежність від .i = 1 , … , n y x( хi, уi)i = 1 , … , nух
Припустимо, ви знайдете значення і of та які мінімізують залишкову суму квадратів
Тоді ви берете як передбачуване -значення для будь-якого (не обов'язково вже спостерігається) -значення. Це лінійна регресія. ; & beta ; & alpha& beta ; п Σ я=1(уя-(& alpha+& betaхя))2. У = α + β хуйα^β^αβ
∑i = 1н( уi- ( α + βхi) )2.
у^= α^+ β^хух
Тепер розглянемо розкладання загальної суми квадратів
з ступінь свободи на "пояснені" та "нез'ясовані" частини:
з і ступенями свободи відповідно. Це аналіз дисперсії, а потім розглядаються такі речі, як F-статистика
Це п-1 п Σ я = 1 ( ( α + β х я ) - ˉ у ) 2 ⏟ пояснено+ п Σ я = 1 ( у я - ( α + β х я ) ) 2 ⏟ непоясненим. 1n-2F=∑ n i =
∑i = 1н( уi- у¯)2де у¯= у1+ ⋯ + yнн
n - 1∑i = 1н( ( α^+ β^хi) - у¯)2пояснив + ∑ i = 1н( уi- ( α^+ β^хi) )2незрозуміле.
1n - 2β=0Ж= ∑нi = 1( ( α^+ β^хi) - у¯)2/ 1∑нi = 1( уi- ( α^+ β^хi) )2/ (n-2).
F-статистика перевіряє нульову гіпотезу .
β= 0
Часто вперше стикається з терміном "аналіз дисперсії", коли предиктор є категоричним, так що ви підходите до моделі
де визначає, яка категорія є значенням . Якщо є категорії, ви отримаєте ступінь свободи в чисельнику в F-статистиці, і зазвичай ступені свободи в знаменнику. Але відмінність між регресією та аналізом дисперсії все ж однакова для цієї моделі. i k k - 1 n - k
у= α + βi
iкk - 1n - k
Пара додаткових балів:
- Деяким математикам з наведеного вище опису може здатися, що все поле - це лише те, що бачиться вище, тому може здатися загадковим, що і регресія, і аналіз дисперсії є активними напрямами досліджень. Є багато, що не впишеться у відповідь, відповідну для публікації тут.
- Існує популярна і спокуслива помилка, яка полягає в тому, що вона називається "лінійною", тому що графік - це рядок. Це помилково. Один з моїх попередніх відповідей пояснює, чому це все ще називають "лінійною регресією", коли ви встановлюєте поліном через найменші квадрати.у= α + βх