Ця публікація стосується двовимірної лінійної регресійної моделі, . Я завжди брав розподіл загальної суми квадратів (SSTO) на суму квадратів для помилки (SSE) та суму квадратів для моделі (SSR) на вірі, але як тільки я почав реально думати про це, я не розумію чому це працює ...
Частина I дійсно розуміють:
: спостережуване значення y
: середнє значення всіх спостережуваних s
: Встановлене / передбачуване значення y для даного спостереження x
: Залишок / помилка (якщо у всіх квадратиках додано квадрат та додано, це SSE)
: наскільки розміщене значення моделі відрізняється від середнього значення (якщо в квадраті та додано для всіх спостережень це SSR)
: наскільки спостережуване значення відрізняється від середнього значення (якщо його застосовувати та додавати за всіма спостереженнями, це SSTO).
Я можу зрозуміти, чому для одного спостереження, нічого не розбиваючи, . І я можу зрозуміти, чому, якщо ви хочете додати речі над усіма спостереженнями, ви повинні їх скласти на квадрат або вони додадуть до 0.
Частина, яку я не розумію, це чому (наприклад, SSTO = SSR + SSE). Здається, якщо у вас є ситуація, коли , то , а не . Чому тут не так?