Як центрування даних позбавляється від перехоплення в регресії та PCA?


40

Я постійно читаю про випадки, коли ми центруємо дані (наприклад, з регуляризацією або PCA), щоб видалити перехоплення (про що йдеться в цьому питанні ). Я знаю, що це просто, але мені важко інтуїтивно зрозуміти це. Чи міг би хтось надати інтуїцію чи довідку, яку я можу прочитати?


2
Це дуже особливий випадок "контролю за іншими змінними", як пояснено (декількома способами) на сайті stats.stackexchange.com/questions/17336/… . Контрольована "змінна" - це постійний (перехоплюючий) термін.
whuber

Відповіді:


66

Чи можуть ці фотографії допомогти?

Перші 2 малюнки - про регресію. Центрування даних не змінює нахил лінії регресії, але робить перехоплення рівним 0.

введіть тут опис зображення

1

введіть тут опис зображення


1


1
у¯-Х¯β

16
PCA is maximizing varianceЦе взагалі не відповідає дійсності. PCA максимізує (на 1-му ПК) суму відхилень у квадраті від початку. Тільки якщо дані були попередньо центрировані (саме центрування не є частиною PCA), це виявляється максимальною дисперсією.
ttnphns

3
PS Зауважте, що обчислення коваріацій або кореляцій передбачає центрування
ttnphns

1
> PS Зауважте, що обчислення коваріацій або кореляцій передбачає центрування - ttnphns 27 серпня 1212 в 11:47 Хоча я згоден з вашими іншими коментарями, і коваріація, і кореляція НЕ передбачають центрування. Ні cor, ні ковар не змінюють значення, коли до даних застосовується константа добавки.
TPM

1
Це назад. Константи адиції дійсно не впливають на кореляції, але це тому, що вони віднімаються в обчисленнях, як вказував @ttphns. Що вбік, це не нова відповідь, а коментар. Ми розуміємо, що ви ще не маєте достатньої репутації для коментарів, тому, я вважаю, це буде переміщено користувачем з достатньою репутацією після того, як я подам це повідомлення.
Нік Кокс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.