Чому вертикальні відстані?

11

Чому оцінка OLS передбачає прийняття вертикальних відхилень точок до прямої, а не горизонтальних відстаней?

least-squares

— user333
джерело

1

Старе питання, але я вважаю, що перегляд даних як вибірки розподілу ймовірностей, параметризованого x, є корисним

— Бенді

12

OLS ( звичайні найменші квадрати ) припускають, що значення, представлені горизонтальними відстанями, або заздалегідь визначені експериментатором, або вимірюються з високою точністю (щодо вертикальних відстаней). Коли виникає питання невизначеності горизонтальних відстаней, ви не повинні використовувати OLS, а натомість слід вивчити моделі помилок у змінних чи, можливо, аналіз основних компонентів .

— дзижчати
джерело

"Ортогональна регресія" - ще одна річ, з якою можна зіткнутися, шукаючи методи боротьби із забрудненими абсцисами та ординатами.

— JM не є статистиком

+1 Це поки що ніша лише у статистиці; складніші методи найменших квадратів (не тільки додавання змінної X, але й різні штрафи для точок, заснованих на наближенні помилок) є загальними в експериментальній фізиці; Рамка ROOT налічує десятки таких.

1

Цікаве запитання. Моєю відповіддю було б те, що коли ми підходимо до моделі OLS, ми неявно і в першу чергу намагаємося передбачити / пояснити залежну змінну - "Y" у "Y vs X." Таким чином, нашою основною проблемою було б мінімізувати відстань від встановленої нами лінії до фактичних спостережень щодо результату, що означає мінімізацію вертикальної відстані. Це, звичайно, визначає залишки.

Крім того, формули з найменшими квадратами легше отримати, ніж більшість інших конкуруючих методів, тому, мабуть, саме тому вони виникли першими. : P

Як наводить на згадку вище, існують й інші підходи, які розглядають X та Y з однаковим акцентом, коли підходить лінія, що найкраще підходить. Один із таких підходів, про які я знаю, - це регресія "основних ліній" або "головних кривих", яка мінімізує ортогональні відстані між точками та лінією (замість вертикальних ліній помилок у вас на 90 градусів до встановленої лінії) . Я розміщую одну посилання нижче для вашого читання. Це тривалий, але дуже доступний і освічуючий характер.

Сподіваюсь, це допоможе, Бренден

Тревор Хасті. Основні криві та поверхні , кандидатська дисертація, Стенфордський університет; 1984 рік

— Бренден
джерело

1

Це, можливо, також стосується розроблених експериментів - якщо x є контрольованою величиною, що є частиною експериментальної конструкції, це трактується як детермінований; в той час як y - результат, і це випадкова величина. x може бути безперервною кількістю (наприклад, концентрація якогось препарату), але може бути розбиттям 0/1 (що призводить до 2-пробного тесту зразка, якщо y - Гаусса). Якщо x - неперервна величина, може бути деяка похибка вимірювання, але зазвичай, якщо це набагато менше, ніж змінність y, то це ігнорується.

— Кріс Брансдон
джерело