Як концептуалізувати помилку в регресійній моделі?


11

Я відвідую клас аналізу даних, і деякі мої добре вкорінені ідеї хитаються. А саме думка про те, що помилка (epsilon), як і будь-яка інша різновид дисперсії, стосується лише (так я думав) для групи (вибірки або цілої сукупності). Тепер нас вчать, що одне з припущень регресії - це те, що дисперсія "однакова для всіх людей". Це мене якось шокує. Я завжди думав, що різниця в Y за всіма значеннями X вважалася постійною.

Я спілкувався з професором, який сказав мені, що коли ми регресуємо, ми вважаємо, що наша модель є правдивою. І я думаю, що це складна частина. Для мене термін помилки (epsilon) завжди означав щось на кшталт "будь-яких елементів, які ми не знаємо, і це може вплинути на нашу змінну результату, плюс деяку помилку вимірювання". У тому, як викладають клас, немає такого поняття, як "інші речі"; наша модель вважається справжньою та повною. Це означає, що всі залишкові зміни повинні розглядатися як добуток помилки вимірювання (таким чином, очікується, що вимірювання особини в 20 разів призведе до такої ж дисперсії, як одноразове вимірювання 20 особин).

Я відчуваю, що десь щось не так, я хотів би мати якусь експертну думку з цього приводу ... Чи є місце для тлумачення того, що таке термін помилки, концептуально кажучи?


3
Можливо, він мав на увазі те, що, навіть якщо модель відповідає дійсності, у відповідях все ще є випадкові відмінності - це фіксується дисперсією помилок - це, наприклад, можна віднести до недосконалого апарату вимірювання. Інші іноді концептуалізують дисперсію помилок як таку, що виникає через відсутні провідники (не обов'язково помилки у формі моделі), маючи на увазі, що якби були виміряні всі можливі предиктори, відхилення помилок було б 0. Це не суперечить першому - помилкам в вимірюванні можна вважати "відсутнім прогнозом".
Макрос

Я думаю, що спочатку завжди важко зрозуміти, що "помилка" може означати різні речі в цьому випадку. "Помилка" може означати різницю між встановленими значеннями, які ми отримуємо з нашої моделі, і спостережуваними значеннями (розбіжність може бути пов'язана з досить парсимоніальної моделлю, наприклад). "Помилка" також може означати різницю між спостережуваними значеннями та справжніми значеннями (розбіжність може бути пов'язана, скажімо, з пристроєм, який ви використовуєте для вимірювання округлення значень до найближчого цілого числа / десятого десятка / тощо). [Перший тип - це те, де можна почути такі терміни, як "залишки / залишкова дисперсія".]

@Macro Так, мені здається, це природний спосіб мислення помилок. Однак я намагаюся зрозуміти, чому професор наполягав на більш жорсткому визначенні цього поняття (вважаючи це застосовном до кожної людини, хоча ми знаємо насправді, це неправда).
Домінік Комтуа

@MikeWierzbicki Праворуч І якщо я правильно розумію, це все зібране в "суворій" точці зору. Це означає, що вся різниця між спостережуваними та прогнозованими значеннями походить від помилки вимірювання, оскільки наша модель "повинна бути правдою".
Домінік Комтуа

Відповіді:


2

Якщо є аспекти людей, які впливають на отримані значення y, то або є певний спосіб отримати ці аспекти (у такому випадку вони повинні бути частиною предиктора x), або немає жодного способу досягти цього інформація.

Якщо ніколи не можна отримати цю інформацію і немає можливості багаторазового вимірювання значень y для окремих людей, то це насправді не має значення. Якщо ви можете виміряти y багаторазово, і якщо ваш набір даних насправді містить неодноразові вимірювання для деяких людей, то у вас є потенційна проблема, оскільки статистична теорія передбачає незалежність помилок вимірювань / залишків.

Наприклад, припустимо, що ви намагаєтесь прилаштувати модель форми

,у=β0+β1х

і що для кожної людини,

,уiнг=100+10х+z

де z залежить від індивіда і зазвичай розподіляється із середнім значенням 0 та стандартним відхиленням 10. Для кожного повторного вимірювання індивіда,

, умеас=100+10х+z+е

де звичайно розподілений із середнім значенням 0 та стандартним відхиленням 0,1. е

Ви можете спробувати моделювати це як

,у=β0+β1х+ϵ

де зазвичай розподілений із середнім значенням 0 та стандартним відхиленнямϵ

. σ=102+0,12=100.01

Поки у вас є лише одне вимірювання для кожної людини, це було б добре. Однак якщо у вас є кілька вимірювань для однієї особи, то ваші залишки вже не будуть незалежними!

β0=100β1=10χ2


Я намагався уникнути використання страшного терміна «багаторівневе моделювання» у своїй відповіді, але ви повинні знати, що в деяких випадках це спосіб вирішити подібну ситуацію.
Брайан Борчерс

1

Я думаю, що "помилка" найкраще характеризується як "частина спостережень, яка непередбачувана, враховуючи нашу поточну інформацію". Намагання мислити за кількістю населення та вибірки призводить до концептуальних проблем (ну це все одно для мене), як і мислення про помилки як "чисто випадкових", витягнутих з деякого розподілу. мислення з точки зору передбачення та "передбачуваності" має для мене набагато більше сенсу.

p(е1,,ен)Е(1нi=1неi2)=σ2σ2σ

н


σ2

p(е1,,ен)1

І при близькому, я маю на увазі, розбіжність kl зведена до мінімуму
ймовірність вірогідного

Дилема полягає не між вибіркою та сукупністю. Йдеться про мислення про помилку, що стосується окремих людей щодо вибірки / сукупності.
Домінік Комтуа

1

Ось дуже корисне посилання для пояснення простої лінійної регресії: http://www.dangoldstein.com/dsn/archives/2006/03/every_wonder_ho.html можливо, це може допомогти зрозуміти поняття "помилки".

FD


Це дуже приємний аплет! Дякуємо за посилання на нього. Це мені нагадує досить багато ілюстрацій, які я створив для іншого питання , де ваша відповідь може мати більшу актуальність.
whuber

1

Я не згоден з формулюванням цього професора. Як ви кажете, думка про те, що дисперсія однакова для кожного окремої людини, означає, що термін помилки представляє лише помилку вимірювання. Як правило, не будується основна модель множинної регресії. Також, як ви говорите, для групи визначається дисперсія (будь то група окремих предметів чи група вимірювань). Це не застосовується на індивідуальному рівні, якщо ви не повторили заходи.

Модель повинна бути повною, оскільки термін помилки не повинен містити впливу будь-яких змінних, які співвідносяться з предикторами. Припущення полягає в тому, що термін помилки не залежить від предикторів. Якщо якась корельована змінна опущена, ви отримаєте зміщені коефіцієнти (це називається опущеним зміщенням змінної ).


Я не зовсім розумію цю відповідь. Схоже, визнається різниця між помилкою через відсутність пристосованості та випадкової помилки, але останнє риторичне питання видається заплутаним. З чисто формальної точки зору, по суті будь-який висновок, зроблений стосовно регресійної моделі, залежить від явних припущень щодо структури шуму.
кардинал

1
Моя думка, що в багатьох випадках мета регресійного моделювання - з'ясувати, що відбувається, навіть коли ми не знаємо всіх причин конкретного результату. Але як це здається незрозумілим, я зніму це питання.
Anne Z.

Дякую. Справа у вашому коментарі хороша. Попереднє запитання, яке ви заявили, можна прочитати як опитування всієї основи, на якій спирається теорія регресії. :)
кардинал

Я погоджуюся з вами у вашій незгоди (звідси і моє запитання!), І опущена змінна зміщення цілком відповідає питанню. Дякую.
Домінік Комоа
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.