Я трохи заплутався, якщо незалежна змінна (яка також називається предиктором або ознакою) у статистичній моделі, наприклад у лінійній регресії , є випадковою змінною?
Я трохи заплутався, якщо незалежна змінна (яка також називається предиктором або ознакою) у статистичній моделі, наприклад у лінійній регресії , є випадковою змінною?
Відповіді:
Існує дві загальні рецептури лінійної регресії. Щоб зосередитись на поняттях, я їх дещо абстрагую. Математичний опис дещо більше, ніж англійський опис, тож почнемо з останнього:
Лінійна регресія - модель, в якій відповідь передбачається випадковою з розподілом, визначеним регресорами за допомогою лінійної карти і, можливо, за іншими параметрами .
У більшості випадків набір можливих розподілів - це сімейство розташування з параметрами і а дає параметр . Архетипний приклад - звичайна регресія, в якій безліч розподілів - це нормальне сімейство а - лінійна функція регресорів.
Оскільки я ще не описав це математично, досі залишається відкритим питання, до якого типу математичних об'єктів відносяться , , і - і я вважаю, що це головне питання в цій темі. Хоча можна робити різні (еквівалентні) варіанти, більшість з них буде еквівалентним або окремим випадкам наступного опису.
Фіксовані регресори. У регресорів представлені в вигляді речових векторів . Реакція є випадковою величиною (де наділений полем сигми і ймовірністю). Модель є функцією (або, якщо завгодно, набір функцій параметризрвані ; ). є кінцевомірною топологічною (як правило, другою диференційованою) підмножиною (або підмножиною з границею) розмірності простору розподілів ймовірностей. зазвичай прийнято вважати безперервним (або достатньо диференційованим). - це "параметри неприємностей". Передбачається, що розподіл дорівнює для деякого невідомого подвійного вектора ("коефіцієнти регресії") та невідомого . Ми можемо записати це
Випадкові регресори. Регресорів і відповіді є мірний вектор-випадкова величина . Модель - такий самий вид об'єкта, що і раніше, але тепер він дає умовну ймовірність
Математичний опис марний, якщо якийсь рецепт не говорить про те, як він повинен застосовуватися до даних. У випадку фіксованого регресора ми уявляємо як визначене експериментатором. Таким чином, це може допомогти розглянути як продукт наділений алгеброю сигми продукту. Експериментатор визначає а природа визначає (якесь невідоме, абстрактне) . У випадку випадкового регресора природа визначає , -компонент випадкової величини визначає (що "спостерігається"), і тепер у нас є впорядкована пара саме так, як у випадку фіксованого регресора.
Архетипний приклад множинної лінійної регресії (яку я висловлю, використовуючи стандартні позначення для об'єктів, а не більш загальну) - це те, що
Коли - який - яким чином whatsoever-- оцінюються як р і сг як сг , значення & beta ; ( х ) є прогнозованим значенням з Y , пов'язане з ї --whether х управляються експериментатором (випадок 1 ) або спостерігається лише (випадок 2). Якщо ми або встановимо значення (випадок 1), або спостерігаємо реалізацію (випадок 2) x з X , тоді відповідь Y, пов'язана з цим X, - випадкова величина, розподіл якої N ( , що невідомоалеоцінюєтьсяяк .
Перш за все, @whuber дав чудову відповідь. Я дам йому інший погляд, може бути простішим у певному сенсі, також із посиланням на текст.
може бути випадковим або фіксованим у формулі регресії. Це залежить від вашої проблеми. Для так званих спостережних досліджень це повинно бути випадковим, а для експериментів зазвичай це фіксовано.
Приклад перший. Я вивчаю вплив впливу електронного випромінювання на твердість металевої деталі. Отже, я беру кілька зразків металевої частини і піддаю різного рівня випромінювання. Мій рівень експозиції - X, і він фіксований , тому що я встановив вибрані вами рівні. Я повністю контролюю умови експерименту або, принаймні, намагаюся. Я можу зробити те ж саме з іншими параметрами, такими як температура та вологість.
Приклад другий. Ви вивчаєте вплив економіки на частоту випадків шахрайства у заявках на кредитні картки. Отже, ви регресуєте, що подія шахрайства розраховує на ВВП. Ви не контролюєте ВВП, не можете встановити бажаний рівень. Більше того, ви, мабуть, хочете подивитися на багатоваріантні регресії, тому у вас є інші змінні, такі як безробіття, і тепер у вас є комбінація значень у X, яку ви спостерігаєте , але не контролюєте. У цьому випадку X є випадковим .
Приклад третій. Ви вивчаєте ефективність нового пестициду в польових умовах, тобто не в лабораторних умовах, а на фактичних експериментальних фермах. У цьому випадку ви можете щось контролювати, наприклад, ви можете контролювати кількість пестициду, який потрібно ввести. Однак ви не контролюєте все, наприклад, погоду або ґрунтові умови. Гаразд, ви можете контролювати грунт певною мірою, але не повністю. Це проміжний випадок, коли деякі умови дотримуються і деякі умови контролюються . Існує ціла область дослідження під назвою експериментальний дизайн, яка дійсно орієнтована на цей третій випадок, де дослідження сільського господарства є одним із найбільших застосувань.
Тут йде математична частина відповіді. Існує набір припущень, які зазвичай подаються при вивченні лінійної регресії, званої умовами Гаусса-Маркова. Вони дуже теоретичні і ніхто не заважає доводити, що вони дотримуються будь-якої практичної програми. Однак вони дуже корисні для розуміння обмежень методу найменших звичайних квадратів (OLS).
Отже, набір припущень різний для випадкових та фіксованих X, що приблизно відповідають спостережним та експериментальним дослідженням. Приблизно, тому що, як я показав у третьому прикладі, іноді ми справді перебуваємо між крайнощами. Я знайшов розділ теореми "Гаусса-Маркова" в Енциклопедії дослідницького дизайну від Salkind - це гарне місце для початку, він доступний у Google Books.
Для звичайної регресійної моделі різні припущення нерухомої конструкції такі :
порівняно з тими ж припущеннями у випадковій конструкції:
Як ви бачите, різниця полягає в кондиціонуванні припущень на проектній матриці для випадкової конструкції. Кондиціонування робить ці сильніші припущення. Наприклад, ми не просто говоримо, як у фіксованому дизайні, що помилки мають нульове значення; у випадковому дизайні ми також говоримо, що вони не залежать від X, коваріатів.
У статистиці випадкова величина - це величина, яка певним чином змінюється випадково. Ви можете знайти хорошу дискусію в цій чудовій темі резюме: Що означає "випадкова величина"?
У регресійній моделі змінні предиктора (X-змінні, пояснювальні змінні, коваріати тощо) передбачаються фіксованими та відомими . Вони не вважаються випадковими. Всі випадковість в моделі вважається в терміні помилки. Розглянемо просту модель лінійної регресії як стандартно сформульовану:
Термін помилки, ε , є випадковою величиною і є джерелом випадковості в моделі. В результаті терміну помилки Y також є випадковою змінною. Але X не вважається випадковою змінною. (Звичайно, це може бути випадкова величинав реальності, але це не передбачається і не відображається в моделі.)
Не впевнений, чи розумію я питання, але якщо ви просто запитуєте, "чи повинна незалежна змінна завжди бути випадковою змінною", то відповідь - ні.
Незалежна змінна - це змінна, яка вважається корельованою із залежною змінною. Потім ви перевіряєте, чи це так за допомогою моделювання (імовірно, регресійного аналізу).
Тут є багато ускладнень та "ifs, buts and maybes", тому я б запропонував отримати копію основної економетрики чи книги зі статистикою, яка охоплює регресійний аналіз та ретельно її прочитати, або ж отримати нотатки класу з базової статистики / економетрики Курс онлайн, якщо можливо.