25

Я трохи заплутався, якщо незалежна змінна (яка також називається предиктором або ознакою) у статистичній моделі, наприклад у лінійній регресії , є випадковою змінною? $X$ $Y=\beta_0+\beta_1 X$

— l7ll7
джерело

12

Лінійна модель умовна для , отже, випадкова чи ні, це не має значення.

X

$X$

— Сіань

4

Перевірте це . Добре запитання, BTW.

— Антоні Пареллада

@ Xi'an, у фіксованій конструкції припущення лінійної моделі не обумовлені , дивіться мою відповідь. Отже, це має велике значення. Саме тому інтерпретувати експерименти настільки простіше, ніж результати спостережливого дослідження

X

$X$

— Аксакал,

19

Існує дві загальні рецептури лінійної регресії. Щоб зосередитись на поняттях, я їх дещо абстрагую. Математичний опис дещо більше, ніж англійський опис, тож почнемо з останнього:

Лінійна регресія - модель, в якій відповідь $Y$ передбачається випадковою з розподілом, визначеним регресорами $X$ за допомогою лінійної карти $\beta(X)$ і, можливо, за іншими параметрами $\theta$ .

У більшості випадків набір можливих розподілів - це сімейство розташування з параметрами $\alpha$ і $\theta$ а $\beta(X)$ дає параметр $\alpha$ . Архетипний приклад - звичайна регресія, в якій безліч розподілів - це нормальне сімейство $\mathcal{N}(\mu, \sigma)$ а $\mu=\beta(X)$ - лінійна функція регресорів.

Оскільки я ще не описав це математично, досі залишається відкритим питання, до якого типу математичних об'єктів відносяться $X$ , $Y$ , $\beta$ і $\theta$ - і я вважаю, що це головне питання в цій темі. Хоча можна робити різні (еквівалентні) варіанти, більшість з них буде еквівалентним або окремим випадкам наступного опису.

Фіксовані регресори. У регресорів представлені в вигляді речових векторів $X\in\mathbb{R}^p$ . Реакція є випадковою величиною $Y:\Omega\to\mathbb{R}$ (де $\Omega$ наділений полем сигми і ймовірністю). Модель є функцією $f:\mathbb{R}\times\Theta\to M^d$ (або, якщо завгодно, набір функцій $\mathbb{R}\to M^d$ параметризрвані $\Theta$ ; ). $M^d$ є кінцевомірною топологічною (як правило, другою диференційованою) підмножиною (або підмножиною з границею) розмірності $d$ простору розподілів ймовірностей. $f$ зазвичай прийнято вважати безперервним (або достатньо диференційованим). $\Theta\subset\mathbb{R}^{d-1}$ - це "параметри неприємностей". Передбачається, що розподіл $Y$ дорівнює $f(\beta(X), \theta)$ для деякого невідомого подвійного вектора $\beta\in\mathbb{R}^{p*}$ ("коефіцієнти регресії") та невідомого $\theta\in\Theta$ . Ми можемо записати це
$Y \sim f (β (X), θ) .$ $Y \sim f(\beta(X), \theta).$
Випадкові регресори. Регресорів і відповіді є $p+1$ мірний вектор-випадкова величина $Z = (X,Y): \Omega^\prime \to \mathbb{R}^p \times \mathbb{R}$ . Модель $f$ - такий самий вид об'єкта, що і раніше, але тепер він дає умовну ймовірність
$Y | X \sim f (β (X), θ) .$ $Y|X \sim f(\beta(X), \theta).$

Математичний опис марний, якщо якийсь рецепт не говорить про те, як він повинен застосовуватися до даних. У випадку фіксованого регресора ми уявляємо $X$ як визначене експериментатором. Таким чином, це може допомогти розглянути $\Omega$ як продукт $\mathbb{R}^p\times \Omega^\prime$ наділений алгеброю сигми продукту. Експериментатор визначає $X$ а природа визначає (якесь невідоме, абстрактне) $\omega\in\Omega^\prime$ . У випадку випадкового регресора природа визначає $\omega\in\Omega^\prime$ , $X$ -компонент випадкової величини $\pi_X(Z(\omega))$ визначає $X$ (що "спостерігається"), і тепер у нас є впорядкована пара $(X(\omega), \omega)) \in \Omega$ саме так, як у випадку фіксованого регресора.

Архетипний приклад множинної лінійної регресії (яку я висловлю, використовуючи стандартні позначення для об'єктів, а не більш загальну) - це те, що

f (β (X), σ) = N (β (x), σ)

$f(\beta(X), \sigma)=\mathcal{N}(\beta(x), \sigma)$ для деякої постійної

σ \in Θ = R^{+}

$\sigma \in \Theta = \mathbb{R}^{+}$ . Оскільки

x

$x$ змінюється протягом

R^{p}

$\mathbb{R}^p$ , його зображення диференційовано простежує одновимірну підмножину - криву - у двовимірному колекторі нормальних розподілів.

Коли - який - яким чином whatsoever-- $\beta$ оцінюються як і як , значення є прогнозованим значенням з , пов'язане з --whether управляються експериментатором (випадок 1 ) або спостерігається лише (випадок 2). Якщо ми або встановимо значення (випадок 1), або спостерігаємо реалізацію (випадок 2) з , тоді відповідь пов'язана з цим - випадкова величина, розподіл якої $\hat\beta$ $\sigma$ $\hat\sigma$ $\hat\beta(x)$ $Y$ $x$ $x$ $x$ $X$ $Y$ $X$ $\mathcal{N}(\beta(x), \sigma)$ , що невідомоалеоцінюєтьсяяк $\mathcal{N}(\hat\beta(x), \hat\sigma)$ .

— дзижчати
джерело

Нагадаю, що це фантастична відповідь (але, мабуть, не для всіх).

— l7ll7

2

PS Чи знаєте ви з будь-якої книги, де ці основоположні питання пояснюються так само точно, як ви робили тут? Як математик, усі книги, які я знайшов, відображали тут інші відповіді, які з математичної точки зору є менш точними. (Зрозуміло, це не робить їх поганими, звичайно, це просто те, що ці книги не для мене - я б хотів, щоб книга була точнішою, як ця відповідь.)

— l7ll7

У першому реченні останнього абзацу, не є

прогнозоване значення

(реалізація випадкової величини

), а НЕ прогнозоване значення для

? Або я неправильно зрозумів вашу мову, і "передбачуване значення для

" означає "передбачуване значення, коли

- встановлене (спостережуване) значення

?"

\hat{β} (x)

$\hat{\beta}(x)$

y

$y$

Y

$Y$

x

$x$

x

$x$

x

$x$

X

$X$

— Чад

1

@Chad Дякую, що вказали на неоднозначну мову. Я відредагував це речення, щоб уточнити значення, яке відповідає вашому розумінню.

— whuber

7

Перш за все, @whuber дав чудову відповідь. Я дам йому інший погляд, може бути простішим у певному сенсі, також із посиланням на текст.

МОТИВАЦІЯ

може бути випадковим або фіксованим у формулі регресії. Це залежить від вашої проблеми. Для так званих спостережних досліджень це повинно бути випадковим, а для експериментів зазвичай це фіксовано. $X$

Приклад перший. Я вивчаю вплив впливу електронного випромінювання на твердість металевої деталі. Отже, я беру кілька зразків металевої частини і піддаю різного рівня випромінювання. Мій рівень експозиції - X, і він фіксований , тому що я встановив вибрані вами рівні. Я повністю контролюю умови експерименту або, принаймні, намагаюся. Я можу зробити те ж саме з іншими параметрами, такими як температура та вологість.

Приклад другий. Ви вивчаєте вплив економіки на частоту випадків шахрайства у заявках на кредитні картки. Отже, ви регресуєте, що подія шахрайства розраховує на ВВП. Ви не контролюєте ВВП, не можете встановити бажаний рівень. Більше того, ви, мабуть, хочете подивитися на багатоваріантні регресії, тому у вас є інші змінні, такі як безробіття, і тепер у вас є комбінація значень у X, яку ви спостерігаєте , але не контролюєте. У цьому випадку X є випадковим .

Приклад третій. Ви вивчаєте ефективність нового пестициду в польових умовах, тобто не в лабораторних умовах, а на фактичних експериментальних фермах. У цьому випадку ви можете щось контролювати, наприклад, ви можете контролювати кількість пестициду, який потрібно ввести. Однак ви не контролюєте все, наприклад, погоду або ґрунтові умови. Гаразд, ви можете контролювати грунт певною мірою, але не повністю. Це проміжний випадок, коли деякі умови дотримуються і деякі умови контролюються . Існує ціла область дослідження під назвою експериментальний дизайн, яка дійсно орієнтована на цей третій випадок, де дослідження сільського господарства є одним із найбільших застосувань.

МАТ

Тут йде математична частина відповіді. Існує набір припущень, які зазвичай подаються при вивченні лінійної регресії, званої умовами Гаусса-Маркова. Вони дуже теоретичні і ніхто не заважає доводити, що вони дотримуються будь-якої практичної програми. Однак вони дуже корисні для розуміння обмежень методу найменших звичайних квадратів (OLS).

Отже, набір припущень різний для випадкових та фіксованих X, що приблизно відповідають спостережним та експериментальним дослідженням. Приблизно, тому що, як я показав у третьому прикладі, іноді ми справді перебуваємо між крайнощами. Я знайшов розділ теореми "Гаусса-Маркова" в Енциклопедії дослідницького дизайну від Salkind - це гарне місце для початку, він доступний у Google Books.

Для звичайної регресійної моделі різні припущення нерухомої конструкції такі : $Y=X\beta+\varepsilon$

$E[\varepsilon]=0$
Гомоседастичність, $E[\varepsilon^2]=\sigma^2$
Немає послідовної кореляції, $E[\varepsilon_i,\varepsilon_j]=0$

порівняно з тими ж припущеннями у випадковій конструкції:

$E[\varepsilon|X]=0$
Гомоседастичність, $E[\varepsilon^2|X]=\sigma^2$
Немає послідовної кореляції, $E[\varepsilon_i,\varepsilon_j|X]=0$

Як ви бачите, різниця полягає в кондиціонуванні припущень на проектній матриці для випадкової конструкції. Кондиціонування робить ці сильніші припущення. Наприклад, ми не просто говоримо, як у фіксованому дизайні, що помилки мають нульове значення; у випадковому дизайні ми також говоримо, що вони не залежать від X, коваріатів.

— Аксакал
джерело

2

У статистиці випадкова величина - це величина, яка певним чином змінюється випадково. Ви можете знайти хорошу дискусію в цій чудовій темі резюме: Що означає "випадкова величина"?

У регресійній моделі змінні предиктора (X-змінні, пояснювальні змінні, коваріати тощо) передбачаються фіксованими та відомими . Вони не вважаються випадковими. Всі випадковість в моделі вважається в терміні помилки. Розглянемо просту модель лінійної регресії як стандартно сформульовану:
Термін помилки, , є випадковою величиною і є джерелом випадковості в моделі. В результаті терміну помилки є випадковою змінною. Але не вважається випадковою змінною. (Звичайно, це може бути випадкова величинав реальності, але це не передбачається і не відображається в моделі.)

Y = β_{0} + β_{1} Х + ε де ε \sim N (0, σ^{2})

$Y = \beta_0 + \beta_1 X + \varepsilon \\ \text{where } \varepsilon\sim\mathcal N(0, \sigma^2)$

ε

$\varepsilon$

Y

$Y$

X

$X$

— gung - Відновити Моніку
джерело

Отже, ви маєте на увазі, що

- константа? Тому що це єдиний інший спосіб зрозуміти

з математичної точки зору, оскільки

є випадковою змінною, а додавання визначається лише між двома випадковими змінними, а не "чимось іншим" + випадковою змінною. Хоча одна з двох випадкових змінних може бути постійною, саме про це я і говорю.

X

$X$

X

$X$

ε

$\varepsilon$

— l7ll7

PS Я переглянув усі пояснення з вказаного посилання і жодне не дуже освітлювало: Чому? Тому що жодна з них не робить зв'язку між випадковими змінними, оскільки імовірнісні люди розуміють це проти того, як це розуміють статистики. Тож деякі відповіді перезапускають стандартне, точне визначення теорії ймовірностей, а інші повторюють (поки мені незрозуміле) розпливчасте статистичне визначення. Але ніхто насправді не пояснює зв’язок між цими двома поняттями. (Єдиним винятком є довга відповідь моделі "в коробці", яка може виявити певну обіцянку, але навіть так [...]

— l7ll7

різниця виявилася недостатньо чітко, щоб яскраво висвітлити; Мені доведеться розмірковувати над цією конкретною відповіддю, щоб побачити, чи є для цього значення)

— l7ll7

@ user10324, якщо ви хочете, ви можете думати про

як набір констант. Ви також можете вважати це невипадковою змінною.

X

$X$

— gung - Відновіть Моніку

Ні, невипадковий змінний спосіб мислення про це не працює з двох причин: Один, як я стверджував у коментарях вище, в математиці не існує такого поняття, як "змінна", і два, навіть якби це було , то додаток у цьому випадку не визначено, як я стверджував у коментарях вище.

— l7ll7

1

Не впевнений, чи розумію я питання, але якщо ви просто запитуєте, "чи повинна незалежна змінна завжди бути випадковою змінною", то відповідь - ні.

Незалежна змінна - це змінна, яка вважається корельованою із залежною змінною. Потім ви перевіряєте, чи це так за допомогою моделювання (імовірно, регресійного аналізу).

Тут є багато ускладнень та "ifs, buts and maybes", тому я б запропонував отримати копію основної економетрики чи книги зі статистикою, яка охоплює регресійний аналіз та ретельно її прочитати, або ж отримати нотатки класу з базової статистики / економетрики Курс онлайн, якщо можливо.

— Стацаналіст
джерело

X

$X$

X

$X$

Y

$Y$

X

$X$

Y

$Y$

X

$X$

x \mapsto x

$x\mapsto x$

x

$x$

x

$x$

X

$X$

Це здається, ніби ти розумієш математику набагато більше, ніж я. Я просто даю тобі стандартну відповідь на університетську економетрію / статистику. Цікаво, чи, можливо, ти можеш це трохи переосмислити, принаймні з точки зору практичного аналізу. Що стосується цитати з цієї книги, то моя інтерпретація цього полягає в тому, що конкретні х і у, до яких він звертається, є випадковими - але це не означає, що будь-який х або будь-який y є випадковим.

— Statsanalyst

наприклад, залежною змінною в моделі тенденцій голосування в політиці Великобританії може бути кількість голосів, отриманих кандидатом від консерваторів у кожному виборчому окрузі (їзда до канадців, округ до американців), а незалежна змінна може бути середніми цінами на житло (проксі багатство / дохід у Великобританії). Жодна з них не є "випадковою" змінною, як я розумію, але це було б цілком розумною річчю для моделювання.

— Стацаналіст

Гаразд, це добре знати, на які відповіді я можу очікувати / це стандарт у відділах економетрії / статистики, і я дуже ціную цей відгук (я б схвально відгукнувся, але не можу, оскільки це вже робив). Проблема з математикою полягає в тому, що "раз ти почнеш чорним, ти ніколи не повернешся": щорічне навчання математичній точності призведе до почуття тривоги, якщо щось не буде кришталево чистим, поки не досягнеш ясності [...]

— l7ll7

Незалежна змінна = Випадкова змінна?

МОТИВАЦІЯ

МАТ