Мені подобаються обидві відповіді, дані до цього часу. Дозвольте додати кілька речей.
Інший варіант полягає в тому, що ви також можете комбінувати змінні. Це робиться шляхом стандартизації обох (тобто, перетворення їх на z-бали), усереднення їх, а потім пристосування вашої моделі лише до складеної змінної. Це був би хороший підхід, коли ви вважаєте, що це дві різні міри однієї основної конструкції. У цьому випадку у вас є два вимірювання, забруднені помилкою. Найімовірніше справжнє значення для змінної, що ви насправдітурбота про них знаходиться між ними, таким чином усереднення їх дає більш точну оцінку. Ви їх спочатку стандартизуєте, щоб розмістити їх в одній шкалі, щоб номінальні проблеми не забруднювали результат (наприклад, ви б не хотіли проводити середні вимірювання температури, якщо деякі є Фаренгейтом, а інші - Цельсієм). Звичайно, якщо вони вже є в одному масштабі (наприклад, кілька висококорельованих опитувань громадської думки), ви можете пропустити цей крок. Якщо ви думаєте, що одна із змінних може бути точнішою за іншу, ви можете зробити середньозважене (можливо, використовуючи зворотні помилки вимірювань).
Якщо ваші змінні є просто різними заходами однієї конструкції і є досить сильно співвіднесеними, ви дійсно можете їх просто викинути, не втрачаючи багато інформації. Як приклад, колись я опинився в ситуації, коли я хотів використати коваріат, щоб поглинути деяку дисперсію помилок та посилити потужність, але там, де я не переймався цим коваріатом - це не було по суті. У мене було кілька варіантів, і всі вони співвідносилися один з одним . Я в основному вибрав один навмання і продовжив, і воно спрацювало чудово. Я підозрюю, що втратив би силу, спалюючи два зайві ступені свободи, якби я включив і інших, використовуючи якусь іншу стратегію. Звичайно, я міг би їх поєднувати, але навіщо турбуватись? r>.98Однак це критично залежить від того, що ваші змінні є корельованими, оскільки це дві різні версії одного і того ж; якщо є інша причина, по якій вони співвідносяться, це може бути абсолютно недоречним.
З цього випливає, я пропоную вам подумати над тим, що лежить за вашими корельованими змінними. Тобто вам потрібна теорія, чому вони настільки сильно співвіднесені, щоб зробити найкращу роботу щодо вибору тієї стратегії. Окрім різних заходів однієї і тієї ж прихованої змінної, деякі інші можливості - це причинний ланцюг (тобто ) та більш складні ситуації, коли ваші змінні є результатом безлічі причинних сил, деякі з яких є однаково для обох. Мабуть, самий крайній випадок - це супресорна змінна, яку @whuber описує у своєму коментарі нижче. Наприклад, пропозиція @ Макроса передбачає, що вас насамперед цікавить і цікавить питання про додатковий внесокXX1→X2→YXX x 1 x 2 X ZZ після того, як було внесено внесокТаким чином, думаючи про те, чому ваші змінні корелюють і то , що ви хочете знати , допоможе вам вирішити , який (тобто, або ) слід розглядати як і які . Ключовим є використання теоретичного розуміння для інформування про свій вибір. Xx1x2XZ
Я погоджуюсь, що регресія хребта, можливо, краще, тому що вона дозволяє використовувати змінні, які ви спочатку мали на меті, і, ймовірно, дасть бета-версії, які дуже близькі до їх справжніх значень (хоча вони будуть упередженими - див. Тут або тут для отримання додаткової інформації ). Тим не менш, я думаю, що у нього є також два потенційні мінуси: він складніший (вимагає більшої статистичної витонченості), і отриману модель, на мою думку, складніше інтерпретувати.
Я вважаю, що, можливо, вищим підходом було б відповідати моделі структурних рівнянь. Це тому, що це дозволить сформулювати точний набір відносин, які ви вважаєте функціонуючими, включаючи приховані змінні. Однак я не знаю СЕМ достатньо добре, щоб тут щось про це сказати, крім згадки про можливість. (Я також підозрюю, що це було б надмірно в ситуації, яку ви описуєте, лише з двома коваріатами.)