Який тип регресії використовувати, враховуючи одну змінну із верхньою межею?

9

Я не впевнений, який метод використовувати для моделювання взаємозв'язку між двома змінними ( $x$ і $y$ ) в експерименті описано так:

Є 3 змінні: $x_{aim}$ , $x$ і $y$ .
Значення $x_{aim}$ встановлюється при роботі експерименту. Однак, $x$ і $x_{aim}$ не завжди рівні.
Коефіцієнт кореляції Пірсона між $x_{aim}$ і $x$ становить приблизно 0,9.
Коефіцієнт кореляції Пірсона між $x$ і $y$ набагато менше: близько 0,5.
$y$ має максимально можливе значення ( $y_{max}$ ), яку не можна перевищити.
Кожна точка даних отримується після встановлення $x_{aim}$ і читання $x$ і $y$ .

Хоча коефіцієнт кореляції Пірсона між $x$ і $y$ це не чудово, схоже $y$ має тенденцію до збільшення з $x$ .

Після виконання простих лінійних регресій $y=f(x)$ і $x=g(y)$ (і перетворення останнього назад як $g^{-1}$ , щоб відображатися на тому ж графіку, що і $f$ наприклад), обидва схили позитивні, але схил $g^{-1}$ більше, ніж у $f$ .

Чи має сенс говорити $x_{max} = f^{-1}(y_{max})$ або $x_{max} = g(y_{max})$ ? ( $x_{max}$ буде досягнуто раніше у другому випадку.)

Враховуючи це $y$ пов'язаний $y_{max}$ , що можна сказати про можливе максимальне значення $x$ що можна було досягти?

Наскільки я розумію, має сенс робити лінійну регресію форми $y=f(x)$ коли $x$ - незалежна змінна та $y$ є залежною змінною. Однак у цьому контексті я не впевнений, чи є сенс це враховувати $x$ незалежний і $y$ є залежним.

Чи була б більш підходяща загальна найменша регресія? Чи існують інші методи визначення, за якими значеннями $x_{max}$ можна досягти (і з якою ймовірністю)?

(Якщо це має значення, $x$ і $y$ Схоже, не слід нормального розподілу, оскільки було зроблено більше спроб спробувати досягти більш високих значень $x$ .)

regression correlation

— Бруно
джерело

Що ви будете робити з цими відносинами, якщо їх знайдете? Чи ви перевірите гіпотези, або просто цікавитесь, як це виглядає? Якщо даних багато, то слід розглянути нелінійні моделі.

— mpiktas

@mpiktas, врешті-решт, я хотів би знати, яка x_max є розумною ціллю, яку я можу намагатися досягти регулярно (не один раз), вважаючи, що досягнення або надходження y_max робить експеримент недійсним (фактично маючи на увазі x = x_min для цієї спроби).

— Бруно

Загальна регресія найменших квадратів (або помилок у змінних) вказується при дисперсії

x

$x$ стає помітним порівняно з тим, що

y

$y$ . Кореляція на 90% з

x_{aim}

$x_\text{aim}$ говорить про те, що дисперсія

x

$x$ може бути достатньо малим, щоб можна було сміливо трактувати це як незалежну змінну. Це те, що ви можете перевірити після регресії, порівнявши RMSE залишків

x_{aim}

$x_\text{aim}$ vs.

x

$x$ до RMSEs залишків

y

$y$ vs.

x_{aim}

$x_\text{aim}$ . Будь

y_{max}

$y_\text{max}$ чи проблема залежить; якщо ви бачите верхнє відсічення в розсипці с

x_{aim}

$x_\text{aim}$ , це важливий розгляд.

— whuber

4

Я хочу відзначити точки @ King. Запідозрити таке регресування дуже інтуїтивно $y$ на $x$ («пряма регресія») і регресування $x$ на $y$ ("зворотна регресія") повинна бути однаковою. Однак це не є ані математичним, ані відносно того, як регресія пов'язана із ситуацією, яку ви аналізуєте. Якщо ви задумаєте $y$ на вертикальній осі графіка і $x$ на горизонтальній осі ви можете бачити, що відбувається. Пряма регресія знаходить лінію, яка мінімізує вертикальні відстані між точками даних та лінією, тоді як зворотна регресія мінімізує горизонтальні відстані. Рядок, що мінімізує одну, зведе до мінімуму лише іншу, якщо $r_{xy}=1.0$ . Вам потрібно вирішити, що ви хочете пояснити, і що ви хочете використовувати для пояснення. Відповідь на це запитання дає вам, яка саме змінна $y$ і $x$ і вказує вашу модель. Крім того, (знову слідкуючи за @King), я не згоден із спробою сказати $x_{max}=f^{-1}(y_{max})$ , з тих же причин.

Що стосується випуску обмеженої змінної, то, як правило, можливо, що "реальна" сума може збільшитися, але ви просто не можете її виміряти. Наприклад, зовнішній термометр у моєму вікні піднімається до 120, але він може бути 140 назовні, а у вас буде лише 120 як ваш вимірювання. Таким чином, змінна мала б верхню межу, але те, про що ви дійсно хотіли подумати, не робить. Якщо це так, тобітові моделі існують саме для таких ситуацій.

Іншим підходом було б використання чогось більш міцного, як льос, який може бути цілком адекватним для ваших потреб.

— gung - Відновити Моніку
джерело

Вибачте за затримку, я не помітив вашої відповіді. Мені потрібно прочитати про модель Tobit.

— Бруно

Нема проблем. Детальніше про природу регресії (проти зворотної регресії) дивіться тут . Щоб отримати допомогу в застосуванні регресії тобіту за допомогою різних програм, спробуйте тут .

— gung - Відновіть Моніку

3

По-перше, я не думаю, що це має сенс говорити $x_{max}=f^{-1}(y_{max})$ тут це як натяк на те, що це функція "один на один", хоча $x_{max}$ пояснюється іншими незабезпеченими змінними.

По-друге, це дійсно залежить від контексту, до якого слід ставитися як до незалежної чи залежної змінної. З мого досвіду, якщо теорія категорично не пропонує один шлях; в будь-якому випадку це нормально. З ваших коментарів 7 жовтня, схоже $x$ - залежний час $y$ є незалежним.

Якщо можливо, подивіться на залишки і подивіться, чи можете ви щось вичавити з неї. Могла бути ще одна змінна, яку ви забули; або це може допомогти трансформувати ваші змінні.

— Король
джерело