Який тип регресії використовувати, враховуючи одну змінну із верхньою межею?


9

Я не впевнений, який метод використовувати для моделювання взаємозв'язку між двома змінними (x і y) в експерименті описано так:

  • Є 3 змінні: xaim, x і y.
  • Значення xaimвстановлюється при роботі експерименту. Однак,x і xaim не завжди рівні.
  • Коефіцієнт кореляції Пірсона між xaim і x становить приблизно 0,9.
  • Коефіцієнт кореляції Пірсона між x і y набагато менше: близько 0,5.
  • y має максимально можливе значення (ymax), яку не можна перевищити.
  • Кожна точка даних отримується після встановлення xaim і читання x і y.

Хоча коефіцієнт кореляції Пірсона між x і y це не чудово, схоже y має тенденцію до збільшення з x.

Після виконання простих лінійних регресій y=f(x) і x=g(y) (і перетворення останнього назад як g1, щоб відображатися на тому ж графіку, що і f наприклад), обидва схили позитивні, але схил g1 більше, ніж у f.

Чи має сенс говорити xmax=f1(ymax) або xmax=g(ymax)? (xmax буде досягнуто раніше у другому випадку.)

Враховуючи це y пов'язаний ymax, що можна сказати про можливе максимальне значення x що можна було досягти?

Наскільки я розумію, має сенс робити лінійну регресію форми y=f(x) коли x - незалежна змінна та yє залежною змінною. Однак у цьому контексті я не впевнений, чи є сенс це враховуватиx незалежний і y є залежним.

Чи була б більш підходяща загальна найменша регресія? Чи існують інші методи визначення, за якими значеннямиxmax можна досягти (і з якою ймовірністю)?

(Якщо це має значення, x і y Схоже, не слід нормального розподілу, оскільки було зроблено більше спроб спробувати досягти більш високих значень x.)


Що ви будете робити з цими відносинами, якщо їх знайдете? Чи ви перевірите гіпотези, або просто цікавитесь, як це виглядає? Якщо даних багато, то слід розглянути нелінійні моделі.
mpiktas

@mpiktas, врешті-решт, я хотів би знати, яка x_max є розумною ціллю, яку я можу намагатися досягти регулярно (не один раз), вважаючи, що досягнення або надходження y_max робить експеримент недійсним (фактично маючи на увазі x = x_min для цієї спроби).
Бруно

Загальна регресія найменших квадратів (або помилок у змінних) вказується при дисперсії x стає помітним порівняно з тим, що y. Кореляція на 90% зxaim говорить про те, що дисперсія xможе бути достатньо малим, щоб можна було сміливо трактувати це як незалежну змінну. Це те, що ви можете перевірити після регресії, порівнявши RMSE залишківxaim vs. x до RMSEs залишків y vs. xaim. Будьymaxчи проблема залежить; якщо ви бачите верхнє відсічення в розсипці сxaim, це важливий розгляд.
whuber

Відповіді:


4

Я хочу відзначити точки @ King. Запідозрити таке регресування дуже інтуїтивноy на x («пряма регресія») і регресування x на y("зворотна регресія") повинна бути однаковою. Однак це не є ані математичним, ані відносно того, як регресія пов'язана із ситуацією, яку ви аналізуєте. Якщо ви задумаєтеy на вертикальній осі графіка і xна горизонтальній осі ви можете бачити, що відбувається. Пряма регресія знаходить лінію, яка мінімізує вертикальні відстані між точками даних та лінією, тоді як зворотна регресія мінімізує горизонтальні відстані. Рядок, що мінімізує одну, зведе до мінімуму лише іншу, якщоrxy=1.0. Вам потрібно вирішити, що ви хочете пояснити, і що ви хочете використовувати для пояснення. Відповідь на це запитання дає вам, яка саме зміннаy і xі вказує вашу модель. Крім того, (знову слідкуючи за @King), я не згоден із спробою сказатиxmax=f1(ymax), з тих же причин.

Що стосується випуску обмеженої змінної, то, як правило, можливо, що "реальна" сума може збільшитися, але ви просто не можете її виміряти. Наприклад, зовнішній термометр у моєму вікні піднімається до 120, але він може бути 140 назовні, а у вас буде лише 120 як ваш вимірювання. Таким чином, змінна мала б верхню межу, але те, про що ви дійсно хотіли подумати, не робить. Якщо це так, тобітові моделі існують саме для таких ситуацій.

Іншим підходом було б використання чогось більш міцного, як льос, який може бути цілком адекватним для ваших потреб.


Вибачте за затримку, я не помітив вашої відповіді. Мені потрібно прочитати про модель Tobit.
Бруно

Нема проблем. Детальніше про природу регресії (проти зворотної регресії) дивіться тут . Щоб отримати допомогу в застосуванні регресії тобіту за допомогою різних програм, спробуйте тут .
gung - Відновіть Моніку

3

По-перше, я не думаю, що це має сенс говорити xmax=f1(ymax) тут це як натяк на те, що це функція "один на один", хоча xmax пояснюється іншими незабезпеченими змінними.

По-друге, це дійсно залежить від контексту, до якого слід ставитися як до незалежної чи залежної змінної. З мого досвіду, якщо теорія категорично не пропонує один шлях; в будь-якому випадку це нормально. З ваших коментарів 7 жовтня, схожеx - залежний час y є незалежним.

Якщо можливо, подивіться на залишки і подивіться, чи можете ви щось вичавити з неї. Могла бути ще одна змінна, яку ви забули; або це може допомогти трансформувати ваші змінні.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.