Різниця між регресійним аналізом та підгоном кривої


17

Чи може хто-небудь, будь ласка, пояснити мені реальну різницю між регресійним аналізом та приміркою кривої (лінійною та нелінійною), якщо це можливо?

Схоже, що обидва намагаються знайти залежність між двома змінними (залежною від незалежної), а потім визначити параметр (або коефіцієнт), пов'язаний із запропонованими моделями. Наприклад, якщо у мене є набір даних, таких як:

Y = [1.000 1.000 1.000 0.961 0.884 0.000] 
X = [1.000 0.063 0.031 0.012 0.005 0.000]

Чи може хтось запропонувати формулу кореляції між цими двома змінними? У мене виникають труднощі в розумінні різниці між цими двома підходами. Якщо ви віддаєте перевагу підтримувати свою відповідь іншими наборами даних, це нормально, оскільки це здається важким (можливо, лише для мене).

Вищенаведений набір даних представляє осі і y кривої робочої характеристики приймача (ROC), де y - справжня позитивна швидкість (TPR), а x - хибнопозитивна швидкістьxуyx (FPR).

Я намагаюся підходити до кривої або роблю регресійний аналіз, згідно з моїм оригінальним запитанням, ще не впевнений, серед цих пунктів можна оцінити TPR для будь-якого конкретного FPR (або навпаки).

По-перше, чи є науково прийнятним знайти таку функцію прилягання кривої між двома незалежними змінними (TPR та FPR)?

По-друге, чи є науково прийнятним знайти таку функцію, якщо я знаю, що розподіли фактичних негативних та фактичних позитивних випадків не є нормальними?


1
Терміни (на жаль) використовуються різними людьми та в різних контекстах. Чи можете ви надати посилання на / подати приклад, коли люди розрізняють їх?
gung - Відновіть Моніку

Ось що я намагаюся розібратися, чим вони відрізняються і як я можу їх розрізнити.
Алі Султан

1
Досить справедливо, але хтось сказав вам, що вони повинні були бути різними?
gung - Відновити Моніку

2
На цьому сайті деякі люди використовували «підгонку кривих» у відчуттях, що не можна вважати регресією. Наприклад, деякі з них розглядають оцінку щільності як форми "кривої прилягання" до гістограми.
whuber

Відповіді:


22

Я сумніваюся, що існує чітка та послідовна різниця між статистично налаштованими науками та областями між регресією та приляганням кривих .

Регресія без кваліфікації передбачає лінійну регресію та оцінку найменших квадратів. Це не виключає інших чи ширших почуттів: дійсно, коли ви дозволите логіт, Пуассон, негативну біноміальну регресію тощо, і т. Д., Стає важче зрозуміти, що моделювання в певному сенсі не є регресією.

Підганяння кривих буквально підказує криву, яку можна намалювати на площині або принаймні у низькомірному просторі. Регресія не настільки обмежена і може передбачати поверхні в декількох розмірних просторах.

Крива підгонка може або не може використовувати лінійну регресію та / або найменше квадрати. Це може означати підгонку полінома (ряду потужностей) або набору синусоїдних і косинусних термінів, або якимось іншим чином насправді кваліфікується як лінійна регресія в ключовому сенсі встановлення функціональної форми лінійної в параметрах. Дійсно, крива прилягання, коли нелінійна регресія теж регресія.

Термін «підганяння кривих» може використовуватися в зневажливому, зневажливому, зневажливому або зневажливому розумінні («це просто прилягання кривої!») Або (майже повне протилежне), що може означати підгонку конкретної кривої, ретельно обраної з конкретною фізичною (біологічною, економічне, що б не було) обґрунтування або з урахуванням конкретних видів початкової чи обмежувальної поведінки (наприклад, завжди позитивне, обмежене в одному або обох напрямках, монотонне, з перегином, з єдиним поворотом, коливальне тощо).

Одне з декількох нечітких питань тут полягає в тому, що одна і та ж функціональна форма може бути в кращому випадку емпіричною в одних обставинах і відмінною теорією в інших. Ньютон вчив, що траєкторії снарядів можуть бути параболічними і так природно прилаштовуються квадратикою, тоді як квадратик, пристосований до вікової залежності в соціальних науках, часто є лише видумленням, яке відповідає деякій кривизні даних. Експоненціальний розпад - це дійсно хороше наближення радіоактивних ізотопів і іноді не надто шалений здогад про спосіб зменшення значень земель із відстанню від центру.

Ваш приклад не отримує від мене явних здогадок. Тут багато чого полягає в тому, що при дуже малому наборі даних і точно відсутній інформації про те, які змінні є, або як вони очікують себе поводити, можна було б безвідповідально чи нерозумно запропонувати модель моделі. Можливо, дані повинні різко піднятися з (0, 0), а потім наблизитись (1, 1), або, можливо, щось інше. Ти нам скажи!

Примітка. Ні регресія, ні підганяння кривих не обмежуються окремими предикторами або окремими параметрами (коефіцієнтами).


2
"Крива прилягання" означає для мене щось теоретичне (наприклад, низьке значення). Економісти іноді сприймають теоретичну функцію, яка відповідає "графіку", що звучить схоже на деякі звичаї кривого прилягання. Я думаю, що це (наприклад, низькість) має як плюси, так і мінуси, якщо його правильно розуміти. Важко дізнатися, як хтось мав на увазі терміни, чітко без контексту.
gung - Відновіть Моніку

1
@gung Я думаю, що у кількох природних (і неприродних) науках є подібне частково-джокулярне, часткове серйозне використання. Одне з питань полягає в тому, що, враховуючи достатню кількість параметрів, у вас обов'язково мається багато місця для хитання. Мені нагадали моделі часових рядів, які дозволяють не тільки ARIMA, а й синусоїдальні умови та кроки, пандуси та шипи, де тільки підказують дані.
Нік Кокс

По-друге, @gung, підганяння кривої має більш непараметричну конотацію, принаймні для мене.
Крістоф Ганк

1
@ChristophHanck Будь ласка, не вводьте "непараметричні" в це! Дискусія вже досить каламутна!
Нік Кокс

1
@gung: Думаючи, що згладжування сплайнів та методів RKHS взагалі є основою "підгонки кривих", наприклад, я вважаю, що "підгонка кривої" набагато більше теоретична, ніж "регресія". (+1 для NickCox за цю відповідь)
usεr11852 повідомляє Відновити Монік

8

Окрім відмінної відповіді @ NickCox (+1), я хотів поділитися своїм суб’єктивним враженням щодо цієї дещо нечіткої теми термінології . Я думаю, що досить тонка різниця між двома термінами полягає в наступному. З одного боку, регресія часто, якщо не завжди, передбачає аналітичне рішення (посилання на регресори передбачає визначення їх параметрів , звідси мій аргумент щодо аналітичного рішення). З іншого боку, підганяння кривих не обов'язково означає отримання аналітичного рішення, і ІМХО часто може бути і використовується як дослідницький підхід .


2
Не можна щось з аналітичним рішенням використовувати і з розвідувальних причин? Я не думаю, що я знаходжу опозицію, яку ви створюєте.
Амеба каже, що поверніть Моніку

@amoeba: Аналітичні рішення, безумовно, можуть бути використані і для пошукових досліджень. Однак, я висловлюю думку про найпопулярнішу мається на увазі суть відповідних термінів.
Олександр Блех
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.