Визначення найкращої функції підгонки кривої з лінійних, експоненціальних та логарифмічних функцій


18

Контекст:

З питання про обмін стеком з математики (чи можу я створити програму) , хтось має набір точок , і хоче приєднати до нього криву, лінійну, експоненціальну чи логарифмічну. Звичайний метод полягає в тому, щоб почати з вибору одного з них (який визначає модель), а потім зробити статистичні розрахунки.xy

Але насправді хочеться знайти найкращу криву з лінійної, експоненціальної чи логарифмічної.

Нібито, можна було б спробувати всі три, і вибрати найкраще підходящу криву з трьох відповідно до найкращого коефіцієнта кореляції.

Але я якось відчуваю, що це не зовсім кошерно. Загальноприйнятим методом є спочатку вибрати модель, одну з цих трьох (або якусь іншу функцію зв'язку), потім з даних обчислити коефіцієнти. І пост-факто збирання найкращого з усіх - це вишня. Але для мене, чи ви визначаєте функцію або коефіцієнти з даних, це все одно, ваша процедура виявляє найкраще ... річ (скажімо, яка функція - також - ще один коефіцієнт o повинен бути виявлений).

Запитання:

  • Чи доцільно вибирати найкращу модель, що підходить, з лінійних, експоненціальних та логарифмічних моделей на основі порівняння статистики придатності?
  • Якщо так, то який найбільш підходящий спосіб зробити це?
  • Якщо регресія допомагає знайти параметри (коефіцієнти) у функції, чому не може бути дискретний параметр для вибору, з якої з трьох сімей кривих найкраще походить?

1
Я додав тег вибору моделі для вашої зручності: посилання через нього створить велику кількість безпосередньо релевантних потоків. Інші теги, на які варто звернути увагу, включають aic . Зрештою, ви повинні виявити, що в математичному викладі цієї проблеми відсутні два важливі елементи: опис того, як і чому точки можуть відхилятися від теоретичної кривої, та вказівка ​​вартості не отримання точно правильної кривої. Якщо немає цих елементів, існує безліч різних підходів, які можуть дати різні відповіді, показуючи, що "найкраще" є неправильним визначенням.
whuber

1
Ви можете відкласти відсоток своїх даних для перевірки на моделі та вибрати модель, яка найкраще відповідає тому набору даних перевірки. Таким чином, ви по суті маєте три різних набори для розділення своїх даних на 1. дані для підготовки однієї моделі 2. дані, які підтверджують кожну модель, що дозволяє вибрати найкращу модель, і 3. ваші фактичні дані про остаточну валідацію, які не торкаються .
kleineg

1
@kleineg Це звучить як правильний напрямок. Вибір моделі (наприклад, між lin / exp / log) нагадує гіперпараметр єдиної моделі, який певним чином є лише черговою стадією регулярних параметрів, і вступ у неї окремими етапами поїзд / перевірка / тест може бути узагальнений.
Мітч

Доречно: {Тонкий спосіб перевиконання] ( johndcook.com/blog/2015/03/17/a-subtle-way-to-over-fit ) - вибір декількох функцій моделі (наприклад, exp vs linear vs log) просто ще один параметр. Ви можете розглянути це як гіперпараметр (який потребує кроку перевірки) або звичайний параметр у складній функції комбінації (де це було б перевірено на етапі тестування).
Мітч

Відповіді:


9
  • Ви можете перевірити безкоштовне програмне забезпечення під назвою Eureqa . Він має конкретну мету автоматизувати процес пошуку як функціональної форми, так і параметрів заданого функціонального співвідношення.
  • Якщо ви порівнюєте моделі з різною кількістю параметрів, ви, як правило, хочете використовувати міру відповідності, яка карає моделі з більшою кількістю параметрів. Існує багата література про те, яка відповідна міра найбільш підходить для порівняння моделей, а питання ускладнюються, коли моделі не вкладаються. Мені було б цікаво почути, що інші вважають найбільш підходящим індексом порівняння моделей з огляду на ваш сценарій (як бічна сторона, в моєму блозі нещодавно було обговорено показники порівняння моделей у контексті порівняння моделей для підгонки кривих).
  • З мого досвіду, нелінійні регресійні моделі використовуються з причин, що виходять за рамки чистої статистичної відповідності даним даним:
    1. Нелінійні моделі роблять більш правдоподібними прогнози поза межами діапазону даних
    2. Для нелінійних моделей потрібна менша кількість параметрів для еквівалентної підгонки
    3. Нелінійні регресійні моделі часто застосовуються в областях, де є суттєві попередні дослідження та вибір теорії, що керують моделлю.

5

Це питання, яке діє в дуже різноманітних областях.

Найкраща модель - це та, яка може передбачити точки даних, які не були використані під час оцінки параметрів. В ідеалі можна обчислити параметри моделі за допомогою підмножини набору даних та оцінити ефективність придатності для іншого набору даних. Якщо вас цікавлять деталі, зробіть пошук із "перехресною валідацією".

Отже, відповідь на перше питання - «Ні». Ви не можете просто взяти найкращу модель. Зображення, вам підходить многочлен з N-м ступенем до N точок даних. Це буде ідеально підходить, тому що вся модель точно передасть усі точки даних. Однак ця модель не буде узагальнювати нові дані.

Наскільки я можу сказати, найбільш підходящий спосіб - це обчислити, наскільки ваша модель може узагальнити інші набори даних, використовуючи метрики, які одночасно карають амплітуду залишків і кількість параметрів у вашій моделі. AIC та BIC - це деякі з цих показників, які я знаю.


3

Оскільки багато людей регулярно досліджують пристосування різних кривих до своїх даних, я не знаю, звідки беруться ваші застереження. Зрозуміло, існує той факт, що квадратика завжди буде відповідати принаймні так само як лінійна і кубічна, принаймні, як і квадратична, тому існують способи перевірити статистичну значимість додавання такого нелінійного терміна і, таким чином, уникати зайвих складностей. Але основна практика тестування багатьох різних форм стосунків - це лише хороша практика. Насправді, можна почати з дуже гнучкої регресії лесових тканин, щоб побачити, який найбільш вірогідний тип кривої має відповідати.


3
Чи підходить квадратик краще, буде залежати від того, наскільки ви добре функціонували. Зокрема, якщо ви використовуєте міру придатності, яка карає моделі з більшою кількістю параметрів (наприклад, AIC), то, наприклад, придатність може бути гіршою для квадратичної та лінійної.
Джеромі Англім

9
@rolando, можливо, я нерозумію, але, відверто кажучи, така (некваліфікована) порада - це саме та річ, проти якої ми, як статистики, витрачаємо стільки часу, "бореться". Зокрема, якщо ОП цікавить щось, що не відповідає простому підключенню кривої, наприклад, передбачення або висновок, дуже важливо зрозуміти наслідки підходу до статистики "просто спробуйте все, що ви можете придумати".
кардинал

2
У мене виникають труднощі з узгодженням цих коментарів з традиціями Anscombe, Tukey, Mosteller, Tufte та Cleveland, яка підкреслює необхідність візуалізації та дослідження даних та розміщення форми кожного взаємозв'язку перед створенням моделі, встановлення коефіцієнтів або генерування інших статистичних даних.
rolando2

8
Є багато суперечок щодо їх підходів. Надто спрощений спосіб узагальнення цих питань полягає в тому, що якщо ви хочете дізнатися про закономірності та зробити нові відкриття, які потребують подальшої перевірки, дослідницький аналіз є доцільним. Якщо ви хочете зробити висновок (причина від конкретної вибірки до загальної сукупності з використанням P-значень, довірчих інтервалів тощо), то не так багато.
Френк Харрелл

4
Це найпродуктивніший потік коментарів, який я бачив у CV, особливо обмінний b / t rolando2 (3 ^) & @FrankHarrell. Також я вважаю обидва підходи дуже привабливими. Моя власна резолюція полягає в тому, щоб запланувати тестування заздалегідь і лише підходити / тестувати цю модель для того, щоб зробити чіткі висновки, а також всебічно вивчити дані (не вважаючи, що результати обов'язково мають місце) задля виявлення того, що може бути правдою & планування наступного дослідження. (Чи варто провести ще одне дослідження і щось перевірити, чи буде це цікаво / важливо?) Ключовим є ваші переконання щодо результатів цих аналізів.
gung - Відновіть Моніку

3

Вам дійсно потрібно знайти баланс між наукою / теорією, яка веде до даних, і тим, що дані вам говорять. Як казали інші, якщо ви дозволите собі підходити до будь-якої можливої ​​трансформації (поліноми будь-якого ступеня тощо), тоді ви закінчитеся надягатись і отримуєте щось марне.

Один із способів переконати себе в цьому - через моделювання. Виберіть одну з моделей (лінійну, експоненціальну, журнальну) та генеруйте дані, що відповідають цій моделі (з вибором параметрів). Якщо ваша умовна дисперсія значень y мала відносно поширення змінної x, то простий графік дасть зрозуміти, яка модель була обрана і що таке "істина". Але якщо ви вибираєте набір параметрів, таких, що це не очевидно з сюжетів (напевно, випадок, коли аналітичне рішення представляє інтерес), тоді проаналізуйте кожен із 3-х способів і подивіться, який "найкращий" варіант відповідає. Я очікую, що ви виявите, що "найкраще" пристосування часто не є "справжнім".

З іншого боку, іноді ми хочемо, щоб ці дані нам якомога більше розповідали, і, можливо, у нас немає науки / теорії, щоб повністю визначити характер відносин. Оригінальний документ Box and Cox (JRSS B, том 26, № 2, 1964 р.) Розглядає способи порівняння декількох перетворень на змінній y, їх заданий набір перетворень має лінійний і журнал як особливі випадки (але не експоненціальні) , але нічого в теорії статті не обмежує вас лише їх сімейством перетворень, та ж методологія може бути розширена, щоб включити порівняння між трьома моделями, які вас цікавлять.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.