Чому перекошені дані не бажані для моделювання?


16

У більшості випадків, коли люди говорять про змінні перетворення (як для змін прогнозованого, так і для відповіді), вони обговорюють способи лікування нескінченності даних (наприклад, перетворення журналу, перетворення коробки та Кокса тощо). Що я не в змозі зрозуміти, чому усунення косості вважається такою поширеною найкращою практикою? Як косоокість впливає на ефективність різних моделей, таких як моделі на основі дерев, лінійні моделі та нелінійні моделі? Які моделі більше піддаються косості та чому?


2
Для того, щоб дати обґрунтовану відповідь, будь ласка, поясніть, що ви маєте на увазі під собою: а) дані, б) моделювання та в) моделі. Ключове питання - як завжди - це те , що ви хочете зробити з ним . Але що це ?
херувим

Я оновив свою відповідь, щоб додати відповідні цитати та розширити свої претензії.
Таврок

Відповіді:


11

Під час усунення косості перетворення намагаються зробити так, щоб набір даних відповідав розподілу Гаусса. Причина полягає лише в тому, що якщо набір даних може бути перетворений, щоб стати статистично близьким до набору даних Гаусса, то для їх використання доступний найбільший набір інструментів. Випробування, такі як ANOVA, t test, F test та багато інших, залежать від даних, що мають постійну дисперсію ( σ2 ) або слідують за Гауссовим розподілом. 1

Є моделі , які є більш надійними 1 (наприклад, з допомогою тесту Левіна замість тесту Бартлетт), але більшість тестів і моделі , які добре працюють з іншими збірками вимагають , щоб ви знаєте , що розподіл ви будете працювати з і зазвичай підходять тільки для одного розподілу так само.

Для цитування посібника з технічної статистики NIST :

У регресійному моделюванні ми часто застосовуємо перетворення для досягнення наступних двох цілей:

  1. щоб задовольнити однорідність припущень дисперсій для помилок.
  2. максимально лінеаризувати прилягання.

Потрібна певна обережність і судження щодо того, що ці дві цілі можуть суперечити. Ми, як правило, спочатку намагаємося досягти однорідних дисперсій, а потім вирішуємо питання спроби лінеаризувати пристосування.

і в іншому місці

Модель, що включає змінну відповіді та одну незалежну змінну, має вигляд:

Yi=f(Xi)+Ei

де - змінна відповіді, X - незалежна змінна, f - функція лінійної або нелінійної підгонки, а E - випадкова складова. Для гарної моделі компонент помилки повинен вести себе так:YXfE

  1. випадкові малюнки (тобто незалежні);
  2. від фіксованого розподілу;
  3. з фіксованим розташуванням; і
  4. з фіксованою варіацією.

Крім того, для примірних моделей зазвичай додатково передбачається, що фіксований розподіл є нормальним, а нерухоме місце - нульовим. Для гарної моделі фіксована варіація повинна бути якомога меншою. Необхідним компонентом примірних моделей є перевірка цих припущень щодо компонента помилки та оцінка того, чи є варіація для компонента помилки достатньо малою. Гістограма, графік відставання та графік нормальної ймовірності використовуються для перевірки фіксованих припущень щодо розподілу, розташування та варіації на компоненті помилки. Діаграма змінної відповіді та передбачувані значення проти незалежної змінної використовується для оцінки того, чи є варіація достатньо малою. Діаграми залишків проти незалежної змінної та прогнозовані значення використовуються для оцінки припущення про незалежність.

Оцінка обґрунтованості та якості пристосування з урахуванням вищезазначених припущень є абсолютно важливою частиною процесу адаптації моделі. Жодне пристосування не повинно вважатися повним без відповідного кроку перевірки моделі.


  1. (скорочено) цитування претензій:
    • Breyfogle III, Forrest W. Впровадження шести сигм
    • Піздек, Тома. Посібник з шести сигм
    • Montgomery, Douglas C. Вступ до статистичного контролю якості
    • Ред. Cubberly, Willaim H та Bakerjan, Ramon. Посібник з інструментів та виробничих інструментів: Настільний випуск

Дякую за вашу відповідь, Таврок. Але наскільки я знаю, ANOVA або t-тест F-тесту не використовуються в деревах рішень (принаймні, для виконання розщеплення). Крім того, в лінійній регресії більшість припущень щодо форми розподілу пов'язані з помилками. Якщо помилки перекошені, то ці тести виходять з ладу. Отже, це означає, що скасованість змінної предиктора не повинна впливати на якість прогнозування для цих моделей. Будь ласка, виправте мене, якщо я помиляюся. Знову дякую!!
saurav shekhar

1
Чи можете ви уточнити своє запитання - чи хочете ви знати про трансформацію змінної відповіді, або про трансформацію змінних предиктора або обох?
Groovy_Worm

1
@Groovy_Worm дякую за вказівку на це. У цьому питанні мене турбують як прогнозні, так і змінні відповіді.
saurav shekhar

Ви можете шукати узагальнене лінійне моделювання (GLM) . У лінійній регресії ти зазвичай припускаєш, що залежна змінна слід за гауссовим розподілом, що залежить від випадкових змінних X і e . За допомогою GLM ви можете розширити свій Всесвіт, щоб дозволити (майже) будь-який тип розподілу для вашої залежної змінної, ваших незалежних змінних (за допомогою функції зв’язку, яку ви вказали).
Кріс К

7

В основному це стосується параметричних моделей. Як сказав Таврок, наявність змінної відповіді, яка не є перекошеною, сприяє кращому зближенню Гаусса з оцінкою параметрів, тому що симетричний розподіл зближується набагато швидше, ніж перекошений до Гаусса. Це означає, що якщо ви перекосили дані, трансформація їх дозволить зробити менший набір даних, щонайменше, для використання належних довірчих інтервалів та тестів параметрів (інтервали прогнозування все ще не будуть дійсними, тому що навіть якщо ваші дані зараз симетричні, ви не можете сказати це нормально, лише оцінки параметрів збігаються до Гаусса).

Вся ця мова йде про умовний розподіл змінної відповіді, можна сказати: про помилки. Тим не менш, якщо у вас є змінна, яка здається перекошеною, коли ви дивитесь на його безумовний розподіл, це може означати, що вона має косий умовний розподіл. розміщення моделі на ваших даних дозволить вам зрозуміти.

У деревах рішень спершу зазначу одне: немає сенсу трансформувати перекошені пояснювальні змінні, монотонні функції нічого не змінять; це може бути корисно для лінійних моделей, але не на деревах рішень. Слід сказати, що моделі CART використовують аналіз дисперсії для виконання шпигу, і дисперсія дуже чутлива для людей, що пережили та перекосили дані, це є причиною того, що трансформація змінної вашої відповіді може значно підвищити точність вашої моделі.


1

Я вважаю, що це дуже артефакт традиції повертатися до гауссів через їхні приємні властивості.

Але є чудові альтернативи розподілу, наприклад, узагальнена гамма, яка охоплює безліч різних перекошених форм і форм розподілу.


1

Як і інші читачі сказали, корисніше буде ще декілька відомостей про те, що ви плануєте досягти зі своїми даними.

При цьому, у царині статистики є дві важливі доктрини, відомі як теорема про центральну межу і закон великих чисел . Тобто, чим більше спостережень, тим більше наборів даних очікується для нормального розподілу , рівного середнього, медіани та режиму. Відповідно до закону великих чисел, очікується, що відхилення між очікуваною та фактичною величиною з часом знизяться до нуля за умови достатнього спостереження.

Тому нормальний розподіл дозволяє досліднику робити більш точні прогнози щодо популяції, якщо відомий базовий розподіл.

Хиткість - це коли розподіл відхиляється від цього, тобто відхилення може бути позитивно або негативно перекошене. Однак центральна межа теореми стверджує, що, враховуючи достатньо великий набір спостережень, результатом буде приблизно нормальне розподіл. Отже, якщо розподіл не є нормальним, завжди рекомендується спочатку зібрати більше даних, перш ніж намагатися змінити базову структуру розподілу за допомогою згаданих вами процедур перетворення.


1

Коли косою річ погана? Симетричні розподіли (як правило, але не завжди: наприклад, не для розподілу Коші) мають медіану, режим і означають дуже близькі один до одного. Отже, подумайте, якщо ми хочемо виміряти розташування популяції, корисно мати медіану, режим і значення, близькі один до одного.

Наприклад, якщо ми беремо логарифм розподілу доходу , ми зменшуємо нахил достатньо, щоб ми могли отримати корисні моделі розташування доходу. Однак у нас буде ще важчий правий хвіст, ніж ми дійсно хочемо. Щоб зменшити це далі, ми можемо використовувати дистрибутив Pareto . Розподіл Парето подібний перетворенню даних журналу журналу. Зараз і розподіл Pareto, і нормальний журнал мають труднощі з низьким рівнем шкали доходів. Наприклад, страждають обидваln0=-. Лікування цієї проблеми охоплюється силовими перетвореннями .

Приклад з 25 доходів у кілограмах доларів, покладених на веб-сайт www.

k$	lnk$
28  3.33220451
29  3.36729583
35  3.555348061
42  3.737669618
42  3.737669618
44  3.784189634
50  3.912023005
52  3.951243719
54  3.988984047
56  4.025351691
59  4.077537444
78  4.356708827
84  4.430816799
90  4.49980967
95  4.553876892
101 4.615120517
108 4.682131227
116 4.753590191
121 4.795790546
122 4.804021045
133 4.890349128
150 5.010635294
158 5.062595033
167 5.117993812
235 5.459585514

Нахил першого стовпця становить 0,99, а другого - 0,05. Перший стовпець, ймовірно, не є нормальним (Шапіро-Вілк p = 0,04), а другий істотно не є нормальним (p = 0,57).

First column    Mean 90.0 (95% CI, 68.6 to 111.3)     Median 84.0 (95.7% CI, 52.0 to 116.0)
Second col Exp(Mean) 76.7 (95% CI, 60.2 to 97.7) Exp(Median) 84.0 (95.7% CI, 52.0 to 116.0)

Отже, питання полягає в тому, що якщо ви випадкова людина, яка має один із перелічених доходів, що ви, швидше за все, заробляєте? Чи розумно зробити висновок, що ви заробляли б 90к або більше, ніж медіана 84к? Або більш ймовірно зробити висновок, що навіть медіана є упередженою як міра розташування і щодосвід[маю на увазіln(к$)]  76,7 к, що менше середньої, також є більш розумним як оцінка?

Очевидно, що нормальний журнал тут є кращою моделлю, і середній логарифм дає нам кращу міру розташування. Про те, що це добре відомо, якщо не зовсім зрозуміло, проілюстровано фразою "Я передбачаю отримання 5-ти цифрної зарплати".


0

Переважно результати ґрунтуються на припущеннях Гаусса. Якщо у вас перекошений розподіл, у вас немає гауссового розподілу, тому, можливо, вам слід відчайдушно спробувати перетворити його на це.

Але, звичайно, можна спробувати з GLM.


0

Я думаю, що це не просто моделювання, але наші мізки не використовуються для роботи з сильно перекошеними даними. Наприклад, в поведінкових фінансах добре відомо, що ми не вміємо оцінювати дуже низькі або високі ймовірності.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.