Перетворення даних про пропорції: коли квадратного кореня арцина недостатньо


20

Чи існує (сильніша?) Альтернатива трансформації кореня квадратного дугу для даних про відсотки / пропорції? У наборі даних, над яким я працюю на даний момент, позначена гетеросцедастичність залишається після того, як я застосую цю трансформацію, тобто графік залишків та встановлених значень все ще є дуже ромбоїдним.

Відредаговано для відповіді на коментарі: дані є інвестиційними рішеннями експериментальних учасників, які можуть інвестувати 0-100% фонду в кратні 10%. Я також переглянув ці дані за допомогою порядкової логістичної регресії, але хотів би побачити, що може отримати справжній glm. Плюс я міг бачити відповідь корисною для подальшої роботи, оскільки квадратний корінь арцина, здається, використовується як рішення, що відповідає моєму розміру, і я не натрапив на альтернативи.


2
З чого пристосовані значення? Яка ваша модель? арцин - це (приблизно) дисперсія, стабілізуюча для двочлена, але ви все одно матимете «крайові» ефекти, якщо пропорції будуть близькими до 0 або 1 - тому що нормальна частина фактично стає усіченою.
ймовірність

1
Дозвольте мені подвоїти те, що сказав @probabilityislogic, а також запитати, звідки беруться дані. У проблемі може бути щось, що говорить про іншу трансформацію, або іншу модель цілком, що може бути більш доцільним та / або інтерпретаційним.
JMS

1
@prob @JMS Чому ми не дозволимо ОП, який, на мою думку, досить добре знає статистику, спершу спробувати шлях перетворення? Тоді, якщо це не спрацює, було б корисно розпочати нову нитку, в якій проблема представлена ​​менш вузько. Ваші коментарі були б доречними в цьому контексті.
whuber

1
Існують величезні проблеми з трансформацією квадратного кореня дуги, прямо описаною в кумедному
mkt - Відновити Моніку

1
@mkt Спасибі за довідку, це перейшло безпосередньо до лекції наступного курсу про узагальнені лінійні моделі.
Фрея Гаррісон

Відповіді:


28

Звичайно. Джон Тукі описує сімейство (що зростає, один на один) перетворень в EDA . Він заснований на таких ідеях:

  1. Щоб мати можливість розгинати хвости (у напрямку до 0 і 1), як це керується параметром.

  2. Проте, щоб відповідати оригінальним (непреобразованним) значенням ближче до середини ( 1/2 ), що робить перетворення легше інтерпретувати.

  3. Зробити повторний вираз симетричним приблизно 1/2. Тобто, якщо p є повторно виражена як f(p) , то 1-p буде повторно виражена як -f(p) .

Якщо ви починаєте з будь-яким зростаючим монотонної функцією г:(0,1)R диференційована в 1/2 ви можете налаштувати його для задоволення другого і третього критерію: просто визначити

f(p)=g(p)g(1p)2g(1/2).

Чисельник явно симетричний (критерій (3) ), тому що заміна p на 1p обертає віднімання, тим самим відкидаючи його. Для того, щоб бачити , що (2) виконано, зауважимо , що знаменник є саме фактор потрібно зробити f(1/2)=1. Нагадаємощо похідна аппроксимирует локальне поведінка функції з лінійною функцією; нахил 1 = 1 : 1 тим самим означає, що f ( p ) p (плюс константа1=1:1f(p)p1/2 )колиp досить близько до1/2. Самецьому сенсів якому вихідні значення «відповідають ближче до середини.»

Tukey називає це "складеною" версією g . Його сім'я складається з силових і логарифмічних перетворень g(p)=pλ де при λ=0 ми вважаємо g(p)=log(p) .

Давайте розглянемо кілька прикладів. Колиλ=1/2 ми отримуємо складений корінь, або "Froot,"f(p)=1/2(p1p). Колиλ=0ми маємо складний логарифм, або "flog",f(p)=(log(p)log(1p))/4. Очевидно, що це просто постійне кратнеперетворенняlogit,log(p1p).

Графіки лямбда = 1, 1/2, 0 і дуги

На цьому графіку сині ліній відповідають λ=1 , проміжної червоної лінії λ=1/2 , і крайньої зеленої лінію λ=0 . Пунктирною золотою лінією є перетворення дуги, arcsin(2p1)/2=arcsin(p)arcsin(1/2). "Збіжність" схилів (критерій(2) ) викликає все графіки збігаються поблизуp=1/2.

Найбільш корисні значення параметра λ лежать між 1 і 0 . (Ви можете зробити хвости ще важче з негативними значеннями λ , але це використання рідко.) λ=1 нічого взагалі не робити , окрім центрування значень ( f(p)=p1/2 ). Коли λ скорочується до нуля, хвости потягуються далі до ± . Це задовольняє критерію №1. Таким чином, вибравши відповідне значення λ , ви можете контролювати «силу» цього повторного вираження в хвостах.


whuber, знаєш яку-небудь функцію R, яка виконує цю функцію автоматично?
Іван

1
@John Ні, ні, але це досить просто втілити в життя.
whuber

2
Я не бачив це в основному складно, але було б добре, якби було щось на кшталт перетворень бокс-коксу, які автоматично розробили найкращий вибір для лямбда. Так, не страшно реалізувати ...
Іван

2
Дякую Уаубер, це саме та річ, яку я шукав, і графік дуже корисний. Безумовно, погоджуйтесь з Джоном, що щось на кшталт boxcox було б корисним, але це здається досить простим, щоб переробити.
Фрея Гаррісон

7

Одним із способів включення є включення індексованого перетворення. Одним із загальних способів є використання будь-якої симетричної (зворотної) функції кумулятивного розподілу, так що і F ( x ) = 1 - F ( - x ) . Одним із прикладів є стандартний розподіл студентів t з ν ступенем свободи. Параметр v керує тим, як швидко трансформована змінна скидається до нескінченності. Якщо встановити v = 1, то у вас є перетворення арктану:F(0)=0.5F(x)=1F(x)νvv=1

x=arctan(π[2p1]2)

Це набагато більш екстремально, ніж дугоподібне, і більш екстремальне, ніж трансформація Logit. Зауважимо, що перетворення logit можна приблизно оцінити, використовуючи t-розподіл з ν8 . Так якимось чином він забезпечує приблизний зв'язок між logit і probit ( ) перетвореннями, і розширення їх на більш екстремальні перетворення.ν=

Проблема цих перетворень полягає в тому, що вони дають коли спостережувана частка дорівнює 1 або 0 . Тож вам потрібно якось зменшити їх якось - найпростіший спосіб - додати + 1 "успіх" і±10+1 "провал".+1


2
З різних причин Тукі рекомендує додавати +1/6 до рахунків. Зауважте, що ця відповідь є особливим випадком складання підходу Tukey, який я описав: будь-який CDF з позитивним PDF є монотонним; складання симетричного CDF залишає його незмінним.
whuber

2
Мені було цікаво, звідки походить ваше грубе наближення. Як ви доходите до ? Я не можу це відтворити. Я приймаю , що наближення має зламатися в крайньому р поблизу 0 або 1 , але я вважаю , що ν = 5 є набагато краще підходить для логіт для р близько 1 / 2 . Ви, можливо, оптимізуєте якусь міру середньої різниці між CDF t ν та logit ? ν8p01ν=5p1/2tνlogit
whuber

2
t8f(x)=ex(1+ex)25

5
@whuber Однією з причин додавання 1/6 до підрахунків є те, що отримане "запущене" підрахунок приблизне до середньої задньої, припускаючи біноміальне розподіл з Джефрісом раніше (я трохи пишу про це тут: sumsar.net/blog/2013/09/ а-байезійський-твіст-на-тукі-фліг ). Однак я не знаю, чи це причина Тукі для додавання 1/6. Чи знаєте ви, в чому його причина?
Rasmus Bååth

4
xxi<xxi=x(xi)
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.