Чому для підрахунку даних рекомендується перетворення квадратного кореня?


57

Часто рекомендується взяти квадратний корінь, коли у вас є дані про підрахунок. (Для деяких прикладів з резюме див. Відповідь @ HarveyMotulsky тут або відповідь @ wuber тут .) З іншого боку, при встановленні узагальненої лінійної моделі зі змінною відповіді, розподіленою як Пуассон, журнал є канонічним посиланням . Це щось на зразок прийняття журнальної трансформації ваших даних відповідей (хоча точніше, це перетворення журналу , параметра, що регулює розподіл відповідей). Таким чином, існує певна напруга між цими двома. λ

  • Як ви погоджуєте цю (явну) невідповідність?
  • Чому квадратний корінь був би кращим за логарифм?

Відповіді:


45

Квадратний корінь приблизно стабілізує дисперсію для Пуассона . На квадратному корені є ряд варіантів, які покращують властивості, наприклад додавання 38 перед тим, як взяти квадратний корінь, абофрімана-тукея(X+X+1 - хоча він часто коригується і для середнього).

введіть тут опис зображення

Трансформація квадратного кореня дещо покращує симетрію - хоча і не так, як 23 потужність робить [1]:

введіть тут опис зображення

Якщо ви особливо хочете майже нормальності (доки параметр Пуассона насправді не малий) і не піклуєтесь про / може налаштувати на гетероседастичність, спробуйте 23

y=log(y+c)0c0.40.5μ120.43

Що стосується того, чому люди обирають одну трансформацію через іншу (або ні одну) - це справді питання того, що вони роблять для досягнення.

[1]: Сюжети з малюнком після сюжетів Генріка Бенгтссона в його роздавальному матеріалі "Узагальнені лінійні моделі та перетворені залишки" дивіться тут (див. Перший слайд на стор. 4). Я додав трохи y-джиттера і пропустив рядки.


1
(0,+)(,+)λ

2
Xy

1
+1 Квадратний корінь - це лише відправна точка для роботи з даними підрахунку. Логарифм також є хорошим вибором. Дані часто говорять про те, хто з них є більш успішним в отриманні корисного та короткого опису. Гунг, у відповіді, на яку ви посилаєтесь , демонстрація того, що квадратний корінь був хорошим вибором, лежить у симетричному розподілі невідстаючих залишків, очевидних на малюнку правої руки. Коли ви змінюєте параметри моделювання, ви виявите, що симетрія зберігається.
whuber

1
@Glen Я не сказав, що журнали завжди є хорошим вибором. Але іноді вони перевершують коріння. Коли нульові підрахунки з’являються, то так, вам потрібен «розпочатий» логарифм . Інші теми тут обговорювали способи отримання вихідного значення . Коли в даних немає нульових підрахунків, то проблем із журналами взагалі не буде.
whuber

2
x+3/8xx+ccx+3/8
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.