Трансформація, щоб змінити перекос, не впливаючи на куртоз?


11

Мені цікаво, якщо є перетворення, яке змінює перекос випадкової величини, не впливаючи на куртоз. Це було б аналогічно тому, як аффінна трансформація RV впливає на середню та дисперсію, але не перекос і куртоз (почасти тому, що перекос і куртоз визначаються як інваріантні змінам масштабу). Це відома проблема?


Чи потрібно вам, щоб стандартне відхилення залишалося постійним і при цьому перетворенні?
russellpierce

ні, я сподіваюся, що цього не буде, але надлишковий куртоз повинен залишатися зафіксованим. Я б очікував, що трансформація буде монотонною, проте, бажано детермінованою.
shabbychef

1
Yikes - горе людині, яка хоче довести недетерміновану функцію, є монотонною.
russellpierce

Відповіді:


6

Моя відповідь - це початки тотальної хаки, але я не знаю жодного усталеного способу робити те, що ви просите.

Першим моїм кроком було б ранжувати порядок набору даних, ви зможете знайти пропорційну позицію у вашому наборі даних, а потім перетворити його на звичайний розподіл. Цей метод був використаний у Reynolds & Hewitt, 1996. Див. Зразок R-коду нижче в PROCMiracle.

Коли розподіл нормальний, то проблема повернута на голову - питання коригування куртозу, але не перекос. Пошук у Google запропонував дотримуватися процедур John & Draper 1980 р. Для коригування куртозу, але не перекосу, але я не міг повторити цей результат.

Мої спроби розробити функцію сирого розповсюдження / звуження, яка приймає вхідне (нормалізоване) значення і додає або віднімає з нього значення, пропорційне положенню змінної в нормальній шкалі, призводить до монотонного регулювання, але на практиці має тенденцію створювати бімодальний розподіл, хоча такий, що має бажані значення косості та куртозу.

Я усвідомлюю, що це не повна відповідь, але я думав, що це може стати кроком у правильному напрямку.

PROCMiracle <- function(datasource,normalrank="BLOM")
  {
     switch(normalrank,
      "BLOM" = {
                  rmod <- -3/8
                  nmod <- 1/4
                },
      "TUKEY" = {
                  rmod <- -1/3
                  nmod <- 1/3
                },
      "VW" ={
                  rmod <- 0
                  nmod <- 1
            },
      "NONE" = {
                  rmod <- 0
                  nmod <- 0
                }
    )
    print("This may be doing something strange with NA values!  Beware!")
    return(scale(qnorm((rank(datasource)+rmod)/(length(datasource)+nmod))))
  }

Я робив щось подібне: ранжуйте, а потім використовуйте перетворення g-і-h, щоб отримати фіксований куртоз та перекос. Однак ця методика передбачає, що я фактично знаю куртоз населення, який я можу оцінити, але мене філософськи цікавлять, якщо є трансформація, яка зберігає куртоз, не знаючи, що це таке
shabbychef

@shabbychef: О, добре вибачте, що не додали нічого нового. Однак ви додали щось нове, я раніше не чув про формулу g-and-h. Чи є у вас доступне цитування, яке це забезпечує? Я натрапив на один папір із викладеною формою ( fic.wharton.upenn.edu/fic/papers/02/0225.pdf ), але поняття мені трохи чуже (зокрема, що e ^ Z ^ g або щось інше )? Я спробував це так ... але результати видалися дивними ... a + b * (e ^ g ^ z-1) * (exp ((h * z ^ 2) / 2) / g).
russellpierce

1
@drnexus: Я не хотів упереджувати результати, згадуючи свою техніку. Я дізнався про розподіли g-and-h та g-and-k від Haynes et al. al, dx.doi.org/10.1016/S0378-3758(97)00050-5 , та Fisher & Klein, econstor.eu/bitstream/10419/29578/1/614055873.pdf
shabbychef

1

Ще одна можлива цікава методика прийшла до тями, хоча це не зовсім відповідає на питання, це перетворення вибірки на фіксований зразок L-перекосу та зразка L-куртозу (а також фіксованого середнього та L-шкали). Ці чотири обмеження є лінійними в статистиці замовлень. Для збереження монотонного перетворення на вибірці з спостережень знадобиться ще одне рівняння. Потім це може бути поставлено як проблема квадратичної оптимізації: мінімізуйтеn - 1 2nn12норма між вибірковою статистикою замовлень та трансформованою версією з урахуванням заданих обмежень. Це, однак, своєрідний дурний підхід. У первісному питанні я шукав щось більш базове та принципове. Я також неявно шукав методику, яку можна було б застосувати до окремих спостережень, незалежно від наявності цілої групи зразків.


0

Я б швидше моделював цей набір даних, використовуючи лептокуртичний розподіл, а не використовуючи перетворення даних. Мені подобається розподіл sinh-arcsinh від Jones and Pewsey (2009), Biometrika.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.