Які інші нормалізуючі перетворення зазвичай використовуються поза загальними, як квадратний корінь, журнал тощо?


10

При аналізі тестових балів (наприклад, у галузі освіти або психології) загальні методи аналізу часто передбачають нормальне поширення даних. Однак, можливо, частіше за все бали, як правило, дико відхиляються від нормальних.

Мені знайомі деякі основні нормалізуючі перетворення, як-от: квадратні корені, логарифми, зворотні перетворення для зменшення позитивного перекосу, відображені версії вищезгаданого для зменшення негативного перекосу, квадратування для лептокуртичних розподілів. Я чув про перетворення дуг і силові перетворення, хоча я не дуже знаю про них.

Отже, мені цікаво, які інші трансформації зазвичай використовують аналітики?

Відповіді:


5

Box-Cox перетворення включає в себе багато з тих , які ви цитували. Дивіться цю відповідь для отримання детальної інформації:

ОНОВЛЕННЯ: Ці слайди дають досить хороший огляд трансформацій Box-Cox.


Якщо застосувати t-інструменти до трансформованих даних Box-Cox, ми отримаємо висновки про різницю засобів перетворених даних. Як ми можемо інтерпретувати ті, що знаходяться в оригінальній шкалі вимірювання? (Середнє значення перетворених значень не є перетвореним середнім). Іншими словами (якщо я правильно), беручи обернене перетворення оцінки середнього значення, за перетвореною шкалою, не дає оцінку середнього рівня за початковою шкалою.
Джордж Донтас

@ gd047, деякі тести передбачають нормальність розподілу середнього, а не даних. t-тест, як правило, є досить надійним, ніж основні дані. Ти маєш рацію - проте з тестами після трансформації результати повідомляються після зворотної трансформації, і інтерпретація може бути дуже проблематичною. Це зводиться до того, наскільки "ненормальні" ваші дані, чи можете ви піти, не перетворюючи або застосовуючи, скажімо, перетворення журналу, яке простіше інтерпретувати. В іншому випадку це контекстуально щодо фактичної трансформації та домену, і я насправді не маю гарної відповіді. Невже варто поцікавитися, щоб подивитися, що кажуть інші?
АРС

10

Перший крок повинен бути запитати , чому ваші змінні не є нормально розподіленими. Це може бути освітленням. Загальні висновки з мого досвіду:

  • Тести здібності (наприклад, іспити, тести на інтелект, вступні тести), як правило, негативно перекошуються, коли є ефект стелі, і позитивно перекошуються, коли є ефекти підлоги. Обидва результати свідчать про те, що рівень складності тесту не оптимізований для вибірки, або занадто легкий або занадто важкий для оптимальної диференціації здатності. Це також означає, що латентна змінна величина, що цікавить, все ще може бути нормально розподілена, але структура тесту викликає перекос вимірюваної змінної.
  • Тести здібності часто мають вищого рівня з точки зору низьких балів. Коротше кажучи, існує багато способів зробити погано тест. Зокрема, це іноді можна побачити на іспитах, де є невеликий відсоток студентів, де певна комбінація недостатньої здатності та нестачі зусиль поєднується, щоб створити дуже низькі бали тестів. Це означає, що латентна змінна величина інтересу, ймовірно, має декілька людей, що переживають.
  • Що стосується тестів самозвітності (наприклад, особистості, тестів на відношення тощо), перекос часто виникає, коли вибірка є властивою високою шкалою (наприклад, розподіл задоволеності життям негативно перекошений, оскільки задоволена більшість людей) або коли шкала оптимізовано для вибірки, відмінної від тієї, до якої застосовується тест (наприклад, застосування клінічної міри депресії до неклінічної вибірки).

Цей перший крок може запропонувати модифікації конструкції тесту. Якщо ви усвідомлюєте ці проблеми достроково, можете навіть розробити тест, щоб уникнути їх, якщо ви вважаєте їх проблематичними.

Другий крок повинен вирішити , що робити в ситуації , коли у вас є не-звичайні дані. Перетворення приміток - це лише одна можлива стратегія. Я ще раз зазначив загальні поради з попередньої відповіді щодо ненормальності :

  • Багато процедур, які передбачають нормальність залишків, є надійними для скромних порушень нормальності залишків
  • Запуск завантаження - це, як правило, хороша стратегія
  • Трансформації - ще одна добра стратегія. Зауважте, що з мого досвіду типи легкого перекосу, які зазвичай трапляються при психологічних тестах на здатність та самозвіт, зазвичай можна легко перетворити на розподіл, що наближається до нормальності, використовуючи журнал, sqrt або зворотну трансформацію (або зворотний еквівалент).

9

Джон Тукі систематично обговорює трансформації у своїй книзі про EDA. На додаток до сімейства Box-Cox (афінним масштабуванням силових перетворень) він визначає сімейство "складених" перетворень на пропорції (по суті потужності x / (1-x)) і "запущені" підрахунки (додавання позитивного зміщення до підрахованих даних перш ніж їх трансформувати). Складені перетворення, які по суті узагальнюють logit, особливо корисні для тестових балів.

Зовсім іншим чином Джонсон і Коц у своїх книгах про дистрибуції пропонують безліч перетворень, призначених для перетворення тестової статистики для наближення нормальності (або до якогось іншого цільового розподілу), наприклад перетворення куба-кореня для chi-квадрата. Цей матеріал є чудовим джерелом ідей щодо корисних перетворень, коли ви очікуєте, що ваші дані будуть дотримуватися певного розповсюдження.


2

Простий варіант - використовувати суми балів замість самих балів. Сума розподілів прагне до нормальності. Наприклад, у програмі Освіта ви можете додати оцінку учня за серію тестів.

Інший варіант, звичайно, полягає у використанні технік, які не припускають нормальності, які недооцінюються та недостатньо використовуються.


1
Я вважаю, що суми потрібно нормалізувати (наприклад, використовувати середній бал), щоб розподіл прагнув до нормальності.

1
Так, це правильно. У своєму прикладі я припускав, що на заняттях буде однакова кількість учнів, що не реально. Дякую.
Карлос Аціоліо

1

XFY LambertW×F

XN(μ,σ2)θ=(μx,σx,δ,α)α1

Тепер, як перетворення даних, це стає цікавим, оскільки перетворення є бієктивним (майже бієктивним для косого випадку) і може бути отримано явно за допомогою функції W Ламберта (звідси назва Lambert W x F). Це означає, що ми можемо видалити косості з даних, а також видалити важкі хвости (біектично!).

Ви можете спробувати це за допомогою пакета LambertW R, в посібнику показано багато прикладів того, як ним користуватися.

Про програми див. Ці повідомлення

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.