Які відносні переваги даних Winsorizing vs Trimming?

31

Вінсоризація даних означає заміщення крайніх значень набору даних певним відсотковим значенням з кожного кінця, тоді як обрізка або обрізання передбачає видалення цих крайніх значень.

Я завжди бачу, як обидва методи обговорюються як життєздатний варіант зменшення ефекту випускників при обчисленні статистичних даних, таких як середнє або стандартне відхилення, але я не бачив, чому можна вибрати один за іншим.

Чи є якісь відносні переваги чи недоліки щодо використання Winsorizing або обрізки? Чи є певні ситуації, коли один спосіб був би кращим? Чи використовується це частіше на практиці чи вони в основному взаємозамінні?

— Брайан
джерело

2

Термінологія тут вводить в оману. Обрізка означає ігнорування екстремальних значень, деяку частку в кожному хвості. Це не означає вилучення або скидання значень у хвости, не в останню чергу тому, що ви можете, і зазвичай, повинні включати їх в інші аналізи. Термін усічення найкраще зарезервовано для інших значень. Див., Наприклад, en.wikipedia.org/wiki/Truncation_(statistics)

— Нік Кокс

11

У іншому, але пов’язаному з цим питанні про підстригання, на яке я щойно натрапив, одна відповідь мала наступне корисне розуміння того, чому можна використовувати перемогу або обрізку:

Якщо ви берете обрізаний розподіл, ви чітко заявляєте: Мене не цікавлять люди, що переживають / хвости розповсюдження. Якщо ви вважаєте, що "люди, що пережили", справді є непрацездатними (тобто не належать до розподілу, а є "іншого виду"), тоді робіть обрізку. Якщо ви думаєте, що вони належать до дистрибуції, але ви хочете мати менш перекошений розподіл, ви можете подумати про виграшізацію.

Мені цікаво, якщо є більш визначений підхід, але вищенаведена логіка звучить розумно.

— Брайан
джерело

4

Хороше запитання, з яким стикаються дуже часто у всіх галузях! В будь-якому випадку ви технічно їх видаляєте з набору даних.

Я знаю, що це звичайна практика, коли намагаються графічно знайти тенденцію використовувати форму усікання: використовувати весь набір даних для побудови графіків, але потім виключити крайні значення для інтерпретації.

Проблема "winorizing" полягає в тому, що додані вами частини заповнюються самостійно, тобто вони походять із самого набору даних і тому просто підтримують його. Існують симуляторні проблеми, якщо ви дивитесь на роботу з перехресною валідацією / класифікацією в машинному навчанні, вирішуючи, як використовувати набори даних для навчання та тестування.

Я ні в якому разі не натрапив на стандартизований підхід - це завжди конкретні дані. Ви можете спробувати дізнатися, який процентний показник ваші дані (люди, що випадають) викликають певний відсоток нестабільності / о. відхилення, і знайти баланс між зниженням цієї мінливості, але збереженням якомога більшої кількості даних.

— n1k31t4
джерело

6

Як і в моєму коментарі вище, "видалення їх із набору даних" тут занадто сильне. Обрізання або перемогу просто означає те, що він робить, ігноруючи або замінюючи, як це можливо, для певного розрахунку. Ви не зобов’язані вилучати хвостові значення із набору даних, як ніби викидали гнилі плоди. Наприклад, зіткнувшись з можливими людьми, що випадають, ви можете зробити аналіз даних під час їх надходження та аналіз, заснований на обрізанні, і побачити, яка різниця це робить.

— Нік Кокс

-1

Це хороше запитання, і з одним я стикався. У випадках, коли у вас є великий набір даних або більш точно змінюється набір даних, коли менша кількість даних змінюється в широкому масштабі (але, тим не менш, їх потрібно відображати), і більшість наборів даних знаходиться у вузькій смузі, таким чином, що якщо дані побудовані так, як є, деталі, де більшість даних лежать, втрачаються, а нормалізація або стандартизація не демонструє адекватної диференціації (принаймні візуально), або, замість цього, потрібні необроблені дані, а потім обрізання або переможеність екстремальні значення даних допомагають покращити візуалізацію даних.

— гість
джерело

Це гарне запитання, але ви не відповідаєте на нього. Ви просто говорите, що обрізання або Winsorizing може допомогти візуалізації.

— Нік Кокс

-2

$O(n \log n)$ $O(n)$ $(1,2,3,4,4)$ $(2+2+3+4+4)/5$ $(2+3+4)/3$ $(2+3+4+4)/4$

— Марк Лаката
джерело

1

O (n \log n)

$O(n\log n)$

O (n)

$O(n)$

Ви праві. Я неправильно ввів свою оригінальну публікацію. Іноді вводити пальці та мозок не синхронізовано. Я мав на увазі сказати, щоб правильно обчислити справжню усічену середину , потрібно сортувати всі елементи даних. Я вважаю, що це все-таки так. Я оновив відповідь.

— Марк Лаката

2

Здається, це означає, що Winsorizing означає Winsorizing 25% в кожному хвості. Ви можете виграти настільки ж, як мало здається, доцільно.

— Нік Кокс