Зрізане середнє проти серединного


9

У мене є набір даних із усіма дзвінками до служби швидкої допомоги та часом реагування відділення швидкої допомоги. Вони визнали, що є деякі помилки з часом відгуку, оскільки є випадки, коли вони не починали запис (тому значення дорівнює 0) або коли вони не зупиняли годинник (тому значення може бути надзвичайно високим).

Мені хочеться з’ясувати центральну тенденцію, і мені було цікаво, чи краще використовувати медіану або підстрижене середнє для того, щоб позбутися від інших людей?


1
По-перше, я видалив би всі недійсні дані (значення = 0). Тоді я б візуалізував дані за допомогою гістограми або графічного поля, щоб побачити, де я стою. Тому що ви не можете просто сліпо обрізати дані на 5%, якщо у вас є 10% поганих даних ...
alesc

Так, або побудувати СДФ. У R зробіть це: times = times [times> 0]; сюжет (ecdf (раз))
Павло

Відповіді:


12

Поміркуйте, що означає підстрижений: У прототипічному випадку ви спочатку сортуєте свої дані у порядку збільшення. Потім ви підраховуєте до відсотка обрізки знизу і відкидаєте ці значення. Наприклад, звичайна 10% обрізана середня; у такому випадку ви рахуєте з найнижчого значення, поки не передасте 10% усіх даних у своєму наборі. Значення нижче цієї позначки відкладаються. Аналогічно, ви підраховуєте від найвищого значення до тих пір, поки ви не передасте свій відсоток обрізки, і встановите всі величини, що перевищують цю сторону. Тепер вам залишилось із серединою 80%. Ви берете середнє значення, і це ваша 10% підрізана середня. (Зверніть увагу, що ви можете обрізати неоднакові пропорції з двох хвостів або лише обрізати один хвіст, але ці підходи зустрічаються рідше і не здаються застосовними до вашої ситуації.)

Тепер подумайте, що трапилося б, якби ви порахували 50% обрізаного середнього. Нижня половина буде відкладена, як і верхня половина. У вас буде лише одне значення в середині (звичайно). Ви б сприйняли середню частину цього (що означає, ви просто взяли б це значення) як ваше середнє значення. Зауважте, що це значення є медіаною. Іншими словами, медіана - це порізане середнє значення (це 50% підрізане середнє). Це просто дуже агресивно. По суті, передбачається, що 99% ваших даних забруднені. Це дає вам максимальний захист від сторонніх людей за рахунок кінцевої втрати потужності / ефективності .

Я здогадуюсь, що середня / 50% обрізана середня значно агресивніша, ніж це потрібно для ваших даних, і занадто марнотратна на доступну вам інформацію. Якщо у вас є якесь відчуття частки наявних людей, я б використав цю інформацію, щоб встановити відсоток обрізки та використовувати відповідне підстрижене середнє. Якщо у вас немає жодної основи для вибору відсотка обрізки, ви можете вибрати його шляхом перехресної перевірки або використовувати надійний регресійний аналіз лише з перехопленням.


1
Я погоджуюся з духом цього, але це може бути неправильно прочитано, оскільки мається на увазі, що підстрижені засоби обов'язково грунтуються на обрізанні рівних дробів у кожному хвості. Це просто звичайна процедура, і процедура, яку найчастіше обговорюють для еталонного випадку приблизно симетричних, але, можливо, жирових розподілів, але це в жодному сенсі не є обов'язковим. Існує література про підстригання лише одного хвоста, що має сенс, коли всі сумнівні значення можуть бути в хвості.
Нік Кокс

@NickCox, хороший момент. Я додав трохи тексту, щоб уточнити це. Дайте мені знати, якщо ви думаєте, що цього потрібно більше.
gung - Відновіть Моніку

Виглядає добре. Природно, підстригання в один хвіст - якраз той особливий випадок неоднакових пропорцій, де одна частка дорівнює нулю.
Нік Кокс

@ NickCox, звичайно, але я подумав, що може бути краще бути явним.
gung - Відновіть Моніку

-1

Перш за все, видаліть недійсні дані.

По-друге, не потрібно видаляти залишків, оскільки у них спостерігаються значення. У деяких випадках це корисно (як у лінійній регресії), але у вашому випадку я не бачу сенсу.

Нарешті, віддайте перевагу використанню медіани, оскільки точніше знайти центр своїх даних. Як ви вже говорили, середнє значення може бути чутливим до людей, що переживають люди (використовуючи обрізане середнє може бути упередженим).


3
Оскільки оцінка місця розташування - це окремий випадок регресії, мені було б цікаво дізнатись, яким чином може бути корисним видалення інших людей, які перебувають в останньому, але не в першому випадку.
user603
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.