Кілька хороших відповідей все ще залишають місце для додаткових коментарів.
По-перше, ніхто не заперечував проти думки про те, що медіана призначена для усунення чужих людей, але я її кваліфікую. Задуманий сенс очевидний, але реальні дані легко ускладнюються. Принаймні, медіана покликана знижувати або ігнорувати людей, які не мають права, але навіть це не гарантується. Наприклад, при оцінках 1 1 1 5 5 5 середня і середня величини погоджуються на 3, тому все може здатися гарним. Але додаткові 5 нахилять медіану до 5, а додаткова 1 - медіану до 1. Середнє значення зміщуватиметься приблизно на 0,286 у кожному випадку. Отже, середнє значення тут стійкіше, ніж медіана. Приклад можна відхилити як незвичний, але це не обурює. Суть не є оригінальною, природно. Одне місце це зроблено в Mosteller, F. and Tukey, JW 1977. Аналіз даних та регресія. Редінг, МА: Аддісон-Веслі, с.34-35.
По-друге, згадані підстрижені засоби і ідея заслуговує на більший поштовх. Середні та медіанні не повинні бути різкими альтернативами, щоб аналітик повинен вибрати (голосувати) за те чи інше. Ви можете розглянути всі можливі підстрижені засоби на основі обрізання певної кількості значень у кожному хвості . У таблиці показано як # кількість значень, що входять до обчислення середнього значення:
+----------------------------+
| number # trimmed mean |
|----------------------------|
| 0 16 4.0625 |
| 1 14 4.214286 |
| 2 12 4.416667 |
| 3 10 4.6 |
| 4 8 4.75 |
| 5 6 4.833333 |
| 6 4 5 |
| 7 2 5 |
+----------------------------+
Основна картина тут полягає в тому, що ви можете вибрати свою ставку дисконтування (ігноруйте стільки значень у кожному хвості, як підозрюваний) як вид страхування від ризику вийти з-за надзвичайних значень. Я бачу досить плавний градієнт між середнім та середнім, який тут очікується, оскільки можливі значення 1, 2, 3, 4, 5 присутні в даних. Великий стрибок у послідовності очікується з ізольованою стороною.
Немає зобов’язань з обрізаними засобами обрізати рівні цифри в кожному хвості, але я не буду розширювати це питання.
По-третє, прикладом є відгуки Амазонки. Контекст завжди має відношення до того, як ви хочете узагальнити дані . Що стосується відгуків Amazon, найкраща відповідь - прочитати відгуки! Оскільки високі та низькі оцінки можуть бути на помилкових підставах (неявно: автор цієї книги є моїм другом) та / або не має відношення до вашого рішення (явно: перепродавець ставився до мене погано), я не маю очевидного для мене значення для того, як узагальнити такі дані, і, дійсно, показавши вам розповсюдження Amazon, є максимально інформативним.
По-четверте, і найелементарніший, але також принциповий з усіх, хто змушує вас обирати? Іноді слід повідомляти про середнє значення та медіану (і, як було сказано, також графік розподілу).