При вирішенні бізнес-проблем із використанням даних прийнято вважати, що принаймні одне ключове припущення про те, що класична статистика недостатку не є дійсною. Більшість часу ніхто не намагається перевірити ці припущення, щоб ви насправді ніколи не знали.
Наприклад, що так багато загальних веб-метрик є "довгохвостими" (відносно звичайного розповсюдження), на сьогоднішній день настільки добре зафіксовано, що ми сприймаємо це як належне. Інший приклад, інтернет-спільноти - навіть у громадах з тисячами членів, добре підтверджено, що, безумовно, найбільша частка внеску в / у участі в багатьох з цих спільнот припадає на незначну групу "супер-учасників". (Наприклад, кілька місяців тому, відразу після того, як API SO став доступний у бета-версії, член StackOverflow опублікував короткий аналіз даних, зібраних за допомогою API; його висновок - менше ніж один відсоток членів ПП припадає на більшість діяльність на СО (імовірно, задаючи питання та відповідаючи на них), ще 1-2% припадає на решту, а переважна більшість членів нічого не робить).
Подібні розподіли - знову-таки частіше правило, а не виняток - часто найкраще моделюють за допомогою функції щільності закону потужності . Для таких типів розподілів проблематично застосувати навіть центральну граничну теорему.
Отже, зважаючи на велику кількість таких груп, що цікавить аналітиків, і з огляду на те, що класичні моделі на цих даних демонструють погано, і враховуючи, що надійні та стійкі методи існують протягом певного часу (принаймні 20 років, я вважаю) - чому вони не використовуються частіше? (Мені також цікаво, чому я не використовую їх частіше, але це насправді не питання для CrossValidated .)
Так, я знаю, що існують розділи підручника, присвячені повністю надійній статистиці, і я знаю, що є (кілька) пакетів R ( robustbase - це той, з ким я знайомий і використовую) тощо.
І все ж, враховуючи очевидні переваги цих методів, вони, очевидно, є кращими інструментами для роботи - чому їх не використовують набагато частіше ? Чи не слід очікувати, що надійні (і стійкі) статистичні дані, які використовуються набагато частіше (можливо, навіть імовірно), порівняно з класичними аналогами?
Єдине істотне (тобто технічне) пояснення, яке я чув, це те, що надійні методи (так само як і для стійких методів) не мають сили / чутливості класичних методик. Я не знаю, чи справді це правда в деяких випадках, але я знаю, що це неправда в багатьох випадках.
Заключне слово передбачення: так, я знаю, що на це запитання немає жодної наочно вірної відповіді; дуже мало запитань на цьому Сайті. Більше того, це питання є справжнім запитом; це не привід для просування точки зору - у мене немає такої точки зору, це лише питання, на яке я сподіваюся на проникливі відповіді.