У деяких випадках здається очевидним, що теорія може працювати найкраще (довжина хвоста мишей, ймовірно, нормально розподілена).
Довжина хвоста звичайно не розподіляється.
Нормальні розподіли мають ненульову ймовірність прийому негативних значень; довжини хвоста не мають.
Знаменита лінія Джорджа Бокса , " всі моделі помиляються, але деякі корисні ", робить це досить непоганим. Випадки, коли ми можемо обгрунтовано стверджувати нормальність (а не просто приблизну нормальність) насправді є дуже рідкісними, майже істотами легенди, міражі, періодично майже не заглядаючи з-за куточка ока.
У багатьох випадках, мабуть, немає теорії для опису набору даних, тож ви просто використовуєте щось, що відповідає тому, що у вас є досить добре, незалежно від того, що воно було розроблено для опису?
У тих випадках, коли кількість, яка вас цікавить, не особливо чутлива до вибору (якщо широкі можливості розподілу відповідають тому, що відомо), то так, ви можете просто використовувати те, що досить добре відповідає.
У випадках, коли є більша ступінь чутливості, "просто використовувати щось, що підходить", недостатньо саме по собі. Ми можемо використовувати якийсь підхід, який не передбачає особливих припущень (можливо, безкоштовні процедури розповсюдження, такі як перестановка, завантажувальна програма чи інші підходи до перекомпонування або надійні процедури). Крім того, ми могли б кількісно оцінити чутливість до припущення щодо розподілу, наприклад, через моделювання (дійсно, я думаю, що це взагалі гарна ідея).
мабуть, існує проблема, що, можливо, вам слід просто використовувати емпіричний розподіл, якщо ви насправді не маєте ідеї.
Я б не описував це як проблему - на основі висновку на емпіричних розподілах, безумовно, легітимний підхід, придатний для багатьох видів проблем (перестановка / рандомізація та завантажувальна програма - два приклади).
чи є у когось узгоджений спосіб підходити / думати про цю проблему?
В цілому, у багатьох випадках я схильний розглядати такі питання:
1) Що я розумію * про те, як поводяться засоби (або інші величини типу локації) для даних цієї форми?
* (чи то з теорії, чи досвіду такої форми даних, чи поради експертів, чи за потреби, із самих даних, хоча це має проблеми)
2) Що щодо розповсюдження (дисперсія, IQR тощо) - як він поводиться?
3) Що стосується інших функцій розповсюдження (межі, косості, дискретність тощо)
4) Що стосується залежності, неоднорідності популяцій, схильності до періодично дуже невідповідних значень тощо
Такий розгляд може орієнтуватися на вибір між звичайною моделлю, GLM, якоюсь іншою моделлю чи деяким надійним або безрозподільним підходом (наприклад, підключенням до завантаження чи перестановки / рандомізації, включаючи процедури, що базуються на ранговій основі)