Я відповім на вашу думку щодо моделювання за допомогою R, оскільки це єдиний, з яким я знайомий. R має багато вбудованих розподілів, які ви можете імітувати. Логіка іменування полягає в тому, що для імітації розподілу під dis
назвою буде ім'я rdis
.
Нижче наведені ті, якими я користуюся найчастіше
# Some continuous distributions.
?rnorm
?runif
?rgamma
?rlnorm
?rweibull
?rexp
?rt
# Some discrete distributions.
?rpoiss
?rbinom
?rnbinom
?rgeom
?rhyper
Ви можете знайти деякі доповнення в Fitting розподілу з R .
Доповнення: дякуємо @jthetzel за надання посилання з вичерпним списком дистрибутивів та пакетів, до яких вони належать.
Але зачекайте, є ще щось: Добре, після коментаря @ whuber я спробую вирішити інші моменти. Щодо пункту 1, я ніколи не використовую підхід, який відповідає на придатність. Натомість я завжди думаю про походження сигналу, як, наприклад, про те, що викликає явище, чи є якісь природні симетрії в тому, що його виробляє і т. Д. Вам потрібно кілька розділів книги, щоб висвітлити його, тому я наведу лише два приклади.
Якщо дані підраховуються і немає верхньої межі, я спробую Пуассон. Змінні Пуассона можна інтерпретувати як підрахунки послідовних незалежних протягом часового вікна, що є дуже загальною основою. Я підходить до розподілу і бачу (часто візуально), чи добре описана дисперсія. Досить часто дисперсія зразка набагато більша, і тоді я використовую негативний біном. Негативний біноміал можна інтерпретувати як суміш Пуассона з різними змінними, що є навіть більш загальним, тому це зазвичай дуже добре підходить до вибірки.
Якщо я вважаю, що дані симетричні навколо середнього значення, тобто, що відхилення в рівній мірі є позитивними чи негативними, я намагаюся підходити до Гаусса. Тоді я перевіряю (знову візуально), чи багато людей, що випадають, тобто точки даних дуже далекі від середнього. Якщо такі є, я замість цього використовую t студента. Розподіл Стьюдента можна інтерпретувати як суміш Гаусса з різними варіаціями, що знову ж таки є загальним.
У тих прикладах, коли я кажу візуально, я маю на увазі, що я використовую графік QQ
Пункт 3, також заслуговує кількох розділів книги. Ефекти використання дистрибутива замість іншого безмежні. Тож замість того, щоб переглядати все це, я продовжу два вищевказані приклади.
У перші дні я не знав, що негативний біноміал може мати змістовну інтерпретацію, тому я весь час використовував Пуассона (тому що мені подобається вміти інтерпретувати параметри по-людськи). Дуже часто, коли ви використовуєте Пуассон, ви добре підходите до середнього, але ви недооцінюєте дисперсію. Це означає, що ви не в змозі відтворити екстремальні значення вашого зразка, і ви будете вважати такі значення як аутлайнери (точки даних, які не мають такого ж розподілу, як інші точки), хоча вони насправді не є.
Знову в перші дні я не знав, що у студентського t також є осмислена інтерпретація, і я б весь час користувався гауссом. Подібне сталося. Я б добре підходив до середньої та дисперсійної гамми, але я все одно не захоплюватимуть залишків, оскільки майже всі точки даних мають бути в межах 3 стандартних відхилень від середнього. Так само і сталося, я зробив висновок, що деякі пункти були "надзвичайними", а насправді їх не було.