Моделювання розподілів


9

Я працюю над завданням з планування потенціалу і прочитав деякі книги. Мова йде саме про дистрибуції. Я використовую Р.

  1. Який рекомендований підхід визначити, що таке мій розподіл даних? Чи є статистичні методи її ідентифікації?

У мене є ця діаграма.

ПРОБАБІЛІСТИЧНІ ПІДХОДИ: СЦЕНАРІЙНИЙ АНАЛІЗ, РІШЕННЯ РІШЕННЯ ТА МОДЕЛЮВАННЯ

  1. Які підходи до моделювання доступні за допомогою R? Тут я хочу генерувати дані для певного розподілу, наприклад експонентного. Чи правильний підхід r-java, якщо я хочу інтегрувати його в Java?

  2. Чи є спосіб передбачити, який ефект буде мати розподіл (використання процесора тощо), коли я передаю дані для певного розподілу? Які різні ефекти від надсилання певних розподілів даних?

Розгляньте це як питання для початківців. Чи є книги чи матеріали, які займаються цими видами моделювання?

Примітки

Діаграма з кінця статті http://people.stern.nyu.edu/adamodar/pdfiles/papers/probabilistic.pdf .

Добрість придатних прийомів я натрапила

Оцінка корисності

  1. Чи-квадрат
  2. Колмогоров-Смирнов,
  3. Андерсон-Дарлінг - щільність статистики, графіки cdf, PP та QQ

Я не впевнений, якою має бути інтерпретація чи наступні кроки, якщо я виявлю, що мій розподіл є нормальним чи експоненціальним і т. Д. Що це дозволяє мені робити? Прогноз? Сподіваюся, це питання зрозуміло.

Експоненціальна затримка призведе до коливань черг відповідно до моєї книги з планування потужностей Ніла Гюнтера. Тож я знаю, що один момент.


Якщо ви вважаєте, що ваша діаграма важлива, то вам слід спробувати покращити якість зображення ...
ocram

Я вдячний за турботу, яку потрібно зробити, щоб приємно поставити запитання. На мою думку, ваш пункт 2. (який повинен бути 3, мабуть) потребує уточнення, або ви можете навіть перенести його на Stack Overflow.
gui11aume

1
Я думаю, що тут належить моє останнє питання. Скажімо, я визначаю свій розподіл даних. Чи я прогнозую, що майбутні дистрибуції будуть слідувати цій ймовірності? Я пропускаю тут частину аналізу даних. Я знаю, що сюжет із коробкою вусів легко показує квартилі, які я розумію. Я не отримую корисність дистрибуції. Можливо, є властивості цього розподілу, які мені потрібно дослідити для прогнозування.
Мохан Радхакришнан

@ocram Якщо якість погана, збільште сторінку у своєму браузері: детальна інформація є. До речі, ці зображення повинні бути з деяких документів документа на Crystal Ball .
whuber

@whuber: Дійсно, я навіть не пробував! Вибачте за коментар.
окрам

Відповіді:


7

Я відповім на вашу думку щодо моделювання за допомогою R, оскільки це єдиний, з яким я знайомий. R має багато вбудованих розподілів, які ви можете імітувати. Логіка іменування полягає в тому, що для імітації розподілу під disназвою буде ім'я rdis.

Нижче наведені ті, якими я користуюся найчастіше

# Some continuous distributions.
?rnorm
?runif
?rgamma
?rlnorm
?rweibull
?rexp
?rt
# Some discrete distributions.
?rpoiss
?rbinom
?rnbinom
?rgeom
?rhyper

Ви можете знайти деякі доповнення в Fitting розподілу з R .

Доповнення: дякуємо @jthetzel за надання посилання з вичерпним списком дистрибутивів та пакетів, до яких вони належать.

Але зачекайте, є ще щось: Добре, після коментаря @ whuber я спробую вирішити інші моменти. Щодо пункту 1, я ніколи не використовую підхід, який відповідає на придатність. Натомість я завжди думаю про походження сигналу, як, наприклад, про те, що викликає явище, чи є якісь природні симетрії в тому, що його виробляє і т. Д. Вам потрібно кілька розділів книги, щоб висвітлити його, тому я наведу лише два приклади.

  1. Якщо дані підраховуються і немає верхньої межі, я спробую Пуассон. Змінні Пуассона можна інтерпретувати як підрахунки послідовних незалежних протягом часового вікна, що є дуже загальною основою. Я підходить до розподілу і бачу (часто візуально), чи добре описана дисперсія. Досить часто дисперсія зразка набагато більша, і тоді я використовую негативний біном. Негативний біноміал можна інтерпретувати як суміш Пуассона з різними змінними, що є навіть більш загальним, тому це зазвичай дуже добре підходить до вибірки.

  2. Якщо я вважаю, що дані симетричні навколо середнього значення, тобто, що відхилення в рівній мірі є позитивними чи негативними, я намагаюся підходити до Гаусса. Тоді я перевіряю (знову візуально), чи багато людей, що випадають, тобто точки даних дуже далекі від середнього. Якщо такі є, я замість цього використовую t студента. Розподіл Стьюдента можна інтерпретувати як суміш Гаусса з різними варіаціями, що знову ж таки є загальним.

У тих прикладах, коли я кажу візуально, я маю на увазі, що я використовую графік QQ

Пункт 3, також заслуговує кількох розділів книги. Ефекти використання дистрибутива замість іншого безмежні. Тож замість того, щоб переглядати все це, я продовжу два вищевказані приклади.

  1. У перші дні я не знав, що негативний біноміал може мати змістовну інтерпретацію, тому я весь час використовував Пуассона (тому що мені подобається вміти інтерпретувати параметри по-людськи). Дуже часто, коли ви використовуєте Пуассон, ви добре підходите до середнього, але ви недооцінюєте дисперсію. Це означає, що ви не в змозі відтворити екстремальні значення вашого зразка, і ви будете вважати такі значення як аутлайнери (точки даних, які не мають такого ж розподілу, як інші точки), хоча вони насправді не є.

  2. Знову в перші дні я не знав, що у студентського t також є осмислена інтерпретація, і я б весь час користувався гауссом. Подібне сталося. Я б добре підходив до середньої та дисперсійної гамми, але я все одно не захоплюватимуть залишків, оскільки майже всі точки даних мають бути в межах 3 стандартних відхилень від середнього. Так само і сталося, я зробив висновок, що деякі пункти були "надзвичайними", а насправді їх не було.


2
Примітка , щоб додати до відповіді gui11aume в: Існує «д, р, д, г» синтаксис для функцій розподілу , пов'язаних в R. Наприклад, dnorm, pnorm, qnorm, і rnormє щільність, кумулятивна функція розподілу (CDF), зворотне ВВР і генератор випадкових змінних функцій для нормального розподілу відповідно. Див. Перегляд завдання розподілу ймовірностей для вичерпного переліку доступних розподілів.
jthetzel

Так, велике спасибі (+1). Я довго шукав такий список. Я поставив це у відповідь, щоб воно було видніше.
gui11aume

1
Я навіть не міг тобі сказати, що таке третина цих розподілів. Стільки ще навчитися .... +1, але не будемо забувати решту питань, які є основоположними (але, можливо, трохи занадто широкими): які наслідки мають вибір розподілу при моделюванні? Як слід робити такий вибір?
whuber

@whuber Я додав ефект експоненціального розподілу затримок на коливання черги. Зверніться. книги з CP або в черзі.
Мохан Радхакришнан

Я читав відповідні дистрибутиви з R, а також один раз використовував графік QQ. Оцінка максимальної вірогідності починається з математичного вираження, відомого як функція вірогідності вибіркових даних. Логічно кажучи, ймовірність набору даних - це ймовірність отримання конкретного набору даних за заданою обраною моделлю ймовірності. Чи означає це, що існує спосіб розрахувати, що розподіл може відбутися знову? Скільки вимірювань потрібно для підтвердження цього?
Мохан Радхакришнан
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.