Перетворити розподіл Пуассона в нормальний розподіл


10

Я маю насамперед досвід інформатики, але зараз я намагаюся навчити себе базовій статистиці. У мене є деякі дані, які, на мою думку, мають розповсюдження Пуассона

введіть тут опис зображення

У мене є два питання:

  1. Це розподіл Пуассона?
  2. По-друге, чи можна перетворити це в звичайний розподіл?

Будь-яка допомога буде вдячна. Велике спасибі


3
1. Ні, розподіл Пуассона, як правило, має режим поблизу свого параметра, і тому співставлення цього з розподілом Пуассона означало б дуже мале значення для параметра. 2. Так і ні. Що б ви хотіли зробити з нормальним розподілом?
Діліп Сарват

Я намагаюся подати ці дані в логістичну регресію. Мене привели до думки, що нормально розподілені дані дають набагато кращі результати
Абхі

Відповіді:


11

1) Здається, що зображене - це (згруповані) безперервні дані, намальовані у вигляді гістограми.

Можна цілком сміливо зробити висновок, що це не розповсюдження Пуассона.

Випадкова величина Пуассона приймає значення 0, 1, 2, ... і має найвищий пік при 0 лише тоді, коли середнє значення менше 1. Використовується для підрахунку даних; якби ви намалювали подібну діаграму даних Пуассона, це могло б виглядати як наведені нижче графіки:

введіть тут опис зображення

Перший - Пуассон, який виявляє схожість на вашу скрученість. Ви можете бачити, його середнє значення досить мало (близько 0,6).

Другий - Пуассон, який має значення, схоже (на дуже грубу думку) з вашим. Як бачите, це виглядає досить симетрично.

Ви можете мати косий або велике значення, але не обидва одночасно.

2) (i) Ви не можете зробити дискретні дані нормальними -

За допомогою згрупованих даних, використовуючи будь-яке монотонне зростаюче перетворення, ви перемістите всі значення в групі на одне місце, тому найнижча група все одно матиме найвищий пік - див. Графік нижче. У першому сюжеті ми переміщуємо позиції значень x, щоб тісно відповідати нормальному cdf:

введіть тут опис зображення

На другому графіку ми бачимо функцію ймовірності після перетворення. Насправді ми не можемо досягти нічого подібного до нормальності, оскільки це одночасно і дискретно, і перекошено; великий стрибок першої групи залишиться великим стрибком, незалежно від того, натискаєте ви його вліво або вправо.

(ii) Безперервні перекоси даних можуть бути перетворені, щоб виглядати досить нормально. Якщо у вас є необроблені (негруповані) значення і вони не сильно дискретні, ви можете зробити щось, але навіть тоді, коли люди намагаються перетворити свої дані, це або непотрібно, або їх основна проблема може бути вирішена іншим (як правило, кращим) способом . Іноді трансформація є хорошим вибором, але зазвичай це робиться з не дуже гарних причин.

Отже ... навіщо ти хочеш це перетворити?


Дякую Глен за дуже детальну відповідь. Це пояснює багато понять. Я намагаюся подати ці дані в логістичну регресійну модель. Я подумав (я зараз не такий впевнений), що нормально розподілені дані дають набагато кращі результати. Що ви порадите?
Абхі

1
Це незалежна змінна ( змінна )? Що ви маєте на увазі під «кращими результатами» у цьому контексті? x
Glen_b -Встановити Моніку

@Glen_b Дякую за чудову відповідь. Я також з досвіду інформатики і затримався в цьому питанні: stats.stackexchange.com/questions/408232/… Будь ласка, повідомте мені ваші думки з цього приводу. Я з нетерпінням чекаю від вас. Ще раз дякую вам :)
EmJ

Будь ласка, не використовуйте коментарів, щоб намагатися набирати людей для відповіді на ваші запитання. Я вже бачив ваше запитання.
Glen_b -Встановити Моніку

0

Розміщення цікавішої інформації для нащадків.

Існує старша публікація, в якій обговорюється аналогічна проблема щодо використання даних підрахунку як незалежної змінної для логістичних регресій.

Ось:

Чи використання даних підрахунку як незалежної змінної порушує будь-які припущення GLM?

Як згадував Глен, якщо ви просто намагаєтеся передбачити дихотомічний результат, можливо, ви зможете використовувати непереформовані дані підрахунку як прямий компонент вашої логістичної регресійної моделі. Однак зауваження: коли незалежна змінна (IV) розподілена по пуассону І коливається на багато порядків, використовуючи неотримані значення, це може призвести до дуже впливових точок, що, в свою чергу, може змістити вашу модель. У такому випадку, можливо, буде корисно здійснити перетворення на IV, щоб отримати більш надійну модель.

Такі трансформації, як квадратний корінь або журнал, можуть посилити співвідношення між коефіцієнтом IV та коефіцієнтом шансів. Наприклад, якщо зміни X на три цілі порядки (від медіанного значення X) відповідали лише 0,1 зміні ймовірності виникнення Y (далеко від 0,5), то можна з упевненістю припустити, що будь-які розбіжності моделі будуть призводять до значної упередженості через екстремальний важіль від сторонніх значень X.

Для подальшої ілюстрації, уявіть, що ми хотіли скористатись рейтингом Сковілля різних перців чилі (домен [X] = {0, 3,2 мільйона}), щоб передбачити ймовірність того, що людина класифікує перець як "незручно гострий" (діапазон [Y] = {1 = так, 0 = ні}) після з'їдання перцю відповідної оцінки X.

https://en.wikipedia.org/wiki/Scoville_scale

Якщо ви подивитеся на діаграму оцінок Scoville, то можна побачити, що перетворення журналу необроблених рейтингів Scoville дасть вам ближче наближення до суб'єктивних (1-10) оцінок кожного чилі.

Тож у цьому випадку, якби ми хотіли зробити більш надійну модель, яка фіксує справжнє співвідношення між необробленими показниками Сковіля та суб'єктивним тепловим рейтингом, ми могли б виконати логарифмічну трансформацію на значеннях X. Цим ми зменшуємо вплив надмірно великого домену X, ефективно "скорочуючи" відстань між значеннями, які різняться на порядок, і, отже, зменшуючи вагу будь-яких X людей, які не мають сили (наприклад, тих, що не мають толерантності до капсаїцину та / або божевільних спецій!) !!) маємо на наших прогнозах.

Сподіваюсь, це додає цікавого контексту!

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.