Чи нормальний розподіл не передбачає негативних значень?
Правильно. Він також не має верхньої межі.
В одній частині мого підручника написано, що нормальний розподіл може бути корисним для моделювання балів на іспитах.
Незважаючи на попередні твердження, все ж іноді це буває. Якщо у вас є багато компонентів для тесту, не надто сильно пов’язаних (наприклад, у вас по суті не те саме запитання десяток разів, ні у тому, що кожна частина вимагає правильної відповіді на попередню частину), і не дуже проста або дуже жорстка ( так що більшість знаків десь біля середини), то позначення часто можуть бути досить добре наближені нормальним розподілом; часто досить добре, що типові аналізи повинні викликати мало занепокоєння.
Ми точно знаємо, що вони не є нормальними , але це автоматично не є проблемою - доки поведінка процедур, які ми використовуємо, досить близька до того, якою вона повинна бути для наших цілей (наприклад, стандартні помилки, інтервали довіри, рівні значущості і влада - що б там було потрібно - робити близько до того, що ми їх очікуємо)
У наступній частині він запитує, який розподіл було б доречним для моделювання претензії на страхування автомобіля. Цього разу було сказано, що відповідними дистрибутивами будуть Гамма або Зворотна Гаусса, оскільки вони безперервні лише з позитивними значеннями.
Так, але більше того - вони, як правило, сильно правильні перекоси і мінливість, як правило, збільшується, коли середня величина збільшується.
Ось приклад розподілу розміру претензії до транспортних засобів:
https://ars.els-cdn.com/content/image/1-s2.0-S0167668715303358-gr5.jpg
(Рис. 5 від Garrido, Genest & Schulz (2016) "Узагальнені лінійні моделі для залежної частоти та тяжкості страхових претензій", Страхування: Математика та економіка, Том 70, вересень, с205-215. Https: //www.sciencedirect. com / наука / стаття / pii / S0167668715303358 )
Це показує типовий правий косий і важкий правий хвіст. Однак ми повинні бути дуже обережними, тому що це граничний розподіл, і ми пишемо модель умовного розподілу, яка, як правило, набагато менше перекосів (граничний розподіл ми дивимось, якщо ми просто робимо гістограму розмірів претензії як суміш цих умовних розподілів). Тим не менш, зазвичай так буває, що якщо ми подивимось на розмір претензії в підгрупах предикторів (можливо, категоризуючи безперервні змінні), то розподіл все ще є сильним правим перекосом і досить важким хвостом справа, що дозволяє припустити, що щось на зразок гамма-моделі * ймовірно, буде набагато більш придатною, ніж модель Гаусса.
* може бути будь-яка кількість інших розподілів, які були б більш придатними, ніж гауссові - інший вибір - обернений гаусс, хоча і менш поширений; Лонормальні або Weibull моделі, хоча вони не є GLM, як вони стоять, також можуть бути дуже корисними.
[Рідко буває так, що будь-який з цих розподілів є майже ідеальним описом; вони неточні наближення, але у багатьох випадках достатньо хороші, щоб аналіз був корисним і наближався до бажаних властивостей.]
Ну, я вважаю, що бали на іспитах також були б суцільними лише з позитивними значеннями, то чому б ми використовували там нормальний розподіл?
Тому що (за умов, про які я згадував раніше - безліч компонентів, не надто залежних, не важких чи легких) розподіл має тенденцію бути досить близьким до симетричного, одномодульного і не важкохвостим.