чому, коли ми маємо неширокі розповсюдження помилок, обгрунтовується обґрунтованість наших заяв про важливість? Чому інтервали довіри будуть занадто широкими або вузькими?
Інтервали довіри базуються на способі розподілу чисельника та знаменника в t-статистиці.
За нормальних даних чисельник t-статистики має нормальний розподіл, а розподіл квадрата знаменника (який тоді є дисперсією) є певним кратним розподілу чи-квадрата. Коли чисельник і знаменник також є незалежними (як це буде лише у звичайних даних, враховуючи, що самі спостереження є незалежними), вся статистика має t-розподіл.
Це означає, що така статистика подобається β^- βсβ^βт -квантили в їх конструкції для отримання бажаного покриття.
Якби дані були з якогось іншого розподілу, статистика не мала б t-розподілу. Наприклад, якби він був важким хвостом, розподіл t, як правило, буде трохи легшим хвостом (зовнішні спостереження впливають на знаменник більше, ніж чисельник). Ось приклад. В обох випадках гістограма має 10 000 регресій:
β= 0( - 2 , 2 ) - розподіл не дуже схожий на теоретичний розподіл для звичайних даних, оскільки статистика більше не має t-розподілу.
Інтервал 95% (який повинен включати 95% схилів у нашому зразку) становить від -2.048 до 2.048. Для звичайних даних воно фактично включало 95,15% з 10000 схилів вибірки. Для перекошених даних він включає 99,91%.