Що стосується зубчастої коробки, посилання McGill et al [1], згадані у вашому запитанні, містять досить повні деталі (не все, про що я тут кажу, прямо там згадується, але все-таки достатньо детально, щоб це зрозуміти).
Інтервал є надійним, але на основі Гаусса
У роботі цитується наступний інтервал для висічок (де - серединна проба, а - міжквартильний діапазон вибірки):MR
M±1.7×1.25R/(1.35N−−√)
де:
1.35 - асимптотичний коефіцієнт перетворення для перетворення IQR в оцінки - конкретно, це приблизно різниця між квантилем 0,75 і квантилем 0,25 від стандартного нормалу; Квартилі населення складають приблизно 1,35 один від одного, тому значення приблизно має бути послідовним (асимптотично неупередженим) оцінкою (точніше, приблизно 1,334).σσR/1.35σ
1.25 приходить, тому що ми маємо справу з асимптотичною стандартною помилкою медіани, а не середньою. Зокрема, асимптотична дисперсія вибіркової медіани є де - висота щільності на медіані. Для нормального розподілу є , тому асимптотична стандартна помилка вибіркової медіани - .14nf20f0f012π√σ≈0.3989σ12N√f0=π/2−−−√σ/N−−√≈1.253σ/N−−√
Як Stask згадує тут , тим менше , тим більше сумнівне це буде (заміна його третя причини з одним про розумність використання нормального розподілу , в першу чергу.N
Поєднуючи вищевказані дві, ми отримуємо асимптотичну оцінку стандартної похибки медіани приблизно . Макгілл та ін. Приписують це Кендаллу та Стюарту (я не пригадую, чи існує конкретна формула там чи ні, але компоненти будуть).1.25R/(1.35N−−√)
Тож все, що залишається для обговорення, - коефіцієнт 1,7.
Зауважте, що якби ми порівнювали один зразок із фіксованим значенням (скажімо, медіаною гіпотези), ми використовували б 1,96 для 5% тесту; отже, якби у нас були дві дуже різні стандартні помилки (одна відносно велика, одна дуже мала), це стосувалося б коефіцієнта, який слід використовувати (оскільки якби нуль був істинним, різниця була б майже цілком обумовлена варіацією однієї з більшою стандартна помилка, і малу можна - приблизно - трактувати як ефективно виправлену).
З іншого боку, якби дві стандартні помилки були однаковими, 1,96 був би занадто великим фактором, оскільки обидва набори виїмок потрапляють у неї - для двох наборів висічок не перекриваємось, ми додаємо одну з кожної. Це зробить правильний коефіцієнт асимптотично.1.96/2–√≈1.386
Десь посередині, ми маємо 1,7 як грубий фактор компромісу. Макгілл та ін описують це як "емпірично вибране". Це дуже близьке до припущення певного співвідношення дисперсій, тому я здогадуюсь (і це не що інше), що емпіричний відбір (імовірно, заснований на деякому моделюванні) знаходився між набором співвідношень круглих значень для дисперсій (наприклад 1: 1, 2: 1,3: 1, ...), з яких "найкращий компроміс" із співвідношення потім був включений у округлений до двох цифр . Принаймні, це правдоподібний спосіб закінчитись дуже близько до 1,7.rr:11.96/1+1/r−−−−−−√
Якщо об'єднати їх усіх (1,35,1,25 та 1,7), то це приблизно 1,57. Деякі джерела отримують 1,58, обчислюючи 1,35 або 1,25 (або обидва) точніше, але як компроміс між 1,338 і 1,96, що 1,7 навіть не є точним двома значущими цифрами (це просто компромісне значення кульового парку), тому додаткова точність є безглуздо (вони також могли просто округлити всю річ до 1.6 і зробити це з нею).
Зауважте, що тут немає налаштувань для кількох порівнянь.
Існує декілька чітких аналогій у довірчих межах для різниці HSD Tukey-Kramer :
y¯i∙−y¯j∙±qα;k;N−k2–√σˆε1ni+1nj−−−−−−−√
Але зауважте це
це комбінований інтервал, а не два окремих внески в різницю (тому у нас є термін а не два, що вносять окремо і і ми припускаємо постійну дисперсію (тому ми не маємо справу з компромісом з - коли ми можемо мати дуже різні відхилення - а не асимптотичний випадок)c.1ni+1nj−−−−−−√k.1ni−−√k.1nj−−√1.961.96/2–√
базується на засобах, а не на медіанах (так, ні 1,35)
вона заснована на , яка базується в свою чергу , на найбільшій різниці середніх (так що навіть не будь-яка 1,96 частина в цьому, навіть один розділений на ). На відміну від порівняння декількох графіків коробки, ми не бачимо, що базувати виїмки на найбільшій різниці в медіанах, це все чисто попарно.q2–√
Тож хоча декілька ідей, що стоять за формою компонентів, є дещо аналогічними, вони насправді зовсім інші, чим займаються.
[1] McGill, R., Tukey, JW та Larsen, WA (1978) Варіації графіків коробки. Американський статистик 32, 12–16.