Безумовно, середнє значення плюс один sd може перевищити найбільше спостереження.
Розглянемо зразок 1, 5, 5, 5 -
він має середнє значення 4 і стандартне відхилення 2, тому середнє значення + sd дорівнює 6, на один більше, ніж максимум вибірки. Ось розрахунок у R:
> x=c(1,5,5,5)
> mean(x)+sd(x)
[1] 6
Це звичайне явище. Це трапляється, коли є купа високих значень і відхилений хвіст ліворуч (тобто, коли є сильна ліва косоокість і пік майже максимум).
-
Така ж можливість стосується розподілу ймовірностей, а не лише вибірок - середнє значення сукупності плюс кількість населення sd може легко перевищити максимально можливе значення.
Ось приклад щільність, яка має максимально можливе значення 1:бета ( 10 , 12)
У цьому випадку ми можемо подивитися на сторінку Вікіпедії для бета-розподілу, де зазначено, що середнє значення:
Е[ X] = αα + β
а дисперсія:
вар[ X] = α β( α + β)2( α + β+ 1 )
(Хоча нам не потрібно покладатися на Вікіпедію, оскільки їх досить легко отримати.)
Отже для і β = 1α = 10 маємо середнє значення≈0,9523і sd≈0,0628, тому середнє + sd≈1,0152, більше можливого максимуму 1.β= 12≈ 0,9523≈ 0,0628≈ 1,0152
Тобто, легко можливо мати значення середнє значення + sd, яке не можна спостерігати як значення даних .
-
У будь-якій ситуації, коли режим був на максимумі, нахил режиму Пірсона повинен бути лише для середнього + sd, що перевищує максимум. Він може приймати будь-яке значення, позитивне чи негативне, тому ми можемо бачити, що це легко можливо.<- 1
-
Тісно пов'язане питання часто зустрічається з довірчими інтервалами для біноміальної пропорції , де загальновживаний інтервал, інтервал нормального наближення може створювати межі поза .[ 0 , 1 ]
Наприклад, розглянемо 95,4% нормальний інтервал наближення для частки успішності населення у випробуваннях Бернуллі (результати - 1 або 0, що відображає події успіху та невдачі відповідно), де 3 з 4 спостережень - " ", а одне спостереження - " 0 ".10
Потім верхню межу для інтервалу р + 2 × √p^+ 2 × 14p^( 1 - с^)---------√= р^+ р^( 1 - с^)-------√= 0,75 + 0,433 = 1,183
Це просто середнє значення вибірки + звичайна оцінка sd для двочлена ... і дає неможливе значення.
Звичайний зразок С.О. для 0,1,1,1 становить 0,5 , а не 0,433 (вони розрізняються , так як Біноміальна оцінка ОД стандартного відхилення р ( 1 - р ) відповідають розподілам дисперсії по п , а не п - 1 ) . Але це не має ніякої різниці - в будь-якому випадку середнє значення + sd перевищує найбільшу можливу пропорцію.p^( 1 - с^)нn - 1
Цей факт - про те, що нормальний інтервал наближення для бінома може давати "неможливі значення", часто відзначається в книгах і працях. Однак ви не маєте справу з біноміальними даними. Однак проблема - що середнє значення + деяка кількість стандартних відхилень не є можливим значенням - є аналогічною.
-
У вашому випадку незвичне значення "0" у вашому зразку робить sd великим більше, ніж він тягне середнє вниз, через що середнє значення + sd є високим.
-
(Натомість питання буде - через які міркування це було б неможливо? - тому що, не знаючи, чому хтось подумає, що взагалі є проблема, до чого ми звертаємось?)
Логічно, звичайно, кожен демонструє, що це можливо, наводячи приклад, де це відбувається. Ви вже зробили це. За відсутності вказаної причини, чому слід інакше, що ти робиш?
Якщо прикладу недостатньо, який доказ був би прийнятним?
Насправді немає сенсу просто вказувати на твердження в книзі, оскільки будь-яка книга може зробити помилку з помилкою - я їх постійно бачу. Треба розраховувати на пряму демонстрацію того, що це можливо, або доказ алгебри (можна побудувати з бета-прикладу вище, наприклад *), або на числовому прикладі (який ви вже подали), який кожен може вивчити для себе правду .
* whuber дає точні умови для бета-версії у коментарях.