Сьогодні я викладав вступний клас статистики, і студент підійшов до мене із запитанням, яке я перефразую тут так: "Чому стандартне відхилення визначається як sqrt дисперсії, а не як sqrt суми квадратів над N?"
Визначимо дисперсію популяції:
І стандартне відхилення: .
Інтерпретація ми можемо дати , що вона дає середнє відхилення одиниць в популяції від середньої популяції .
Однак у визначенні sd ділимо sqrt суми квадратів на . Студент ставить питання, чому ми не ділимо sqrt суми квадратів наа не. Таким чином, ми приходимо до конкуруючої формули:
Я вважав, що це питання не дурне. Я хотів би дати відповідь студенту, що йде далі, ніж сказати, що sd визначається як sqrt дисперсії, яка є середньоквадратичним девіатоном. По-іншому, чому студент повинен використовувати правильну формулу і не слідувати її ідеї?
Це питання стосується старішої теми та відповідей, наданих тут . Відповіді йдуть у трьох напрямках:
- - відхилення середньоквадратичного квадрату (RMS), а не «типове» відхилення від середнього (тобто, ). Таким чином, воно визначається по-різному.
- Він має приємні математичні властивості.
- Крім того, sqrt повертає "одиниці" до їх початкового масштабу. Однак це було б і у випадку , який натомість ділиться на
Обидва пункти 1 і 2 є аргументами на користь sd як RMS, але я не бачу аргументу проти використання . Які б хороші аргументи переконали учнів початкового рівня у використанні середньої відстані RMS від середньої?
"Why is the standard deviation defined as sqrt of variance and not as average of [the root of] sum of squares?"
Можливо, те, що всередині дужок якось загубилося в питанні?