Як зрозуміти ступеня свободи?


257

З Вікіпедії є три тлумачення ступенів свободи статистики:

У статистиці число ступенів свободи - це кількість значень у підсумковому обчисленні статистики, які можуть змінюватися .

Оцінки статистичних параметрів можуть базуватися на різних обсягах інформації або даних. Кількість незалежних фрагментів інформації, що надходять в оцінку параметра, називається ступенем свободи (df). Загалом, ступінь свободи оцінювання параметра дорівнює кількості незалежних балів, які входять в оцінку за мінусом кількості параметрів, що використовуються як проміжні кроки в оцінці самого параметра (який, у відмінні вибірки, становить одне, оскільки середнє значення вибірки є єдиним проміжним кроком).

Математично градуси свободи - це вимір області довільного вектора , або, по суті, кількості "вільних" компонентів: скільки компонентів потрібно знати, перш ніж вектор буде повністю визначений .

Сміливі слова - це те, що я не зовсім розумію. Якщо можливо, деякі математичні формулювання допоможуть з’ясувати концепцію.

Чи згодні три інтерпретації між собою?


Ознайомтесь з цим поясненням
Джордж Донтас

3
Дивіться також це питання "Що таке ступінь свободи?"
Джеромі Англім

Відповіді:


242

Це тонке питання. Потрібно продуманій людині не розуміти цих цитат! Хоча вони є сугестивними, виявляється, що жоден з них не є точним або загалом правильним. У мене немає часу (і тут немає місця) викласти повну експозицію, але я хотів би поділитися одним підходом і розумінням, яке він пропонує.

Звідки виникає поняття ступенів свободи (ДФ)? Контексти, в яких він знаходиться в елементарному лікуванні, є:

  • Т-критерій Стьюдента і його варіанти , такі як рішення Welch або Саттервейта до проблеми Беренса-Фішера (де дві популяції мають різні відхилення).

  • Розподіл Chi-квадрата (визначається як сума квадратів незалежних стандартних нормалей), який залучається до розподілу вибірки дисперсії.

  • F-тест (співвідношення передбачуваних відхилень).

  • Тест Chi-квадрата , що включає його використання в (а) тестуванні на незалежність у таблицях на випадок надзвичайних ситуацій та (b) тестуванні на відповідність відповідності розподільних оцінок.

По духу, ці тести мають загальну гаму від точного (t-тест Стьюдента і F-тесту для нормальних змінних) до хорошого наближення (тест Стьюдента і тести Велча / Саттертвейта для не надто погано перекошених даних) ) базуватися на асимптотичних наближеннях (тест Chi-квадрата). Цікавим аспектом деяких із них є поява неінтегральних "ступенів свободи" (тести Вельча / Саттертвайта і, як ми побачимо, тест на квадрат Chi). Це представляє особливий інтерес, оскільки це перший натяк на те, що DF - це не одна з речей, на які заявлено.

Деякі претензії у питанні ми можемо одразу розпоряджатись. Оскільки "остаточний обчислення статистики" не є чітко визначеним (це, мабуть, залежить від того, який алгоритм використовується для обчислення), він може бути не більше ніж розпливчатою пропозицією і не варто більше критикувати. Аналогічно, ні "кількість незалежних балів, які входять в оцінку", ні "кількість параметрів, що використовуються як проміжні кроки", не визначені добре.

"Незалежні відомості, які потрапляють в [оцінку" , важко розібратися, тому що тут можуть бути актуальні два, але тісно пов'язані з ними "незалежні" почуття. Одне - незалежність випадкових величин; інша - функціональна незалежність. Прикладом останнього, припустимо, ми збираємо морфометричні вимірювання предметів - скажімо, для простоти, три сторони довжини , Y , Z , площі поверхні S = 2 ( X Y + Y Z + Z X ) та обсяги V = X Y ZXYZS=2(XY+YZ+ZX)V=XYZнабір дерев'яних блоків. Три бічні довжини можна вважати незалежними випадковими змінними, але всі п'ять змінних є залежними RV. П'ять також функціонально залежать, тому що кодоменне "домен"!) Векторної значення випадкової величини відслідковує тривимірний множину в R 5 . (Таким чином, локально в будь-якій точці ω R 5 існують дві функції f ω і g ω, для яких f ω(X,Y,Z,S,V)R5ωR5fωgω і g ω ( X ( ψ ) , , V ( ψ ) ) = 0 для точок ψ "біля" ω та похідних f і g, оцінених на ω є лінійно незалежними.) Однак - ось кікер - для багатьох імовірнісних заходів на блоки, підмножини змінних, таких як ( X ,fω(X(ψ),,V(ψ))=0gω(X(ψ),,V(ψ))=0ψωfgω єзалежнимияк випадкові величиниале функціональнонезалежні.(X,S,V)

Попередивши про ці потенційні неоднозначності, давайте проведемо тест на відповідність чи-квадрату на придатність для перевірки , оскільки (а) це просто, (б) це одна з поширених ситуацій, коли людям дійсно потрібно знати про DF, щоб отримати p-значення права та (c) воно часто використовується неправильно. Ось короткий огляд найменш суперечливого застосування цього тесту:

  • У вас є колекція значень даних , що розглядаються як вибірка сукупності.(x1,,xn)

  • Ви оцінили деякі параметри розподілу. Наприклад, ви оцінили середнє значення θ 1 і стандартне відхилення θ 2 = θ p нормального розподілу, припустивши, що популяція зазвичай розподіляється, але не знаючи (до отримання даних), що може бути θ 1 або θ 2 .θ1,,θpθ1θ2=θpθ1θ2

  • Заздалегідь ви створили набір "бункерів" для даних. (Це може бути проблематично, коли бункери визначаються даними, навіть якщо це часто робиться.) Використовуючи ці бункери, дані зводяться до набору рахунків у кожному контейнері. Передчуваючи, якими можуть бути справжні значення ( θ ) , ви впорядкували це так (сподіваємось), що кожен контейнер отримає приблизно однаковий підрахунок. (Бінінг з однаковою ймовірністю гарантує, що розподіл chi-квадрата справді є хорошим наближенням до справжнього розподілу статистики chi-квадрата, про яку слід описати.)к(θ)

  • У вас дуже багато даних - достатньо, щоб переконатися, що майже у всіх бункерах повинно бути число 5 або більше. (Ми сподіваємось, це дасть можливість адекватно наблизити розподіл вибірки статистики за деяким χ 2 розподілом.)χ2χ2

Використовуючи оцінки параметрів, ви можете обчислити очікувану кількість у кожному відрізку. Статистика Chi-квадрата - це сума відношень

(спостерігається-очікуваний)2очікуваний.

Це, як кажуть нам багато органів влади, повинно мати (до дуже близького наближення) розподіл у квадраті Chi. Але є ціла родина таких розподілів. Вони диференціюються параметром часто називають "ступенем свободи". Стандартне міркування про те, як визначити ν, йде такνν

У мене є кількість. Це k фрагментів даних. Але серед них є ( функціональні ) зв’язки. Для початку я заздалегідь знаю, що сума підрахунків повинна дорівнювати n . Це одне відношення. Я оцінив з даних два (або p , як правило) параметри. Це два (або p ) додаткові відносини, що дають p + 1 загальних відносин. Припускаючи, що вони (параметри) всі ( функціонально ) незалежні, що залишає лише k - p - 1 ( функціонально ) незалежні "ступені свободи": це значення, яке потрібно використовувати дляккнppp+1к-p-1 .ν

Проблема з цим міркуванням (який є таким розрахунком, на який натякають цитати у питанні) полягає в тому, що це неправильно, за винятком випадків, коли дотримуються деяких спеціальних додаткових умов. Більше того, ці умови не мають нічого спільного з незалежністю (функціональною чи статистичною), ні з кількістю "компонентів" даних, ні з числами параметрів, ні з чим іншим, про що йдеться в оригінальному запитанні.

Дозвольте показати вам на прикладі. (Щоб зробити це максимально зрозумілим, я використовую невелику кількість бункерів, але це не суттєво.) Давайте генеруємо 20 незалежних і однаково розподілених (iid) стандартних звичайних змінних і оцінюємо їх середнє та стандартне відхилення за звичайними формулами ( середня = сума / підрахунок тощо ). Щоб перевірити придатність придатності, створіть чотири бункери з точками вирізування на четвертіх стандартних нормальних: -0,675, 0, +0,657, і використовуйте підрахунки смітників для отримання статистики Chi-квадрата. Повторіть, як дозволяє терпіння; Я встиг зробити 10000 повторень.

Стандартна мудрість щодо DF говорить про те, що у нас є 4 бункери та 1 + 2 = 3 обмеження, що передбачає розподіл цих 10 000 Chi-квадратних статистичних даних, які повинні слідувати розподілу Chi-квадрата з 1 DF. Ось гістограма:

Фігура 1

Темно-синя лінія показує PDF розподілу - такого, на який ми думали, що буде працювати - в той час як темно-червона лінія графікує розподіл χ 2 ( 2 ) (що було б добре здогадатися, якби хтось щоб сказати вам, що ν = 1 неправильно). Не відповідає жодним даним.χ2(1)χ2(2)ν=1

Ви можете очікувати, що проблема буде пов’язана з малим розміром наборів даних ( = 20) або, можливо, малим розміром кількості бункерів. Однак проблема зберігається навіть із дуже великими наборами даних та більшою кількістю бункерів: це не просто недосягнення асимптотичного наближення.н

Все пішло не так, оскільки я порушив дві вимоги тесту Chi-квадрата:

  1. Ви повинні використовувати оцінку максимальної ймовірності параметрів. (Ця вимога на практиці може бути злегка порушена.)

  2. Ви повинні базувати цю оцінку на рахунках, а не на фактичних даних! (Це важливо .)

Малюнок 2

Червона гістограма зображує статистику хі-квадрата для 10 000 окремих ітерацій, дотримуючись цих вимог. Звичайно, вона помітно слідує кривій (з прийнятною кількістю помилки вибірки), як ми спочатку сподівалися.χ2(1)

Сенс цього порівняння - що я сподіваюся , що ви вже бачили прихід - це те , що правильний DF використовувати для обчислення р-значень залежить від багатьох речей , інших , ніж розміри колекторів, епізоди функціональних відносин, або геометрія нормальних випадкових величин . Існує тонка делікатна взаємодія між певними функціональними залежностями, що виявляються в математичних взаємозв'язках між величинами, і розподілами даних, їх статистикою та формуваними з них оцінниками. Відповідно, не може бути так, що DF є достатньо поясненим з точки зору геометрії багатоваріантних нормальних розподілів, або з точки зору функціональної незалежності, або як підрахунок параметрів, або що-небудь інше подібного характеру.

Тоді нас припускають бачити, що "ступінь свободи" є лише евристикою, яка підказує, яким повинен бути розподіл вибірки статистики (t, Chi-квадрата або F), але не є диспозитивним. Віра в те, що вона є диспозитивною, призводить до кричущих помилок. (Наприклад, найкращий хіт Google при пошуку "чи в квадраті доброти придатності") - це веб-сторінка університету Ivy League, яка отримує більшість цього зовсім неправильно! Зокрема, моделювання, засноване на його інструкціях, показує, що чи-квадрат значення, яке воно рекомендує, оскільки 7 DF насправді має 9 DF.)

З цим більш нюансовим розумінням, варто перечитати цю статтю у Вікіпедії: у деталях вона все виправдовує, вказуючи, де евристика DF схильна працювати і де це або наближення, або взагалі не застосовується.


Хороший опис явища, проілюстрованого тут (несподівано високий показник коефіцієнта корисних копалин у тестах на гофілінг на Chi-squared), представлений у томі II видання Kendall & Stuart, 5-е видання . Я вдячний за надану цим запитанням можливість повернути мене до цього чудового тексту, який наповнений такими корисними аналізами.


Редагувати (січень 2017)

Ось Rкод для отримання фігури, що відповідає "Стандартної мудрості про DF ..."

#
# Simulate data, one iteration per column of `x`.
#
n <- 20
n.sim <- 1e4
bins <- qnorm(seq(0, 1, 1/4))
x <- matrix(rnorm(n*n.sim), nrow=n)
#
# Compute statistics.
#
m <- colMeans(x)
s <- apply(sweep(x, 2, m), 2, sd)
counts <- apply(matrix(as.numeric(cut(x, bins)), nrow=n), 2, tabulate, nbins=4)
expectations <- mapply(function(m,s) n*diff(pnorm(bins, m, s)), m, s)
chisquared <- colSums((counts - expectations)^2 / expectations)
#
# Plot histograms of means, variances, and chi-squared stats.  The first
# two confirm all is working as expected.
#
mfrow <- par("mfrow")
par(mfrow=c(1,3))
red <- "#a04040"  # Intended to show correct distributions
blue <- "#404090" # To show the putative chi-squared distribution
hist(m, freq=FALSE)
curve(dnorm(x, sd=1/sqrt(n)), add=TRUE, col=red, lwd=2)
hist(s^2, freq=FALSE)
curve(dchisq(x*(n-1), df=n-1)*(n-1), add=TRUE, col=red, lwd=2)
hist(chisquared, freq=FALSE, breaks=seq(0, ceiling(max(chisquared)), 1/4), 
     xlim=c(0, 13), ylim=c(0, 0.55), 
     col="#c0c0ff", border="#404040")
curve(ifelse(x <= 0, Inf, dchisq(x, df=2)), add=TRUE, col=red, lwd=2)
curve(ifelse(x <= 0, Inf, dchisq(x, df=1)), add=TRUE, col=blue, lwd=2)
par(mfrow=mfrow)

40
Це дивовижна відповідь. Ви за це виграєте в Інтернеті.
Адам

6
@caracal: як відомо, методи ML для вихідних даних є рутинними та широко розповсюдженими: наприклад, для нормального розподілу MLE є середньою вибіркою, а MLE з σ - квадратним коренем стандартного відхилення вибірки ( без звичайна корекція зміщення). Для отримання оцінок на основі підрахунків я обчислював функцію ймовірності підрахунків - для цього потрібні обчислення значень CDF у точках вирізу, взяття їх журналів, множення на підрахунки та додавання - та оптимізовано його за допомогою програмного забезпечення для оптимізації. μσ
whuber

4
@caracal Вам це, мабуть, більше не потрібен, але приклад Rкоду для встановлення ML- файлів із зведених даних тепер з’являється у відповідному питанні: stats.stackexchange.com/a/34894 .
whuber

1
"Проблема з цим міркуванням (який є таким розрахунком, на який натякають цитати у питанні) полягає в тому, що це неправильно, за винятком випадків, коли дотримуються деяких спеціальних додаткових умов." Я зараз (майже) проходжу два семестри послідовності лінійних моделей, і я розумію, що ступеня свободи є рангом матриці в "середині" квадратичної форми. Що це за "додаткові умови"?
Кларнетист

4
@Clarinetist Основний пункт моєї відповіді полягає в тому, щоб припустити, що те, що вас вчили, засноване на плутанині двох понять DF. Хоча ця плутанина не викликає проблем для стандартних моделей з найменшою квадратикою, вона призводить до помилок навіть у простих, звичайних обставинах, таких як аналіз таблиць на випадок надзвичайних ситуацій. Цей матричний ранг дає функціональний DF. У лінійній моделі з мінімальними квадратами трапляється дати правильний коефіцієнт DF для певних видів тестів, таких як F-тести. Для тесту чи-квадрата спеціальні умови перераховуються пізніше у відповіді як бали (1) та (2).
whuber

74

Або просто: кількість елементів у числовому масиві, який ви можете змінити, щоб значення статистики залишалося незмінним.

# for instance if:
x + y + z = 10

ви можете змінити, наприклад, x і y навмання, але ви не можете змінити z (можна, але не випадково, тому ви не вільні змінити його - див. коментар Гарві), тому що ви зміните значення статистики (Σ = 10). Отже, у цьому випадку df = 2.


19
Не зовсім коректно сказати "ви не можете змінити z". Насправді, ви повинні змінити z, щоб сума дорівнювала 10. Але у вас немає вибору (немає свободи) щодо того, на що вона змінюється. Ви можете змінити будь-які два значення, але не третє.
Харві Мотульський

53

Концепцію зовсім не складно зробити математично точною, враховуючи трохи загальних знань про мірну евклідову геометрію, підпростори та ортогональні проекції.n

Якщо - ортогональна проекція від R n до p -вимірного підпростору L, а x довільний n- векторPRnpLxn знаходиться в L , х - Р х і Р х ортогональні і х - Р х L в ортогональное доповнення L . Розмір цього ортогонального доповнення, L , n - p . ЯкщоPxLxPxPxxPxLLLnp може змінюватися в n- розмірному просторі, тоді x - P x може змінюватися в n - p розмірному просторі. З цієї причини ми говоримо, що x - P x має n - p ступенів свободи.xnxPxnpxPxnp

Ці міркування важливі для статистики, оскільки якщо - n -вимірний випадковий вектор, а L - модель його середнього значення, тобто середній вектор E ( X ) знаходиться в L , то X - P X називаємо вектором залишків , і ми використовуємо залишки для оцінки дисперсії. Вектор залишків має n - p ступенів свободи, тобто обмежений підпростором розмірності n - p .XnLE(X)LXPXnpnp

Якщо координати незалежні і зазвичай розподіляються з однаковою дисперсією σ 2, тоXσ2

  • Вектори і X - P X незалежні.PXXPX
  • Якщо - розподіл квадратичної норми вектора залишків | | X - P X | | 2 - розподіл χ 2 з параметром масштабу σ 2 та іншим параметром, який буває ступенем свободи n - p .E(X)L||XPX||2χ2σ2np

Ескіз доказування цих фактів подано нижче. Два результати є основними для подальшого розвитку статистичної теорії на основі нормального розподілу. Зауважимо також, що саме тому розподіл має параметризацію, яку він має. Це також Γ -розподіл з параметром масштабу 2 σ 2 та параметром форми ( n - p ) / 2 , але в контексті вище, природно, параметризувати з точки зору ступенів свободи.χ2Γ2σ2(np)/2

Я мушу визнати, що я не вважаю жоден із цитованих із статті Вікіпедії пунктів особливо просвітницьким, але вони насправді не є помилковими чи суперечливими. Вони говорять в неточному і в загальному розслабленому сенсі, що коли ми обчислюємо оцінку параметра дисперсії, але робимо це на основі залишків, ми грунтуємо обчислення на векторі, який може вільно змінюватися в просторі розмірності .np

Поза теорією лінійних нормальних моделей використання поняття ступенів свободи може бути заплутаним. Наприклад, він використовується при параметризації розподілу незалежно від того, чи є посилання на що-небудь, що могло мати будь-які ступені свободи. Коли ми розглядаємо статистичний аналіз категоричних даних, може виникнути певна плутанина щодо того, чи слід рахувати "незалежні фрагменти" до та після підрахунку. Крім того, для обмежень, навіть для звичайних моделей, які не є підпросторовими обмеженнями, не очевидно, як розширити поняття ступенів свободи. Зазвичай під назвою ефективних ступенів свободи існують різні пропозиції .χ2

Перш ніж розглядати будь-які інші звичаї та значення ступенів свободи, я настійно рекомендую бути впевненими в цьому в контексті лінійних нормальних моделей. Посилання, що стосується цього класу моделей, - це «Перший курс в теорії лінійної моделі» , а в передмові книги до інших класичних книг про лінійні моделі є додаткові посилання.

Доказ наведених вище результатів: Нехай , зауважимо , що матриця дисперсія σ 2 Я і вибрати ортонормованій базис Z 1 , ... , г р о л і ортонормованій базис г р + 1 , ... , г п з L . Тоді z 1 , , z n є ортонормальною основою R n . Нехай ˜ Xξ=E(X)σ2Iz1,,zpLzp+1,,znLz1,,znRnX~Позначимо через вектор коефіцієнтів X в цьому базисі, тобто ~ Х я = г Т я х . де Z - ортогональна матриця із z i 's у стовпцях. Тоді ми маємо використати, що ˜ X має нормальний розподіл із середнім Z T ξ і, оскільки Z ортогональна, дисперсійна матриця σ 2 InX

X~i=ziTX.
Це також може бути записана в вигляді X~=ZTXZziX~ZTξZσ2I. Це випливає із загальних результатів лінійного перетворення нормального розподілу. Основу було обрано так, щоб коефіцієнти були ˜ X i при i = 1 , , p , а коефіцієнти X - P X дорівнювали ˜ X i для i = p + 1 , , n . Оскільки коефіцієнти некорельовані і спільно нормальні, вони незалежні, і це означає, що P X = p iPXX~ii=1,,pXPXX~ii=p+1,,n і X-PX= n i = p + 1 ˜ X izi є незалежними. Більше того, | | X-PX| | 2= n i = p + 1 ˜ X 2 i . ЯкщоξL,тоE( ˜ X i
PX=i=1pX~izi
XPX=i=p+1nX~izi
||XPX||2=i=p+1nX~i2.
ξL для i = p + 1 , , n, оскільки тоді z iL і, отже, z iξ . У цьому випадку | | X - P X | | 2 - сума n - p незалежного N ( 0 , σ 2 )E(X~i)=ziTξ=0i=p+1,,nziLziξ||XPX||2npN(0,σ2)-розподілені випадкові величини, розподіл яких за визначенням є -розподілом із параметрами шкали σ 2 та n - p ступенів свободи.χ2σ2np

NRH, спасибі! (1) Чому повинен знаходитися всередині L ? (2) Чому P X і X - P X є незалежними? (3) Чи визначено dof у контексті випадкової змінної від dof у його детермінованому випадку? Наприклад, є причиною | | X - P X | | 2 має dof n - p, тому що це правда, коли X є детермінованою змінною замість випадкової змінної? (4) Чи існують посилання (книги, документи чи посилання), які відповідають тій же / подібній думці, що і ваша?E(X)LPXXPX||XPX||2npX
Тім

@Tim, і X - P X є незалежними, оскільки вони є нормальними і некорельованими. PXXPX
mpiktas

@Tim, я трохи переробив відповідь і дав підтвердження заявлених результатів. Середнє значення повинно бути в щоб довести результат про χ 2 -розподіл. Це модельне припущення. У літературі слід шукати звичайні лінійні моделі або загальні лінійні моделі, але зараз я можу згадати лише деякі старі, неопубліковані конспекти лекцій. Я побачу, чи зможу знайти відповідне посилання. Lχ2
NRH

Чудова відповідь. Дякуємо за розуміння. Одне запитання: я втратив те, що ви мали на увазі під фразою "середній вектор у L ". Ти можеш пояснити? Ви намагаєтеся визначити E ? визначити L ? щось ще? Можливо, це речення намагається зробити занадто багато або бути занадто стислим для мене. Чи можете ви розібратися, що таке визначення E у вказаному вами контексті: чи просто E ( x 1 , x 2 , , x n ) = ( x 1 + x 2 + + xEXLELE ? Чи можете ви детальніше розповісти про те, що є L у цьому контексті (нормальних iid-координат)? Це просто L = R ? E(x1,x2,,xn)=(x1+x2++xn)/nLL=R
DW

@DW - оператор очікування. Таким чином , E ( X ) є вектором покоординатно очікувань X . Підпростір L - це будь-який p -вимірний підпростір R n . Це простір nEE(X)XLpRnn векторів і, звичайно, не , але він цілком може бути одновимірним. Найпростіший приклад, можливо, коли він охоплюється 1 -вектором з 1 взагалі n -координатами. Це модель всіх координат X, що мають однакове середнє значення, але можливе багато складніших моделей. R1nX
NRH

30

Це насправді нічим не відрізняється від того, як працює термін "ступені свободи" в будь-якій іншій галузі. Наприклад, припустимо, у вас є чотири змінні: довжина, ширина, площа та периметр прямокутника. Ви справді знаєте чотири речі? Ні, тому що є лише два ступені свободи. Якщо ви знаєте довжину та ширину, ви можете вивести площу та периметр. Якщо ви знаєте довжину та площу, ви можете отримати ширину та периметр. Якщо ви знаєте площу та периметр, ви можете визначити довжину та ширину (до обертання). Якщо у вас є всі чотири, ви можете сказати, що система є послідовною (всі змінні узгоджуються між собою), або непослідовною (жоден прямокутник насправді не міг би задовольнити всі умови). Квадрат - прямокутник із вилученим ступенем свободи;

У статистиці все стає нечіткішим, але ідея все одно та сама. Якщо всі дані, які ви використовуєте як вхід для функції, є незалежними змінними, то ви маєте стільки ж ступенів свободи, скільки у вас є вхідні дані. Але якщо вони мають певну залежність, таку, якби у вас було n - k входів, ви могли б розібратися з рештою k, то ви насправді отримали лише n - k ступенів свободи. І іноді вам потрібно це враховувати, щоб не переконати себе в тому, що дані надійніші або мають більшу силу прогнозування, ніж вони є насправді, підраховуючи більше точок даних, ніж у вас дійсно є незалежні біти даних.

(Взято з допису за адресою http://www.reddit.com/r/math/comments/9qbut/could_someone_explain_to_me_what_degrees_of/c0dxtbq?context=3 .)

Більше того, усі три визначення майже намагаються дати одне і те ж повідомлення.


1
В основному правильно, але я стурбований тим, що середній абзац можна прочитати таким чином, що заплутує кореляцію, незалежність (випадкових змінних) та функціональну незалежність (від безлічі параметрів). Особливо важливо підтримувати відмінність кореляції-незалежності.
whuber

@whuber: зараз добре?
Біостат

3
Це правильно, але те, як він використовує терміни, певно, бентежить деяких людей. Він все ще не чітко відрізняє залежність випадкових величин від функціональної залежності. Наприклад, дві змінні в (неродженому) двовимірному нормальному розподілі з ненульовою кореляцією будуть залежати (як випадкові змінні), але вони все ще пропонують два ступені свободи.
whuber

5
Це було вставлено з копії з публікації reddit, яку я зробив у 2009 році .
панно

2
Наш довідковий центр надає чіткі вказівки щодо посилань на матеріали, написані іншими , тому сподіваюся, що ОП повернеться на цю посаду, щоб вжити відповідних дій та вступити в конструктивні взаємодії (хоча ми його ще не бачили).
chl

19

Мені дуже подобається перше речення з "Маленького посібника зі статистичної практики". Ступінь свободи Глава

Одне із запитань, яке інтруктор переймає найбільше перед математично непідготовленою аудиторією, - це "Що таке ступеня свободи?"

Я думаю, ви можете отримати дуже гарне розуміння ступеня свободи від читання цієї глави.


6
Було б добре пояснити, чому важлива ступінь свободи, а не просто те, що це таке. Наприклад, показуючи, що оцінка дисперсії з 1 / n є упередженою, але використовуючи 1 / (n-1), дає неупереджений оцінювач.
Трістан

9

Вікіпедія стверджує, що ступеня свободи a випадкового вектора може бути інтерпретована як розміри векторного підпростору. Я хочу пройти крок за кроком, дуже в основному через це як часткову відповідь і детальну інформацію про запис у Вікіпедії.

Запропонований приклад - випадковий вектор, що відповідає вимірам суцільної змінної для різних суб'єктів, виражений у вигляді вектора, що виходить від початку . Його ортогональна проекція на вектор [ 1[abc]T призводить до векторурівні проекції вектора засоби вимірювання ( ˉ х = 1 / 3 ( + б + гр ) ), тобто [ ˉ х[111]Tx¯=1/3(a+b+c), пунктирнимвектором1 ,[1[x¯x¯x¯]T1 Ця проекція на підпростір, охоплений вектором одиниць, має 1[111]T . Остаточнийвектор (відстань від середнього) є проекцією наімалейшіх квадратів на ( п - 1 ) nмірного ортогонального доповнення цього підпростору, і має п -1degree of freedom(n1) , n - загальна кількість компонентів вектора (в нашому випадку 3, оскільки мив прикладі R 3 ). Це можна просто довести, отримавши крапковий добуток [ ˉ xn1degrees of freedomn3R3з різницею між[a[x¯x¯x¯]T і [ ˉ х[abc]T:[x¯x¯x¯]T

[x¯x¯x¯][ax¯bx¯cx¯]=

=[(a+b+c)3(a(a+b+c)3)]+[(a+b+c)3(b(a+b+c)3)]+[(a+b+c)3(c(a+b+c)3)]

=(a+b+c)3[(a(a+b+c)3)+(b(a+b+c)3)+(c(a+b+c)3)]

=(a+b+c)3[13(3a(a+b+c)+3b(a+b+c)+3c(a+b+c))]

.

=(a+b+c)3[13(3a3a+3b3b+3c3c)]=0

І ця залежність поширюється на будь-яку точку площини, ортогональної до . Ця концепція важлива для розуміння того, чому1[x¯x¯x¯]T , крок у виведенні t-розподілу (тутітут).1σ2((X1X¯)2++(XnX¯)2)χn12

Візьмемо точку , що відповідає трьом спостереженням. Середнє значення - 55 , а вектор [ 55[355080]T55 є нормальним (ортогональної) до площини, 55 х + 55 г + 55 г = D . Підключення точкових координат до рівняння площини, D = - 9075 .[555555]T55x+55y+55z=DD=9075

Тепер ми можемо вибрати будь-яку іншу точку на цій площині, і середнє значення її координат буде , геометрично відповідає його проекції на вектор [ 155 . Отже, для кожного середнього значення (у нашому прикладі 55 ) ми можемо вибрати нескінченну кількістьпаркоординат у R 2 без обмежень ( 2[111]T55R2 ); але, оскільки площина знаходиться в R 3 , третя координата настане визначається рівнянням площини (або, геометрично, ортогональною проекцією точки на [ 552degrees of freedomR3 .[555555]T

Тут представлено три точки (білого кольору), що лежать на площині (синій серуле), ортогональній до (стрілка): [ 35[555555]T , [ 80[355080]T та [ 90[80805] всі вони на площині (підпростір з 2[901560] ), а потім із середнім значенням їх компонентів 55 і ортогональною проекцією на [ 12df55 (підпростір з 1[111]T ) дорівнює [ 551df :[555555]T


9

На своїх заняттях я використовую одну "просту" ситуацію, яка може допомогти вам замислитися і, можливо, розвинути почуття кишечника щодо того, що може означати ступінь свободи.

Це свого роду підхід «Форест Гамп» до цього питання, але варто спробувати.

Розглянемо, що у вас є 10 незалежних спостережень які надійшли від нормальної сукупності, середня μ і дисперсія σ 2X1,X2,,X10N(μ,σ2)μσ2 невідомі.

Ваші спостереження приносять вам колективну інформацію як про і σ 2 . Зрештою, ваші спостереження, як правило, поширюються навколо одного центрального значення, яке повинно бути близьким до фактичного та невідомого значення μ, а також, якщо μ дуже високий або дуже низький, то ви можете сподіватися, що ваші спостереження збираються навколо дуже високе або дуже низьке значення відповідно. Одним добрим «замінником» μ (за відсутності знань про його фактичне значення) є ˉ Xμσ2μμμX¯ , середнє значення вашого спостереження.

Крім того, якщо ваші спостереження дуже близькі одне до одного, це є свідченням того, що ви можете очікувати, що має бути малим, а також, якщо σ 2 дуже великий, то ви можете розраховувати побачити диво різні значення для X 1 до X 10 . σ2σ2X1X10

Якби ви зробили ставку на заробітну плату за тиждень, на якій мають бути фактичні значення і σ 2 , вам потрібно вибрати пару значень, на які ви зробите ставку на свої гроші. Давайте не будемо думати ні про що , як драматичним , як втратити свою зарплату , якщо не вгадати М коректно до його 200 - й позиції десяткової. Ні. Давайте подумаємо про якусь цінову систему, що чим ближче ви здогадаєтесь μ і σ 2, тим більше отримуєте винагороду.μσ2μμσ2

В якому - то сенсі, ваш краще, більш поінформовані і більш ввічливі здогад для значення «и можуть бути ˉ X . У цьому сенсі, ви оцінити , що μ має бути деяке значення навколо ˙ X . Аналогічно, одним добрим "замінником" для σ 2 (поки що не потрібно) є S 2 , ваша дисперсія вибірки, що дає хорошу оцінку σμX¯μX¯σ2S2σ .

Якби ви вважали, що ці замінники - це фактичні значення і σ 2 , ви, ймовірно, помиляєтесь, тому що дуже тонкі шанси, що вам так пощастило, що ваші спостереження узгодили себе, щоб отримати дар gift X рівний до μ і S 2, рівних σ 2μσ2X¯μS2σ2 . Ні, напевно, цього не сталося.

Але ви можете бути на різних рівнях неправильних, варіюючись від трохи неправильних до дійсно, дійсно, дуже жалюгідних помилок (він же "До побачення, зарплата; до наступного тижня!").

Гаразд, скажімо, що ви взяли як здогадку для μ . Розглянемо лише два сценарії: S 2 = 2 і S 2 = 20 , 000 , 000 . По-перше, ваші спостереження сидять досить і близько один до одного. В останньому ваші спостереження сильно різняться. У якому сценарії ви повинні більше ставитися до своїх потенційних втрат? Якщо ви думали про друге, ви маєте рацію. Оцінка приблизно σ 2 дуже розумно змінює вашу впевненість у вашій ставці; чим більший σ 2 , тим ширше ви можете очікувати ˉ XX¯μS2=2S2=20,000,000σ2σ2X¯ змінювати.

Але, крім інформації про та σ 2 , ваші спостереження також містять деяку кількість просто чистого випадкового коливання, яке не є інформативним ні про μ, ні про σ 2 . μσ2μσ2

Як це можна помітити?

Ну, припустимо, для аргументації, що є Бог і що у нього є вільний час, достатній, щоб дати собі легковажність, щоб конкретно вам сказати реальні (і поки що невідомі) значення як і σ .μσ

І ось набридливий сюжетний викрут цієї лізергічної казки: Він розповідає це вам після того, як ви зробили ставку. Можливо, щоб просвітити тебе, можливо, підготувати тебе, можливо, знущатися над тобою. Як ти міг це знати?

μσ2X¯S2μσ2

μX¯(X¯μ)

XiN(μ,σ2)X¯N(μ,σ2/10)(X¯μ)N(0,σ2/10) (ok, trust me in that on too) and, finally,

X¯μσ/10N(0,1)
(guess what? trust me in that one as well), which carries absolutely no information about μ or σ2.

You know what? If you took any of your individual observations as a guess for μ, your estimation error (Xiμ) would be distributed as N(0,σ2). Well, between estimating μ with X¯ and any Xi, choosing X¯ would be better business, because Var(X¯)=σ2/10<σ2=Var(Xi), so X¯ was less prone to be astray from μ than an individual Xi.

Anyway, (Xiμ)/σN(0,1) is also absolutely non informative about neither μ nor σ2.

"Will this tale ever end?" you may be thinking. You also may be thinking "Is there any more random fluctuation that is non informative about μ and σ2?".

[I prefer to think that you are thinking of the latter.]

Yes, there is!

The square of your estimation error for μ with Xi divided by σ,

(Xiμ)2σ2=(Xiμσ)2χ2
has a Chi-squared distribution, which is the distribution of the square Z2 of a standard Normal ZN(0,1), which I am sure you noticed has absolutely no information about either μ nor σ2, but conveys information about the variability you should expect to face.

That is a very well known distribution that arises naturally from the very scenario of you gambling problem for every single one of your ten observations and also from your mean:

(X¯μ)2σ2/10=(X¯μσ/10)2=(N(0,1))2χ2
and also from the gathering of your ten observations' variation:
i=110(Xiμ)2σ2/10=i=110(Xiμσ/10)2=i=110(N(0,1))2=i=110χ2.
Now that last guy doesn't have a Chi-squared distribution, because he is the sum of ten of those Chi-squared distributions, all of them independent from one another (because so are X1,,X10). Each one of those single Chi-squared distribution is one contribution to the amount of random variability you should expect to face, with roughly the same amount of contribution to the sum.

The value of each contribution is not mathematically equal to the other nine, but all of them have the same expected behavior in distribution. In that sense, they are somehow symmetric.

Each one of those Chi-square is one contribution to the amount of pure, random variability you should expect in that sum.

If you had 100 observations, the sum above would be expected to be bigger just because it have more sources of contibutions.

Each of those "sources of contributions" with the same behavior can be called degree of freedom.

Now take one or two steps back, re-read the previous paragraphs if needed to accommodate the sudden arrival of your quested-for degree of freedom.

Yep, each degree of freedom can be thought of as one unit of variability that is obligatorily expected to occur and that brings nothing to the improvement of guessing of μ or σ2.

The thing is, you start to count on the behavior of those 10 equivalent sources of variability. If you had 100 observations, you would have 100 independent equally-behaved sources of strictly random fluctuation to that sum.

That sum of 10 Chi-squares gets called a Chi-squared distributions with 10 degrees of freedom from now on, and written χ102. We can describe what to expect from it starting from its probability density function, that can be mathematically derived from the density from that single Chi-squared distribution (from now on called Chi-squared distribution with one degree of freedom and written χ12), that can be mathematically derived from the density of the normal distribution.

"So what?" --- you might be thinking --- "That is of any good only if God took the time to tell me the values of μ and σ2, of all the things He could tell me!"

Indeed, if God Almighty were too busy to tell you the values of μ and σ2, you would still have that 10 sources, that 10 degrees of freedom.

Things start to get weird (Hahahaha; only now!) when you rebel against God and try and get along all by yourself, without expecting Him to patronize you.

You have X¯ and S2, estimators for μ and σ2. You can find your way to a safer bet.

You could consider calculating the sum above with X¯ and S2 in the places of μ and σ2:

i=110(XiX¯)2S2/10=i=110(XiX¯S/10)2,
but that is not the same as the original sum.

"Why not?" The term inside the square of both sums are very different. For instance, it is unlikely but possible that all your observations end up being larger than μ, in which case (Xiμ)>0, which implies i=110(Xiμ)>0, but, by its turn, i=110(XiX¯)=0, because i=110Xi10X¯=10X¯10X¯=0.

Worse, you can prove easily (Hahahaha; right!) that i=110(XiX¯)2i=110(Xiμ)2 with strict inequality when at least two observations are different (which is not unusual).

"But wait! There's more!"

XiX¯S/10
doesn't have standard normal distribution,
(XiX¯)2S2/10
doesn't have Chi-squared distribution with one degree of freedom,
i=110(XiX¯)2S2/10
doesn't have Chi-squared distribution with 10 degrees of freedom
X¯μS/10
doesn't have standard normal distribution.

"Was it all for nothing?"

No way. Now comes the magic! Note that

i=110(XiX¯)2σ2=i=110[Xiμ+μX¯]2σ2=i=110[(Xiμ)(X¯μ)]2σ2=i=110(Xiμ)22(Xiμ)(X¯μ)+(X¯μ)2σ2=i=110(Xiμ)2(X¯μ)2σ2=i=110(Xiμ)2σ2i=110(X¯μ)2σ2=i=110(Xiμ)2σ210(X¯μ)2σ2=i=110(Xiμ)2σ2(X¯μ)2σ2/10
or, equivalently,
i=110(Xiμ)2σ2=i=110(XiX¯)2σ2+(X¯μ)2σ2/10.
Now we get back to those known faces.

The first term has Chi-squared distribution with 10 degrees of freedom and the last term has Chi-squared distribution with one degree of freedom(!).

We simply split a Chi-square with 10 independent equally-behaved sources of variability in two parts, both positive: one part is a Chi-square with one source of variability and the other we can prove (leap of faith? win by W.O.?) to be also a Chi-square with 9 (= 10-1) independent equally-behaved sources of variability, with both parts independent from one another.

This is already a good news, since now we have its distribution.

Alas, it uses σ2, to which we have no access (recall that God is amusing Himself on watching our struggle).

Well,

S2=1101i=110(XiX¯)2,
so
i=110(XiX¯)2σ2=i=110(XiX¯)2σ2=(101)S2σ2χ(101)2
therefore
X¯μS/10=X¯μσ/10Sσ=X¯μσ/10S2σ2=X¯μσ/10(101)S2σ2(101)=N(0,1)χ(101)2(101),
which is a distribution that is not the standard normal, but whose density can be derived from the densities of the standard normal and the Chi-squared with (101) degrees of freedom.

One very, very smart guy did that math[^1] in the beginning of 20th century and, as an unintended consequence, he made his boss the absolute world leader in the industry of Stout beer. I am talking about William Sealy Gosset (a.k.a. Student; yes, that Student, from the t distribution) and Saint James's Gate Brewery (a.k.a. Guinness Brewery), of which I am a devout.

[^1]: @whuber told in the comments below that Gosset did not do the math, but guessed instead! I really don't know which feat is more surprising for that time.

That, my dear friend, is the origin of the t distribution with (101) degrees of freedom. The ratio of a standard normal and the squared root of an independent Chi-square divided by its degrees of freedom, which, in an unpredictable turn of tides, wind up describing the expected behavior of the estimation error you undergo when using the sample average X¯ to estimate μ and using S2 to estimate the variability of X¯.

There you go. With an awful lot of technical details grossly swept behind the rug, but not depending solely on God's intervention to dangerously bet your whole paycheck.


1
Thank you for such an effort! I confess that I found your explanation less than convincing, though. It seems to founder at this crucial junction: "Each of those "sources of contributions" with the same behavior can be called degree of freedom." If you had instead summed 10 independent normal variates rather than 10 independent chi-squared variates, you would end up with--one normal variate. Somehow the "degrees of freedom" get completely swallowed up. Evidently there is something special about chi-squared you haven't yet described. BTW, Gosset didn't do the math: he guessed!
whuber

Thank you very much for your evaluation, @whuber! It's amazing how many typos pop up once you forgot what you wrote. About your evaluation, I intended just to illustrate another way of thinking -- a little bit less mathematical in some sense. Also, I am not grasping fully what you meant with If you had instead summed 10 independent normal variates rather than 10 independent chi-squared variates, you would end up with--one normal variate -- which I guessed to hold your key-point. I will try to elaborate about it, hoping to improve the post.
Марсело Вентура

2

Інтуїтивне пояснення ступенів свободи полягає в тому, що вони представляють кількість незалежних відомостей, доступних у даних для оцінки параметра (тобто невідомої кількості), що цікавить .

Як приклад, у простій лінійній регресійній моделі форми:

Yi=β0+β1Хi+ϵi,i=1,,н

де ϵiпредставляють незалежні нормально розподілені помилки з середнім значенням 0 і стандартним відхиленням σ, ми використовуємо 1 ступінь свободи для оцінки перехоплення β0 та 1 ступінь свободи для оцінки схилу β1. З того часу, як ми почали сн спостереження та використані 2 ступеня свободи (тобто, два незалежні частини інформації), нам залишається n2 degrees of freedom (i.e., n2 independent pieces of information) available for estimating the error standard deviation σ.


Дуже дякую за ваші зміни на мою відповідь, @COOLSerdash!
Ізабелла Гхемент

2

Ви можете бачити ступінь свободи як кількість спостережень мінус кількість необхідних співвідношень між цими спостереженнями. Прикладом, якщо у вас єн зразок незалежних спостережень нормального розподілу Х1,,Хн. Випадкова величинаi=1н(Хi-Х¯н)2Хн-12, де Х¯н=1нi=1нХi. Ступінь свободи тут єн-1 тому що їхнє одне необхідне співвідношення між тезами спостережень (Х¯н=1нi=1нХi).

Для отримання додаткової інформації див. Це


0

Для мене першим поясненням я зрозумів:

Якщо ви знаєте якесь статистичне значення, наприклад, середнє значення чи зміна, скільки змінних даних вам потрібно знати, перш ніж ви зможете дізнатися значення кожної змінної?

Це те саме, що було сказано aL3xa, але не надаючи жодної точки даних особливої ​​ролі і близької до третього випадку, наведеного у відповіді. Таким чином, такий же приклад:

Якщо ви знаєте середнє значення даних, вам потрібно знати значення для всіх, крім однієї точки даних, щоб знати значення для всіх точок даних.


Змінні -> спостереження
Річард Харді

0

Думай про це так. Варіанти є добавками, коли вони незалежні. Наприклад, припустимо, що ми кидаємо дротики на дошку і вимірюємо стандартні відхиленнях і узміщення від точного центру дошки. ТодіVх,у=Vх+Vу. Але,Vх=SDх2 якщо ми візьмемо квадратний корінь Vх,у формулою, ми отримуємо формулу відстані для ортогональних координат, SDх,у=SDх2+SDу2. Тепер все, що ми маємо показати, - це те, що стандартне відхилення є репрезентативною мірою зміщення вдалину від центра дошки дротика. З тих пірSDх=i=1н(хi-х¯)2н-1, ми маємо готові засоби обговорення df. Зауважте, що колин=1, тоді х1-х¯=0 і співвідношення i=1н(хi-х¯)2н-100. Іншими словами, між одним дротиком немає відхиленьх-координація і себе. Перший раз у нас є відхиленнян=2і є лише одна з них - дублікат. Це повторне відхилення - це відстань у квадратіх1 або х2 і х¯=х1+х22 оскільки х¯ є середньою точкою між або середньою х1 і х2. Загалом длян відстані ми видаляємо 1, оскільки х¯ залежить від усіх нцих відстаней. Тепер,н-1являє собою ступені свободи, оскільки вона нормалізується для кількості унікальних результатів, щоб зробити очікувану квадратну відстань. при поділі на суму цих квадратних відстаней.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.