Приклади статистики, яка не залежить від розподілу вибірки?


14

Це визначення статистики у wikipedia

Більш формально, статистична теорія визначає статистику як функцію вибірки, де сама функція не залежить від розподілу вибірки; тобто функцію можна заявити перед реалізацією даних. Термін статистика використовується як для функції, так і для значення функції на даному вибірці.

Я думаю, що я розумію більшість цього визначення, проте частина - де функція не залежить від розподілу вибірки, я не зміг розібратися.

Моє розуміння статистики поки що

Зразок являє собою набір реалізацій деякого числа незалежних однаково розподілений (IID) , випадкові величини з розподілом F (10 реалізацій рулону 20 односторонній справедливої кістки, 100 реалізацій 5 рулонів 6 ти односторонній справедливої кістки, випадковим чином залучити 100 чоловік з населення).

Функція, домен якої є набором, і діапазон яких є реальними числами (або, можливо, вона може виробляти інші речі, наприклад, вектор або інший математичний об'єкт ...) вважатиметься статистикою .

Коли я думаю про приклади, середня, медіанна дисперсія, все це має сенс у цьому контексті. Вони є функцією на сукупності реалізацій (вимірювання артеріального тиску з випадкової вибірки). Я також бачу, як лінійну регресійну модель можна вважати статистикою yi=α+βxi - це не просто функція на множині реалізацій?

Де я розгублений

Припускаючи, що моє розуміння зверху правильне, я не зміг зрозуміти, де функція може не залежати від розподілу вибірки. Я намагався придумати приклад, щоб зрозуміти його, але не пощастило. Будь-яке розуміння було б дуже вдячно!

Відповіді:


45

Це визначення є дещо незручним способом викласти його. "Статистика" - це будь-яка функція спостережуваних значень. Все, що визначає, означає, що статистика - це функція лише спостережуваних значень, а не функція розподілу або будь-якого з його параметрів. Наприклад, якщо X1,X2,...,XnN(μ,1) , то статистика буде будь-який функція T(X1,...,Xn) , тоді як функції H(X1,....,Xn,μ) не було б статистикою, оскільки це залежить відμ . Ось кілька додаткових прикладів:

StatisticX¯n=1ni=1nXi,StatisticSn2=1ni=1n(XiX¯n)2,Not a statisticDn=X¯nμ,Not a statisticpi=N(xi|μ,1),Not a statisticQ=10μ.

Кожна статистика - це функція лише спостережуваних значень, а не їх розподілу чи його параметрів. Тому немає прикладів статистики, яка є функцією розподілу або його параметрів (будь-яка така функція не була б статистикою). Однак важливо зазначити, що розподіл статистики (на відміну від самої статистики) взагалі залежатиме від базового розподілу значень. (Це справедливо для всіх статистичних даних, крім допоміжної статистики .)


А як щодо функції, де параметри відомі? У коментарях нижче, Алекос задає відмінне подальше запитання. Як щодо функції, яка використовує фіксовану гіпотезовану величину параметра? Наприклад, що з статистикою n(x¯μ)деμ=μ0приймаються рівним відомим значення передбачуваногоμ0R. Тут функція справді є статистикою, доки вона визначена на належно обмеженому домені. Таким чиномфункціяH0:RnRзH0(x1,...,xn)=n(x¯μ0)буде статистичної, але функціяH:Rn+1RзH(x1,...,xn,μ)=n(x¯μ)будеНЕбути статистики.


1
Дуже корисна відповідь, розглядаючи базовий статистичний параметр як частину нестатистичної, була особливо корисною.
Джейк Кірш

4
@CarlWitthoft Я не розумію. Якщо це функція спостережуваних значень, то це статистика. Це може бути функція меншого підмножини значень; це все ще може бути корисним для розгляду. Якщо ви хочете оцінити середнє значення і у вас є спостережень, ви все ще можете подивитися ( X 1 + X 2 + + X 1000 ) / 1000, якщо вартість обробки даних висока, а вартість помилок невелика. Або з якоїсь причини ви можете розглянути дві незалежні оцінки середнього рівня, і ви могли б розглянути ( X 1 + + X n1010(X1+X2++X1000)/1000(X1++Xn/2)/(n/2)(Xn/2+1++Xn)/(n/2)

4
Ці приклади здаються мені цілком справедливими. Ви говорите, що ідея поділу даних на навчальний набір і набір перевірки не є дійсною?
Джеймс Мартін

2
Я також трохи збентежений цим. Дозвольте спробувати описати точку @CarlWitthoft. Це все ще буде статистикою з точки зору математичного визначення, але я міг побачити випадок, коли консультант бере «статистику» спостережень, але довільно вирішує видалити кілька результатів (консультанти роблять це весь час правильно?). Це було б "дійсно" в тому сенсі, що це все-таки функція спостережень, однак спосіб представлення та інтерпретації статистики, ймовірно, не був би дійсним.
Джейк Кірш

2
@Carl Withhoft: Що стосується точки, яку ви робите, важливо розрізняти статистику (яка не потребує включення всіх даних і може не включати всю інформацію у вибірку) та достатню статистику (яка охоплюватиме всю інформація стосовно деякого параметра). Статистична теорія вже має добре розроблені такі поняття, як достатність, які охоплюють думку про те, що статистика включає всю релевантну інформацію у вибірці. Не потрібно або бажано намагатися вбудувати цю вимогу у визначення "статистики".
Моніку

4

Я тлумачу це так, що кажучи, ви повинні вирішити, перш ніж побачити дані, яку статистику ви збираєтеся обчислити. Так, наприклад, якщо ви збираєтеся витягувати людей, які випадають, ви повинні вирішити, перш ніж побачити дані, що являє собою "чуже". Якщо ви вирішите після того, як побачите дані, то ваша функція залежить від даних.


це також корисно! Отже, приймаючи рішення про те, які спостереження включити у функцію, дізнавшись, які спостереження доступні, це більш-менш те, що я описав у своєму коментарі до попередньої відповіді.
Джейк Кірш

2
(+1) Можливо, варто відзначити, що це важливо, оскільки якщо ви визначите правило заздалегідь про те, що є точкою даних, яка буде відкинута, отримати (відносно) просто розподіл за статистикою (тобто усеченим середнім значенням тощо) .). Дійсно важко отримати розподіл для міри, яка передбачає відкидання точок даних з причин, які не визначені чітко до початку.
Кліф АВ
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.