Чим відрізняється оцінювач від статистики?


30

Я дізнався, що статистика - це атрибут, який ви можете отримати з зразків. Взявши багато зразків однакового розміру, обчисливши цей атрибут для всіх них та побудувавши pdf, ми отримаємо розподіл відповідного атрибута або розподіл відповідної статистики.

Я також чув, що статистика робиться оцінкою, чим ці дві концепції відрізняються?


2
Дякую за всі відповіді ... Концепція зараз для мене набагато зрозуміліша ..
Гутто

Відповіді:


17

Визначення

З Вікіпедії:

Статистики [...] є одним заходом деякого атрибута зразка (наприклад, його середнє арифметичне значення).

І

[A] n оцінювач - це правило для обчислення оцінки заданої кількості [базового розподілу] на основі спостережуваних даних.

Важлива відмінність:

  • Статистики є функцією вибірки.
  • Оцінювач є функцією вибірки , пов'язаної з деякою кількістю розподілу .

(Що означає "кількість", див. Розділ нижче.)

Статистика не є оцінкою

Оцінювач є статистика з чим - то додається. Щоб перетворити статистику в оцінювач, ви просто визначите, яку цільову кількість ви хочете оцінити. Це заплутано, тому що ви нічого не додаєте "реального" до статистики, а лише деякі мають намір.

Щоб побачити, що різниця важлива, ви повинні усвідомити, що ви не можете обчислити властивості оцінювача (наприклад, зміщення , дисперсії тощо) для простої статистики. Щоб обчислити упередженість , ви повинні знайти різницю між значенням, яке надає ваша статистика, і справжнім значенням. Лише оцінювач має "справжнє значення", що дозволяє обчислити зміщення. Статистика - це лише функція даних, і вона не є ні правильною, ні неправильною.

Різні оцінки, що базуються на одній статистиці

Ви можете прописати різні цільові величини для однієї статистики, що призведе до різних оцінок. У кожного такого оцінювача є своя упередженість, хоча всі вони (на основі) однакового значення, однакової статистики.

  • Ви можете використовувати зразкове середнє значення як оцінювач для середнього значення розподілу . Цей оцінювач має нульове зміщення .
  • Ви також можете використовувати середнє значення вибірки як оцінювач для дисперсії розподілу . Цей оцінка є упередженою для більшості розподілів.

Так що говорити "середня вибірка є неупередженою" не має сенсу. Середнє значення вибірки є неупередженим, коли ви використовуєте його для оцінки середнього значення розподілу. Але в той же час він упереджений, коли використовує його для оцінки дисперсії розподілу.

Кількість розподілів та кількість зразків

Тут величина посилається на деяку властивість розподілу, яка, як правило, невідома і тому повинна бути оцінена. Це на відміну від статистики , яка є властивістю вибірки, наприклад середнє значення розподілу - це кількість вашого розподілу, тоді як середнє значення вибірки - це статистика (кількість вашої вибірки).


1
У цих цитатах немає нічого поганого, але вони залишають мене спантеличеними, що саме означає "кількість". Наприклад, цитати не виключають можливості того, що "кількість" - це інша статистика, заснована на тих самих даних, або, можливо, інша статистика, заснована на окремому наборі подібних даних. (В останньому випадку перша статистика може бути використана як предиктор. У першому випадку я не думаю, що це назва, але це, безумовно, не "оцінка".)
whuber

@whuber Див. редагувати. Спочатку я хотів дати коротку відповідь ... :(
ziggystar

Імовірно, середня вибірка та медіана вибірки оцінюватимуть одне й те саме базове значення, якщо розподіл буде таким, де середня = середня ...
Stumpy Joe Pete

Моя критика має менший сенс у світлі вашої редакції. Я просто говорив, що в багатьох розподілах медіана! = Середня, тому середня вибірка та середня вибірка в таких випадках не збігаються до однакового значення (тобто не оцінюйте одне і те ж).
Stumpy Joe Pete

1
@Stumpy Я думаю, що у вас тут є невелике неправильне уявлення. Не має значення, чи медіана і значення "сходяться" до одного і того ж (або взагалі до чогось). Щоб уточнити це, дозвольте мені бути трохи смішним: я, за бажанням, можу використовувати дисперсію вибірки для оцінки середнього значення. Не існує абсолютно ніякого теоретичного обмеження - і не може бути - це говорить про те, що я не можу цього зробити. Моя процедура відповідає всім частинам визначення: дисперсія вибірки є справді статистикою, а середнє значення є справді властивістю базового розподілу. Для визначень не має значення, що це (часто) жахлива процедура.
whuber

15

Цей потік трохи старий, але, схоже, Вікіпедія, можливо, змінила своє визначення, і якщо це точно, це пояснює це для мене більш чітко:

"Оцінювач" або "бальна оцінка" - це статистика (тобто функція даних), яка використовується для виведення значення невідомого параметра в статистичній моделі.

Таким чином, статистика стосується самих даних і розрахунок з цими даними. Тоді як оцінювач посилається на параметр у моделі.

Якщо я правильно це розумію, значить, середнє значення є статистикою, а також може бути оцінкою. Середнє значення вибірки - це статистика (сума вибірки, поділена на розмір вибірки). Середнє значення для вибірки також є оцінкою середньої сукупності, припускаючи, що вона зазвичай розподілена.

Я б запитав @whuber та інших, хто справді знає цей матеріал, якщо (нова?) Цитата Вікіпедії є точною.


6
+1 Я думаю, ви в основному це правильно. Можливо, вам буде цікаво знати, що ціль оцінювача не обов'язково повинен бути певним "параметром" моделі: це може бути будь-яке властивість моделі, наприклад функція її параметрів. Наприклад, не є параметром для нормальної ( μ , σ 2 ) моделі, але її можна оцінити. μ2(μ,σ2)
whuber

5

Оскільки інші відповіді, які говорять про те, що вони однакові, не дають поважних посилань, дозвольте вам навести дві цитати із посібника зі статистичних висновків Казелла та Бергера:

Визначення 5.2.1 Нехай - випадкова вибірка розміром n з популяції, а T ( x 1 , , x n ) - функція реальної величини чи векторного значення, домен якої включає пробний простір з ( X 1 , , X n ) . Тоді викликається випадкова величина або випадковий вектор Y = T ( X 1 , , X n )X1,,XnnT(x1,,xn)(X1,,Xn)Y=T(X1,,Xn)статистичні . Розподіл ймовірностей статистики називається розподіл вибірки Y .YY

і

Визначення 7.1.1 точка оцінки є будь-яка функція зразка; тобто будь-яка статистика є точковою оцінкою.W(X1,,Xn)

Я не кажу тут, що це однозначна відповідь на питання, оскільки, здається, я згоден з двома найбільш актуальними відповідями, які підказують, що є різниця, просто даючи посилання, яке говорить протилежне, щоб підкреслити, що це не чіткий випадок.


4

"6" - приклад оцінки. Скажіть, що ваше запитання було: "який ухил найкращої лінійної функції, що відображає х до у?" Ваша відповідь могла бути "6". Або це може бути . Обидва є оцінниками. Що краще, залишається вам вирішити. (XX)1XY

Справді хороший ТА колись пояснив мені концепцію оцінювача.

В основному, оцінювач - це те, що ви застосовуєте до даних, щоб отримати кількість, про яку ви не знаєте значення. Ви знаєте значення статистики - це функція даних, що не мають "найкращого" або "оптимального" про неї. Немає «найкращого» значення. Є просто середня.

Скажімо, у вас є набір даних про кількість коз, що належать на людину, і щастя кожної людини. Вас цікавить, як змінюється щастя людей із кількістю козлів, якими вони володіють. Оцінювач може допомогти вам оцінити співвідношення з ваших даних. Статистика - це лише функції ваших даних. Наприклад, дисперсія власності козла може дорівнювати 7. Терула для обчислення дисперсії була б однаковою між козами і тостерами, чи вас цікавить щастя чи схильність до раку. У цьому сенсі всі розумні оцінки - це статистика.


3

Цікаве запитання. Однак оцінювачі та статистика не повинні бути різними. Вони різні поняття.

Статистика - це функція (в широкому розумінні), в якій вхідними є (статистичні) дані. Ефект полягає в тому, що ви отримуєте результат, зазвичай число, від цієї статистики. У більш абстрактному терміні статистика може давати більше одного числа. Статистика залежить від даних, але процедура є детермінованою. Таким чином, статистика може бути такою: "Підсумуйте всі числа і розділіть на підрахунок" або, в більш широкому розумінні, "візьміть дані gdp і підготуйте звіт про них".
У статистичному сенсі ми, звичайно, говоримо про математичну функцію як статистику.

Важливість цього полягає в тому, що якщо ви знаєте властивості даних, які ви вводите (наприклад, вона має випадкову змінну), то ви можете обчислити властивості вашої статистики, фактично не вводячи емпіричних даних.

Оцінювачі - це оцінки, оскільки ви маєте намір: оцінити властивість. Як виявляється, деякі статистичні дані є хорошими оцінками.
Наприклад, якщо витягнете точки даних із пулу змінних iid, тоді середнє арифметичне - статистика, заснована на даних, які ви отримуєте, буде, ймовірно, хорошим оцінником очікуваного значення цього розподілу. Але знову ж таки будь-яка річ, яка дає оцінку, є оцінкою.

На практиці оцінювачами, які ви використовуєте, буде статистика, але є статистичні дані, які не є оцінками. Наприклад, тестова статистика - хоча можна суперечити про семантику цього твердження та ще гірше, тестова статистика може бути не тільки такою, але й включати оцінки. Хоча концептуально це не повинно бути так.

І звичайно, у вас можуть бути оцінки, які не є статистикою, хоча вони, ймовірно, не дуже добре оцінюють.


1
Не могли б ви трохи детальніше розглянути це останнє речення? Наприклад, розглянемо зразок iid розміром . Я буду оцінювати медіану сукупності за допомогою монети, щоб вибрати серед n- го та n + 1- го найбільших значень у вибірці. Згідно з вашим визначенням , це не статистика, тому що це не є «детермінованою» процедура (хоча це статистика в відповідно до загального більш загальним визначенням). Це також досить хороший оцінювач. Тож мені цікаво, який саме об’єкт ви маєте на увазі, коли ви посилаєтесь на "оцінювач", який не є "статистикою". 2nnn+1
whuber

Так, я б стверджував, що "вибір значення" є детермінованою статистикою, і все заздалегідь пов'язане з модифікацією обраного вами вибірки. Знову ж таки, оскільки "процедура", якщо ви хочете - детермінована, я можу просто дозволити такі стохастичні елементи, як це в моєму визначенні статистики ... Вказуйте, що оцінювачі, які не є статистикою, можуть бути принаймні тими, які не залежать від будь-яких даних. Наприклад число "6" у відповіді нижче. Зверніть увагу, що я не сказав, що нестатистичні оцінки обов'язково погані.
IMA

1
Я думаю, можливо, ви робите занадто багато тонких розрізнень, які є непотрібними і, врешті-решт, ускладнюють вашу експозицію. Наприклад, "1/2" - це чудовий оцінювач параметра змінної Бернуллі (це мінімакс для квадратичних втрат), тому було б прикро виключати це лише тому, що воно не залежить від даних. (Це було б аналогічно виключенню квадратів, як прикладів прямокутників в евклідовій геометрії. Ви могли б це зробити, але це подвоїло б довжину більшості висловлювань щодо властивостей прямокутників.) Це також допомагає не виключати рандомізованих статистичних даних.
whuber

Я не думаю, що ми дійсно говоримо про одне і те ж. Де я щось виключаю? Якщо половина - це чудовий оцінювач, то це так і є. Я просто не думаю, що більшість можливих оцінювачів, які не наводять статистику, досить великі. Для змінної Бернуллі добре «1/2». Але -кілько кілька інших оцінювачів з класу "Дійсне число" не дуже хороші, чи не погоджуєтесь ви? Що стосується рандомізованої статистики, яка все ще базується на даних - я не виключав цього, оскільки все одно я б сказав, що вам знадобиться детермінована процедура. Але я визнаю, що я повинен додати це вище.
IMA

2

Я думаю, що краще розуміння того, що є зразком, допомагає.

[Оновлено: Зразок - це дуже широке поняття, я говорив про "випадкову вибірку". Я не знаю, чи має сенс оцінювач, коли вибірка не є випадковою .]

з Вікіпедії :

Випадкова вибірка визначається як вибірка, де кожен окремий член популяції має відомий, ненульовий шанс бути обраним частиною вибірки.

nnnnn

Заміняємо вибірку в оцінці на значення вибірки. Ми отримуємо значення оцінювача, це конкретна міра. І цей конкретний захід є статистикою.

(Перевірте це посилання на визначення оцінювача. Останнє речення розкриває, чому ми завжди плутаємося.)


1

Мета цього твору:

Що я хочу тут зробити, це надати вам схожість та відмінності між двома спорідненими поняттями, які називаються "статистикою" та "оцінкою". Однак я не хочу переглядати відмінності між параметром і статистикою, які, напевно, є достатньо зрозумілими для всіх, хто бореться з відмінностями між статистикою та оцінкою. Якщо це не так для вас, вам потрібно спочатку вивчити попередні пости, а потім розпочати вивчення цієї посади.

Відносини:

В основному будь-яка реально оцінена функція спостережуваних випадкових змінних у вибірці називається статистичною. Є деякі статистичні дані, що якщо вони добре розроблені та мають хороші властивості (наприклад, консистенція, ...), вони можуть бути використані для оцінки параметрів базового розподілу населення. Тому статистика - це велика сукупність, а оцінки - це підмножина всередині набору статистичних даних. Отже, кожен оцінювач є статистикою, але не кожна статистика є оцінкою.

Подібність:

Якщо говорити про подібність, як згадувалося раніше, обидві є функціями випадкових величин. Крім того, обидва мають розподіли, які називаються "вибіркові розподіли".

Відмінності:

Якщо говорити про відмінності, вони різні за своїми цілями та завданнями. Цілі та завдання статистики можуть бути узагальненням інформації у вибірці (використовуючи достатню статистику), а іноді і робити тест на гіпотезу тощо. параметри населення, яке вивчається. Важливо зазначити, що існує велика різноманітність оцінювачів, кожен з яких має свою обчислювальну логіку, такі як MOME, MLE, OLS-оцінки тощо. Ще одна відмінність цих двох понять пов'язана з їх бажаними властивостями. Хоча однією з найбільш бажаних властивостей статистики є "достатність", бажаними властивостями оцінювача є такі речі, як "послідовність", "неупередженість", "точність" тощо.

Обережно:

Тому вам потрібно бути обережним щодо правильного використання термінології під час роботи зі статистикою та оцінками. Наприклад, не має сенсу говорити про упередженість простої статистики, яка аж ніяк не є оцінкою, оскільки в такому контексті немає жодного параметра, який би міг обчислити зміщення, і говорити про це. Таким чином, вам потрібно бути обережними щодо термінології!

Суть:

Підсумовуючи, будь-яка функція спостережуваних випадкових змінних у вибірці є статистикою. Якщо статистика має можливість оцінювати параметр сукупності, то ми називаємо це оцінкою (параметра, що цікавить). Однак є деякі статистичні дані, які не розраховані на оцінку параметрів, тому ці статистичні дані не є оцінками, і тут ми їх називаємо "простою статистикою".

Те, що я запропонував вище, - це те, як я дивлюся і думаю про ці два поняття, і я намагався зробити все це простими словами. Я сподіваюся, що це допомагає!


0

Нова відповідь на старий Q:

Визначення 1. статистика є функцією , яка відображає кожен зразок для дійсного числа.

Кожен оцінювач є статистикою.

Але ми схильні називати лише ті статистичні дані, які використовуються для генерування оцінок ("здогадок") деякого параметра.

Так, наприклад, t-статистика та середнє значення вибірки - це НАРОДНА статистика. Середня вибірка також є оцінкою (тому що ми часто використовуємо її для оцінки справжньої середньої сукупності).

Навпаки, ми рідко / ніколи не називаємо t-статистику оцінкою, оскільки ми рідко / ніколи не використовуємо її для оцінки будь-якого параметра.

PQ

Example_

θ

θ

Ось один з можливих методів. Котимо штамп 3 рази.

s=(x1,x2,x3)x1x2x3

s1=(5,4,1)s2=(4,1,6)s3=(6,3,2)

PQPQs=(x1,x2,x3)

P(s)=x1ln(x2+x3),
Q(s)=x1+x2+x33.

P

Qθ

Pθ


1
Ця відповідь спрямована в хорошому напрямку. "Визначення 2", однак, не є правильним визначенням через його кругоздатність (він визначає "оцінювач" в терміні "оцінка" без пояснення останнього). Щоб вона була ефективною, вам потрібно пояснити, що "оцінка параметра" є достатньо детальною та зрозумілою, щоб люди могли сформулювати кількісні вимірювання того, наскільки добре працює оцінювач.
whuber

θθ5

2
На жаль, як я намагався запропонувати, здається, що у спрощенні було втрачено щось істотне, оскільки ваше друге визначення зовсім не відрізняє оцінювача від будь-якої іншої статистики.
whuber

@whuber: Правильно. Формально оцінювач - це просто статистика. Але ми схильні використовувати слово "оцінювач" для позначення статистики, якщо ця статистика використовується для оцінки певного параметра, що становить інтерес. Я відредагував свою відповідь, щоб уточнити цей момент.
Кенні LJ

-3

У тестуванні гіпотез :

Тестова статистика стосується тестування гіпотез. Тестова статистика - це випадкова величина, задана / під нульовою гіпотезою. Тепер деякі можуть назвати статистику значенням / мірою тестової статистики, наданої вибіркою.

За допомогою цих двох ви можете отримати p-значення, яке є мірою, яка допомагає відхилити чи не відхилити нульову гіпотезу. Загалом, статистика - це оцінка наскільки далеко / наближена до вашої гіпотези.

Це посилання може бути корисним.


2
Ви, здається, вирішуєте інше питання, щось стосується тестів гіпотез, а не оцінки. Ваше визначення поняття "статистика" набагато більш обмежене за обсягом, ніж стандартні визначення: статистика застосовується до всіх форм прийняття рішень, а не лише до дуже обмежених випадків тестування гіпотез та недійсних гіпотез. Більше того, тести гіпотез не є такими, як оцінки, і більшість статистичних даних не використовуються як оцінювачі близькості до певної гіпотези.
whuber

Я б не сказав, що це інше питання. Це дає картину про те, що це є в контексті тестування гіпотез!
dfhgfh

2
Оскільки ця відповідь зосереджена на обмеженій та спеціалізованій версії запитання та використовує ключові терміни "оцінювач" та "статистика" нетрадиційними способами, не попереджаючи читача про цей факт, я переживаю, що він може ввести в оману чи заплутати людей.
whuber

Я вважав, що тестування гіпотез далеко не обмежене і спеціалізоване поле статистики.
dfhgfh
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.