Найбільш заплутані статистичні терміни


47

Ми статистики вживаємо багато слів способами, які трохи відрізняються від того, як їх використовують усі інші. Це спричиняє багато проблем, коли ми навчаємо або пояснюємо, що робимо. Я почну список (а тепер додаю деякі визначення за коментарями):

  • Сила - це здатність правильно відкинути хибну нульову гіпотезу. Зазвичай це означає правильно сказати "щось відбувається".
  • Упередженість - статистика є упередженою, якщо вона систематично відрізняється від параметру сукупності, пов'язаного з нею.
  • Значущість - результати є статистично значущими у деяких відсотках (найчастіше 5%) у такій ситуації: Якщо популяція, з якої вибирається вибірка, має справжній ефект 0, статистика, принаймні така екстремальна, як отримана з вибірки, буде мати місце лише 5% часу.
  • Взаємодія - дві незалежні змінні взаємодіють, якщо залежність між залежною змінною та однією незалежною змінною відрізняється на різних рівнях іншої незалежної змінної

Але має бути багато інших!


5
Я б запропонував людям додати ще більший контекст до своїх відповідей. Прикладами можуть бути одне і те ж слово, яке по-різному використовується в різних областях (фіксовані ефекти Gelman, 2005 ) або слова, що мають різні значення в різних контекстах (значення порівняно зі статистичною значимістю Bushway et al., 2006 ).
Енді Ш

5
Було б добре, якби відповідачі могли пояснити одним чи двома реченнями, що насправді означає «технічний» термін або що може спричинити його сприйняття як іншого значення.
chl


1
... і "кореляція"!
Стефан Лоран

1
Для "вибірки" дивіться коментарі до stats.stackexchange.com/questions/20945/… .
whuber

Відповіді:


21

"Значущий" - це найбільший, на який я стикаюся, оскільки він має і загальне значення для вживання англійською мовою, і це значення з'явиться під час обговорення результатів досліджень. Мені навіть здається, що я змішуюся в "значущому", щоб означати важливе в тому ж реченні, де я говорив про статистичні результати.

Так лежить божевілля.


Правильно, але немає кращого слова для "Я досить чорт упевнений, що це важливо, але я не робив жодних тестів на ньому і не буду, тому що це очевидно / неможливо зробити / що завгодно"
naught101

17

Я б запропонував додати до списку Linear.

Я задав запитання на math.SE про те, що я, як інженер, вважаю лінійною оцінкою мінімальної середньої квадратичної помилки випадкової величини урахуванням значення випадкової величини (що означає оцінку як вибираючи і таким чином, щоб мінімізувати ), і дав часткову відповідь. В одному з коментарів до цього питання сказаноХ Y Y = Х + Ь Ь Е [ ( У - Х - б ) 2 ]YXYY^=aX+babE[(YaXb)2]

"Мені дещо незручно з вашою мовою, оскільки я побоююсь, що такий спосіб використання слова" лінійний "може перерости в народне нерозуміння, що причина, чому лінійна регресія в називається лінійній регресії, полягає в тому, що людина підходить до лінії. Люди, які думають, що то вважайте його заплутаним, коли статистик наполягає на тому, що потрібно робити лінійну регресію, коли підходить парабола або синусова хвиля тощо ".

Отже, що означає лінійна регресія для статистики?


5
Пов’язане запитання на сайті з посиланням на цю відповідь: Що означає лінійна лінійна регресія?
Енді Ш

1
@AndyW Отже, ви б сказали, що Linear належить до списку, який почав Пітер Флом, чи ні?
Діліп Сарват

1
так, я згоден, він відповідає законопроекту для цього списку. (+1)
Енді Ш

4
Він підходить до списку, але з незвичної причини: значення терміна "лінійний" добре встановлено та застосовується послідовно у багатьох математично орієнтованих галузях. Потенційна плутанина стосується того, яка частина формули є лінійною.
whuber

Чи можете ви навести приклад того, як ви підходите до параболи і все ще називаєте її лінійною моделлю?
oneloop

14

ймовірність

Мені здається, що більшість проблем, пов'язаних з інтерпретацією тестів гіпотез та довірчих інтервалів, випливають із застосування байєсівського визначення "ймовірності", коли процедура базується на частістській. Наприклад, р-значення, що є ймовірністю, є нульовою гіпотезою, коли AFAICS ніяка ймовірність не може бути пов'язана з істинністю певної гіпотези в умовах часто.


4
Схоже, такий же розгляд стосуватиметься і тих, хто звик говорити, що параметр (true) має 95% шансів лежати між xx та xx, коли говорити про / інтерпретувати довірчі інтервали.
chl

1
так абсолютно!
Дікран Марсупіал

1
+1 Я б хоч дещо по-іншому висловив ваше останнє речення. У межах встановлених найвищих частот вірогідність того, що нульова гіпотеза є істинною, або 1, або 0, але ви не знаєте, яка . (Строго кажучи, це не зовсім правильно, тому що "ймовірність" є відносно частотою довгого циклу, а "довгострокова частота" насправді не застосовується. Тим не менш, коли висловлювати фразу таким чином, люди можуть зрозуміти, про що йдеться / як ми розуміємо Наприклад, люди розуміють, що ви не можете використовувати нульову гіпотезу p-значення як ймовірність того, що нульова гіпотеза є істинною.)
gung - Відновіть Моніку

2
"тому, що" ймовірність "є відносною частотою" Багато імовірністів будуть жорстоко оспорювати це твердження
Діліп Сарват

14

"Впевненість"

Дуже важко переконати нестатистів, що їх інтервал довіри не є (безпосередньо) твердженням про достовірність різних значень параметрів.

Для впевненості в технічному значенні цього терміна нам потрібно уявити деякий набір повторних експериментів, кожен з яких обчислює інтервал певним чином. Щоб бути 95% довірчим інтервалом, 95% цих застосувань формули потраплять у відповідний параметр, що цікавить.

Але нестатистики звичайно трактують "95% впевненість" як твердження про правдоподібні значення параметрів, засновані лише на одному експерименті. Як правило, вони припускають, що інтервал охоплює 95% деяких задніх уявлень про параметр, тобто "ми майже впевнені, що параметр знаходиться між і ". Це натомість визначає надійний інтервал.bab

(Звичайно, є ситуації, коли обидві поняття узгоджуються, приблизно, або точно. Але в цілому вони не відповідають цьому, а числова угода не усуває проблему нецільового використання технічних термінів.)


10

"Ймовірність" - це синонім "ймовірності" в повсякденному мовленні, але в статистиці воно має особливе значення: це функція параметрів статистичної моделі, значення якої - ймовірність спостережуваного результату, якщо вважати, що параметри дорівнюють значенням параметра.


8

Помилка.

У статистиці "помилка" - це відхилення фактичного значення даних від прогнозування моделі.

У реальному житті помилка - це загальна помилка чи інший помилок.


Чи не орфографічна помилка є лише відхиленням від фактичного (призначеного) значення засобу комунікації? Я насправді не бачу, як це інше слово, просто воно вживається в іншому (але не конфліктному) контексті. Мені важко повірити, що це буде все, що бентежить когось нового в галузі.
naught101

2
Однією з причин того, що значення може відрізнятися від прогнозування, є те, що експериментатор заплутався. Це як орфографічна помилка. Але чому ваша вага відрізняється від середньої ваги всіх людей вашого віку та віку? Чому ваш дохід відрізняється від середнього доходу? У статистиці це відхилення від середнього значення є "помилкою", але це не помилка, а лише зміна.
Харві Мотульський

Щоправда, але це залежить від того, як ти на це дивишся. якщо ви подивитеся на написання слова за зразком початкової школи, ви отримаєте варіацію, спричинену людиною, так, але не спричинену експериментатором. Ви можете переглядати те саме, що писати англійською мовою різного віку. Я думаю, ви знайдете, що рання англійська мова має набагато більшу мінливість :)
naught101

@HarveyMotulsky: Аналітична хімія використовує помилки в обох напрямках. Ми говоримо про систематичну помилку, випадкову помилку та грубі помилки. Підручник: "Грубих помилок можна уникнути".
cbeleites підтримує Моніку

8

"Висновок"

Однією з найскладніших речей, яку я зрозумів спочатку, була різниця між сукупністю та вибіркою. Статистики записують ці фантазійні рівняння регресії рівня популяції, а потім раптом переходять до роботи на рівні вибірки і s стають s. Мені знадобилось багато часу, щоб зрозуміти, що ви використовуєте дані рівня вибірки та рівняння регресії для оцінки параметрів рівня населення.bβb

Ще одна важлива частина щодо умовиводу - це центральна межа теореми. Як тільки ви зрозумієте, що ви просто відбираєте вибірку з популяції - хоча вибірка є ще однією складною ознакою, схожою на висновок - тоді ви розумієте, що навіть якщо середнє значення вибірки має одне значення, це значення не обов'язково таке саме значення, як у сукупності .

Можливо, я сприйняв відносно слабке розуміння вашого питання, але коли хтось зрозуміє умовиводи чи відмінності між вибіркою та сукупністю, тоді перед ними відкривається вся статистика.


7

Нам (або принаймні мені) "випадковість" вибірки "говорить про те, що вона є репрезентативною для" населення ".

Для інших "випадковість" іноді означає, що людина / річ незвичайна.


1
Я не наштовхувався на цю плутанину через "випадковість". Але якщо у вас є, то однозначно це існує.
Пітер Флом - Відновити Моніку

3
Точніше, що воно існувало
Томас Левін

1
Останнє використання "випадкових" мені здається досить недавнім. З цієї причини мені це трохи дратує (просто робить статистику важче зрозуміти людям). Це ще більше дратує, коли я чую, як я використовую це в цьому сенсі ..
naught101

5

Я думаю, слід розрізняти терміни, що плутають громадськість, і терміни, що плутають статистиків. Вищенаведені пропозиції є здебільшого термінами, добре зрозумілими статистиками та (можливо) неправильно зрозумілими громадськістю. Я хочу додати до переліку деякі терміни, які пропустили статистики:

  • Баєсіан: Спочатку називали те, що зараз відомо як суб'єктивний Байєс (він же епістемічний, Де-Фінетті). Сьогодні цей термін буде використовуватися в будь-який час, коли з'явиться правило Байєса, рідко в контексті суб'єктивних переконань, що вважається теорією рішень.
  • Емпіричний Байєс: спочатку мається на увазі частістські установки з непараметричним попереднім. Сьогодні, як правило, означають, що параметри параметричного (об'єктивного) значення попередньо оцінюються і не відомі a-priori. Тобто те, що колись було відомо як максимальна ймовірність типу II.
  • Не параметричний: Іноді посилається на "модель безкоштовно". Іноді до "розповсюдження безкоштовно". Ставши практично неінформативними за днів, параметричні моделі можуть включати мільйони параметрів.
  • Помилка типу III: іноді посилається на помилку знаку. Десь з посиланням на неправильну специфікацію моделі.

Коли я запитав, я мав на увазі "терміни, що плутають широку громадськість", але, безумовно, терміни, що плутають статистиків, також варто перелічити
Пітер Флом - Відновити Моніку

Це, мабуть, слід розділити на окремі відповіді.
naught101

4

Екологічна, зазвичай використовується для позначення біологічних систем, але також і помилка статистики. З Вікіпедії:

Екологічна помилка (або помилка екологічного висновку) - це помилка в інтерпретації статистичних даних в екологічному дослідженні, згідно з якою умовиводи про природу конкретних осіб ґрунтуються виключно на сукупній статистиці, зібраній для групи, до якої належать ці особи. Ця помилка передбачає, що окремі члени групи мають середні характеристики групи в цілому.


3

Це "опитування" тип математики ("вибіркове опитування") або аркуш паперу ("анкета")?

Я не проводив опитування з цього приводу, але підозрюю, що значна частина громадськості вважає "опитування" останнім. Далі я підозрюю, що вони не думають про колишнього.


2
Чи не проводили опитування геодезисти? ;)
zbicyclist

3

"Вантажі", "Коефіцієнти" та "Ваги"; коли йдеться про аналіз основних компонентів.

Зазвичай я вважаю, що люди користуються ними досить спеціально, використовуючи їх взаємозамінно, попередньо не чітко визначаючи, що вони означають, і я насправді натрапляю на документи, що посилаються на "вектори завантаження", а іноді означають самі ПК та інший раз "ваги" пов'язаний з конкретним ПК.

Ймовірно, той факт, що відмінна довідка Джолліфя про основні компоненти зазначається в кінці розділу 1.1 "Деякі автори розрізняють терміни" навантаження "та" коефіцієнти ", залежно від обмежених норм, що використовуються, але вони будуть використані взаємозамінно в цій книзі". просто змусили людей подумати, що вони мають безкоштовний пропуск для змішування та узгодження термінології на свій смак ....


1

Адитивна модель. Досі не дуже впевнений, що це означає. Я думаю, що це стосується моделі без термінів взаємодії. Але тоді я натраплю на статтю, де вони використовують його для позначення чогось іншого, тобто сплайн-моделі.


0

Одним із термінів, який я вважаю найбільш заплутаним, є "матриця плутанини". Звичайно, сам термін, що використовується, є заплутаним, а не поняттям.

Я намагався простежити історію цього терміна, і це теж цікаво. Матриця плутанини була винайдена в 1904 році ( http://en.wikipedia.org/wiki/Karl_Pearson ). Він використовував термін http://en.wikipedia.org/wiki/Contingency_table . Він з'явився у Карла Пірсона, ФРН (1904). Математичні внески в теорію еволюції (PDF). Dulau and Co. http://ia600408.us.archive.org/18/items/cu31924003064833/cu31924003064833.pdf

Під час війни World 2, h ttps: //en.wikipedia.org/wiki/Detection_theory було розроблено як дослідження взаємозв'язку між стимулом та реагуванням. Там використовувалася матриця плутанини.

Завдяки теорії виявлення термін використовувався психологією. Звідси термін дійшов до машинного навчання.

Схоже, що хоча ця концепція була винайдена в статистиці, це дуже пов'язане з машинним навчанням, але воно дійшло до машинного навчання після об'їзду протягом 100 років.

Деякі посилання на використання терміна див.: Яке походження матриці плутанини терміна?


-4

"Статистика"

Для широкої громадськості замінила: "тепер я збираюся брехати і говорити так, як ти не розумієш".

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.