Яку найважчу статистичну концепцію зрозуміти?


32

Це питання схоже на те, що тут , але досить інше, я думаю, що варто його задати.

Я думав, що буду стартовим, що я вважаю одним із найскладніших для розуміння.

Шахта - це різниця між ймовірністю та частотою . Один знаходиться на рівні "знання про реальність" (ймовірність), а інший - на рівні "самої реальності" (частота). Це майже завжди мене бентежить, якщо я занадто багато думаю про це.

Едвін Джейнс ввів термін, який називався "помилкою проекції розуму", щоб описати змішання цих речей.

Будь-які думки про будь-які інші жорсткі концепції, які можна зрозуміти?


(Я не знаю достатньо, щоб поставити це як відповідь, звідси додаючи коментар.) Я завжди вважав, що це дивно, що PI з'являється в статистичних рівняннях. Я маю на увазі - що PI стосується статистики? :)
Відновіть Моніку - до побачення SE

2
Я погодився б (на мій подив) - я вважаю, що це з'являється у багатьох математичних аналізах. Просто записку, яку можна написати πππ за допомогою латексних команд як доданих до знаків $. Я використовую сторінку вікі, щоб отримати синтаксис en.wikibooks.org/wiki/LaTeX/Mathematics . Ще одна хитрість - це «натиснути правою кнопкою миші» на рівняння, яке ви бачите на цьому веб-сайті, і вибрати «показати джерело», щоб отримати команди, які були використані. \pi
ймовірністьлогічний

@Wiki Якщо ви приймаєте, що зростає, коли ви переходите від вимірювання довжини випрямленого шматка лінії до довжини шматка кола, я не бачу, чому це не з'явиться під час переходу від вимірювання ймовірності впасти вниз на відрізку для вимірювання ймовірності впасти в шматок кола? π
Робін Жирард

@Wiki Кожен раз, коли у вас є тригонометричні функції (синус, косинус, дотичні та ін.), Ви ризикуєте виникнути . І пам’ятайте, що кожного разу, коли ви отримуєте функцію, ви фактично знаходите дотичну. Що дивного в тому , що π не виникає більш часто. ππ
Карлос Аціоліо

@Carlos Я підозрюю, що поширеність здебільшого пов’язана з використанням2πметрики2 , що веде до n-сфер. У тому ж дусі, я б очікуватищо це е чиїх поширеності обумовлений аналіз. 2e
ssqu

Відповіді:


31

чомусь люди важко зрозуміють, що таке p-значення насправді.


3
@shabbychef: Більшість людей розуміють це найгіршим можливим способом, тобто ймовірністю помилки типу I.
suncoolsu

2
Я думаю, що це здебільшого пов'язане з тим, як пояснюються значення p в класах (тобто, просто даючи швидке визначення і не вказуючи, які р-значення НЕ)
nico

Я думаю, що це в основному пов'язане з тим, як це впроваджено. Для мене це було "доповненням" до тесту на класичну гіпотезу - тому здається, що це просто інший спосіб зробити тест на гіпотезу. Інша проблема полягає в тому, що його зазвичай викладають лише щодо нормального розподілу, де все "працює добре" (наприклад, p-значення є мірою доказів при тестуванні нормальної середньої величини). Узагальнення p-значення непросте, оскільки немає конкретних принципів, які б керували узагальненням (наприклад, немає загальної згоди щодо того, як p-значення повинно змінюватися залежно від розміру вибірки та багаторазового порівняння)
ймовірністьлогічного

@shabbychef +1, хоча у студента часто виникають труднощі з р-значеннями (приблизно тому, що концепція тестування дещо тонкіша, ніж бінарний процес прийняття рішення, і бути причиною "інвертування функції" не просто зрозуміти). Коли ви говорите "чомусь", то це означає, що для вас незрозуміло, чому люди мають труднощі? PS: Якби я міг, я б спробував зробити статистику на цьому сайті про співвідношення між "найкращою відповіддю" та "розмовою про p-значення" :). Я навіть запитую себе, чи може найсуворіша статистика сприйняти найважчу статистичну концепцію (якщо важко зрозуміти ... :))
Робін Жирард

1
@eduardo - так, достатньо невеликого p-значення, щоб поставити під сумнів нульову гіпотезу: але вона обчислюється в повній ізоляції від альтернативи. Використовуючи лише значення p, ви ніколи не можете офіційно "відхилити" , оскільки жодна альтернатива не вказана . Якщо ви формально відхиляєте H 0 , то ви також повинні відхилити обчислення, які ґрунтувалися на припущенні, що H 0 є істинним, а це означає, що ви повинні відхилити обчислення p-значення, яке було отримане за цим припущенням (воно псується з вашою головою , але це єдиний спосіб послідовно міркувати ). H0H0H0
ймовірністьлогічний

23

Подібно до відповіді шаббчефа, важко зрозуміти значення інтервалу довіри у статистиці частолістів. Я думаю, що найбільша перешкода полягає в тому, що інтервал довіри не відповідає на питання, на яке ми хотіли б відповісти. Ми хотіли б знати, "який шанс, що справжня цінність знаходиться саме в цьому інтервалі?" Натомість ми можемо відповісти лише "який шанс, що випадково вибраний інтервал, створений таким чином, містить справжній параметр?" Останнє, очевидно, менш задовольняє.


1
Чим більше я думаю про довірчі інтервали, тим важче мені придумати, на яке питання вони можуть відповісти на концептуальному рівні, на який не можна відповісти, запитуючи "шанс, що справжня цінність знаходиться в інтервалі з урахуванням стану знання ». Якби я запитав, "який шанс (за моєю інформацією) обумовлює, що середній дохід у 2010 році становив від 10 000 до 50 000?" Я не думаю, що теорія довірчих інтервалів може дати відповідь на це питання.
ймовірністьлогічний


13

Умовна ймовірність, ймовірно, призводить до більшості помилок у повсякденному досвіді. Звичайно, існує багато складніших понять, але людям зазвичай не потрібно хвилюватися за них - цей, від якого вони не можуть піти, - це джерело нестримних нещасних випадків.


+1; Ви можете додати приклад чи два, улюблені чи поточні?
denis

1
Для початку: P (у вас хвороба | тест позитивний)! = P (тест позитивний | у вас захворювання).
xmjx

9

Думаю, що дуже мало вчених розуміє цей основний момент: Інтерпретувати результати статистичних аналізів за номіналом можна лише в тому випадку, якщо кожен крок був запланований заздалегідь. Конкретно:

  • Розмір зразка потрібно вибирати заздалегідь. Не нормально тримати аналіз даних, оскільки додається більше предметів, зупиняючись, коли результати виглядають добре.
  • Будь-які методи, що використовуються для нормалізації даних або виключення інших людей, також повинні бути вирішені заздалегідь. Не нормально аналізувати різні підмножини даних, поки не знайдете потрібні вам результати.
  • І, нарешті, звичайно, про статистичні методи потрібно визначитися заздалегідь. Чи не нормально аналізувати дані параметричними та непараметричними методами та вибирати результати, які вам подобаються.

Дослідницькі методи можуть бути корисними для того, щоб добре вивчити. Але тоді ви не можете повернутись та запустити регулярні статистичні тести та інтерпретувати результати звичайним чином.


5
Я думаю, що Джон Тукі може не погодитися en.wikipedia.org/wiki/Explorative_data_analysis ; o)
Дікран Марсупіал

3
Я частково не погоджуся тут. Я думаю, що застереження, яке люди пропускають, полягає в тому, що відповідні операції з кондиціонування легко ігнорувати для подібних питань. Кожна з цих операцій змінює умови умовиводу, а значить, і змінює умови її застосовності (а отже, і її загальність). Вони, безумовно, застосовні лише для "підтверджуючого аналізу", де чітко визначена модель та питання побудовані. У дослідницькій фазі, не шукаючи відповіді на певні запитання, більше хочеться побудувати модель та придумати гіпотези щодо даних.
ймовірністьлогічний

Я трохи відредагував свою відповідь, щоб взяти до уваги коментарі Дікрана та ймовірності. Спасибі.
Харві Мотульський

1
Для мене "виключення людей, що переживають", не є настільки помилковим, як випливає з вашої відповіді. Наприклад, вас можуть зацікавити стосунки лише за певного діапазону відповідей, а виключення інших людей фактично допомагає такому аналізу. Наприклад, якщо ви хочете моделювати дохід "середнього класу", то виключати надбагаті та збіднілі люди, які не працюють, є хорошою ідеєю. Ваші коментарі застосовуються лише у людей, що знаходяться у межах вашого висновку (наприклад, "дивні" спостереження середнього класу)
ймовірністьлогічний

2
Зрештою, справжньою проблемою, що виникає в початковій відповіді, є те, що вони (принаймні частково) недійсні p-значення. Якщо ви зацікавлені в кількісному оцінці спостережуваного ефекту, вам слід мати можливість робити будь-яке та все вищезазначене безкарно.
russellpierce

9

Язик твердо в щоках: для часто відвідувачів байесівська концепція ймовірності; для байесів - частістська концепція ймовірності. ; o)

Обоє мають заслугу, звичайно, але може бути дуже важко зрозуміти, чому одна рамка цікава / корисна / дійсна, якщо ваше розуміння іншого занадто тверде. Перехресне підтвердження - це хороший засіб, оскільки задавати питання та слухати відповіді - це хороший спосіб вчитися.


2
Правило я використовую для запам'ятовування: використовуйте ймовірності для прогнозування частот. Після того, як частоти були помічені, використовуйте їх для оцінки приписаних вами ймовірностей. На жаль, бентежить те, що часто ймовірність, яку ви призначаєте, дорівнює частоті, яку ви спостерігали. Одне, що я завжди вважав дивним, це чому часто лікарі використовують слово ймовірність? Чи не полегшило б їх поняття зрозуміти, якби словосполучення "частота події" використовувалось замість "ймовірності події"?
ймовірністьлогічний

p(x)L(xn,x)dxi=1i=nL(x[ni],xi)xnx[ni] - вектор даних з ixi

8

З мого особистого досвіду концепція ймовірності також може викликати неабияку ворушіння, особливо для нестатистів. Як говорить вікіпедія, це дуже часто змішується з концепцією ймовірності, що не зовсім коректно.



6

Що насправді представляють різні розподіли, крім того, як вони використовуються.


3
Це питання, яке мені стало найбільш відволікаючим після статистики 101. Я зіткнувся з багатьма дистрибутивами, не мотивуючи їх, окрім "властивостей", що стосувалися розглянутих тем. Минуло неприпустимо багато часу, щоб з'ясувати, що собою представляє.
ssqu

1
Максимальне "ентропійне" мислення - це один метод, який допомагає зрозуміти, що таке розподіл, а саме стан знань (або опис невизначеності щодо чогось). Це єдине визначення, яке має для мене сенс у всіх ситуаціях
ймовірність, що вона є

Бен Болкер надає хороший огляд цього в розділі " Екологічні моделі
David LeBauer,

5

Я думаю, що питання можна інтерпретувати двома способами, що дасть дуже різні відповіді:

1) Для людей, які вивчають статистику, особливо на порівняно просунутому рівні, що найскладніше зрозуміти?

2) Яке статистичне поняття не зрозуміло більшості людей?

Для 1) я взагалі не знаю відповіді. Щось із теорії вимірювань, можливо? Якийсь тип інтеграції? Не знаю.

Для 2) значення p, руки вниз.


Теорія вимірювань не є ні сферою статистики, ні важкою. Деякі типи інтеграції важкі, але, знову ж таки, це не статистика.
піон

5

Інтервал довіри в не-байесівській традиції є складним.


5

Я думаю, що люди пропускають човен на майже все вперше. Я думаю, що більшість студентів не розуміє, що вони зазвичай оцінюють параметри на основі вибірки. Вони не знають різниці між вибірковою статистикою та параметром сукупності. Якщо ви б'єте ці ідеї в їх голову, інші речі повинні слідувати трохи легше. Я впевнений, що більшість студентів також не розуміють суті CLT.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.