Що означає "Вчені проти статистичної значущості"? (Коментар у природі)


61

Назва коментаря в природі вчених проти статистичної значущості починається з:

Валентин Амрейн, Сандер Ґренландія, Блейк Мак-Шейн та понад 800 підписантів закликають припинити скасування заяв та звільнення від можливих вирішальних наслідків.

а пізніше містить такі твердження, як:

Знову ж таки, ми не виступаємо за заборону значень P, довірчих інтервалів чи інших статистичних заходів - лише те, що ми не повинні ставитися до них категорично. Це включає дихотомізацію як статистично значущу чи ні, а також категоризацію на основі інших статистичних заходів, таких як фактори Байєса.

Я думаю, що можу зрозуміти, що на наведеному нижче зображенні не йдеться про те, що два дослідження не згодні, оскільки одне не виключає ефекту, а інше -. Але, здається, стаття заглиблюється набагато більше, ніж я можу зрозуміти.

На кінець, здається, є підсумок у чотирьох пунктах. Чи можна узагальнити їх ще простішими словами для тих, хто читає статистику, а не пише?

Говорячи про інтервали сумісності, пам’ятайте про чотири речі.

  • По-перше, тільки через те, що інтервал дає значення, найбільш сумісні з даними, враховуючи припущення, це не означає, що значення поза ним не сумісні; вони просто менш сумісні ...

  • По-друге, не всі значення всередині однаково сумісні з даними, враховуючи припущення ...

  • По-третє, як і поріг 0,05, з якого він вийшов, за замовчуванням 95%, що використовується для обчислення інтервалів, є самою довільною умовою ...

  • І останнє, і найголовніше - бути скромним: оцінки сумісності залежать від правильності статистичних припущень, що використовуються для обчислення інтервалу ...


Природа: Вчені піднімаються проти статистичної значущості


13
В основному, вони хочуть заповнити наукові роботи ще більше помилковими позитивами!
Девід

12
Дивіться обговорення на Гельман блозі: statmodeling.stat.columbia.edu/2019/03/20 / ... . Очевидно, що стаття викликає деякі достовірні моменти, але дивіться коментарі, підняті Іоаннідісом проти цієї статті (а також окремо проти її "прохання" аспекту), як цитує Гельман.
Амеба каже: Поновіть Моніку

3
Однак це не нова концепція. Метааналіз - це річ вже протягом 50 років, і Кокрайн протягом останніх 25 років проводив метааналіз медичних / медичних досліджень (де простіше стандартизувати цілі та результати).
Грем

4
По суті, проблема намагається зменшити "невизначеність", що є багатовимірною проблемою, до єдиного числа.
MaxW

4
В основному, якби люди заявили, що "ми не знайшли жодних доказів асоціації між X і Y" замість "X і Y не пов'язані", коли знайти ця стаття, ймовірно, не буде. p>α
Firebug

Відповіді:


65

Перші три моменти, наскільки я можу сказати, є варіацією одного аргументу.

Вчені часто трактують вимірювання невизначеності (наприклад, ) як розподіли ймовірностей, які виглядають приблизно так:12±1

рівномірний розподіл ймовірностей

Коли на самому справі, вони набагато більш імовірно , буде виглядати це : введіть тут опис зображення

Як колишній хімік, я можу підтвердити, що багато вчених з нематематичним походженням (в першу чергу нефізичні хіміки та біологи) насправді не розуміють, як повинна працювати невизначеність (або помилка, як їх називають). Вони згадують час з фізики недооцінки, коли їм, можливо, довелося їх використовувати, можливо, навіть потрібно було обчислити складну помилку за допомогою декількох різних вимірювань, але вони ніколи насправді їх не розуміли . Я теж був винен у цьому, і припускав, що всі вимірювання повинні відбуватися в інтервалі . Лише нещодавно (і поза межами наукових колективів) я з’ясував, що вимірювання помилок зазвичай стосуються певного стандартного відхилення, а не абсолютного обмеження.±

Отже, щоб розбити нумеровані точки у статті:

  1. Вимірювання за межами КІ все ще мають шанс здійснитись, тому що реальна (ймовірно гауссова) ймовірність там не нульова (або де-небудь з цього приводу, хоча вони стають зникаючими невеликими, коли ви далеко виходите). Якщо значення після дійсно являють собою один sd, то все ще існує 32% шансу, що точка даних вийде поза ними.±

  2. Розподіл не рівномірний (плоский зверху, як на першому графіку), він максимальний. Ви більше шансів отримати значення в середині, ніж ви знаходитесь на краях. Це як закатати купу кісток, а не одну штампу.

  3. 95% - це довільне відсічення і майже точно збігається з двома стандартними відхиленнями.

  4. Цей пункт є більше коментарем до академічної чесності загалом. Усвідомлення, яке я мав під час доктора наук, - це те, що наука не є якоюсь абстрактною силою, це сукупні зусилля людей, які намагаються займатися наукою. Це люди, які намагаються відкрити для себе все нове про всесвіт, але в той же час намагаються тримати своїх дітей і годувати їх роботою, що, на жаль, в сучасний час означає, що в грі є якась форма публікації чи загибелі . Насправді вчені залежать від відкриттів, які є істинними, і цікавими , оскільки нецікаві результати не призводять до публікацій.

Довільні пороги, такі як часто можуть постійно вести себе, особливо серед тих, хто не повністю розуміє статистику та просто потребує відбитка пропуск / невдачі щодо їх результатів. Таким чином, люди іноді напівжартома говорять про те, що "запустити тест ще раз, поки не отримаєте ". Це може бути дуже спокусливо, особливо якщо доктор наук / грант / зайнятість їде на результат, щоб ці граничні результати були зміщені до тих пір, поки в аналізі не з’явиться бажаний .p<0.05p<0.05p=0.0498

Такі практики можуть завдати шкоди науці в цілому, особливо якщо це робиться широко, все в пошуках числа, яке є в очах природи, безглуздим. По суті, ця частина спонукає вчених бути чесними щодо своїх даних та роботи, навіть коли ця чесність на їх шкоду.


26
+1 за "... опублікувати чи загинути - це гра. Насправді вчені залежать від відкриттів, які є істинними, і цікавими, оскільки нецікаві результати не призводять до публікацій". Ще багато років тому з'явився цікавий документ, який розповідає про те, як це "опублікувати або загинути" призводить до помилок / упередженості в усьому науці: чому більшість опублікованих досліджень є помилковими (Ioannidis, 2005)
Дж. Тейлор

4
Я не згоден з "реальною (ймовірно, гауссовою) невизначеністю ..." - Гауссан - це ще одне спрощення. Це дещо більш виправдано, ніж модель жорстких обмежень завдяки теоремі про центральний ліміт, але реальна дистрибуція все-таки дещо інша.
листопада

1
@leftaroundabout Реальний розподіл, ймовірно, все ще відрізняється, але, якщо значення фізично неможливо, ймовірність, ймовірно, все ще є математично ненульовою.
Герріт

3
@leftaround about about кажучи, що невизначеність, ймовірно, Гауссана, по суті не є спрощенням. Він описує попередній розподіл, який виправдовується CLT як найкращий до цього за відсутності інших супровідних даних, але, висловлюючи невизначеність щодо розподілу, вже існує підтвердження того, що розподіл не може бути гауссовим.
Буде чи

7
@inisfree ви дуже, дуже помиляєтесь. Багато наукових дисциплін (як хімія та біологія, як я вже говорив раніше) використовують майже нульову математику, крім основної арифметики. Інакше там є геніальні вчені, які майже неграмотні з математики, і я зустрічав їх декілька.
Інголіфс

19

Значна частина статті та цифра, яку ви включаєте, дуже просте:

Відсутність доказів для ефекту не є свідченням того, що його не існує.

Наприклад,

"У нашому дослідженні миші, що отримували ціанід, не гинули зі статистично значно більшими показниками", не є доказом твердження, що "ціанід не впливає на смерть миші".

p>0.05

Але це помилка, за якою автори стверджують, що вчені роблять регулярно.

Наприклад, на вашій фігурі червона лінія може виникнути в результаті дослідження на дуже небагатьох мишах, тоді як синя лінія може виникнути саме в тому ж дослідженні, але на багатьох мишах.

[60%,70%]65%. Тоді ми повинні написати, що наші результати були б найбільш сумісні з припущенням, що ця доза вбиває 65% мишей, але наші результати також були б дещо сумісні з відсотками від 60 до 70 і що наші результати будуть менш сумісними з правдою поза цим діапазоном. (Ми також повинні описати, які статистичні припущення ми робимо для обчислення цих чисел.)


4
Я не погоджуюся з твердженням бланка, що "відсутність доказів не є свідченням відсутності". Розрахунки потужності дозволяють визначити ймовірність вважати ефект певного розміру значним, враховуючи конкретний розмір вибірки. Великі розміри ефектів вимагають менше даних, щоб вважати їх суттєво відмінними від нуля, тоді як для малих ефектів потрібен більший розмір вибірки. Якщо ваше дослідження працює належним чином, і ви все ще не бачите суттєвих наслідків, то ви можете обгрунтовано зробити висновок, що ефекту не існує. Якщо у вас є достатня кількість даних, неістотність дійсно може вказувати на відсутність ефекту.
Ядерна Ванга

1
@NuclearWang Правда, але лише в тому випадку, якщо аналіз потужності робиться достроково і лише в тому випадку, якщо це зроблено з правильними припущеннями, а потім правильними інтерпретаціями (тобто ваша потужність має відношення лише до величини ефекту, який ви прогнозуєте; "80% потужність "не означає, що ви маєте 80% ймовірність правильно виявити нульовий ефект). До того ж, на моєму досвіді, використання «незначного», що означає «відсутність ефекту», часто застосовується до вторинних результатів або рідкісних подій, які дослідження (як ні) належним чином не застосовуються. Нарешті, бета - це типово >> альфа.
Брайан Краузе

9
@NuclearWang, я не думаю, що хтось сперечається "відсутність доказів НІКОЛИ не свідчить про відсутність", я думаю, що вони стверджують, що це не слід автоматично тлумачити як таке, і що це помилка, яку вони бачать люди.
usul

Це майже як люди не навчаються на тестах на еквівалентність чи щось.
Олексій

19

Я спробую.

  1. Інтервал довіри (який вони перейменовують на інтервал сумісності) показує значення параметра, найбільш сумісні з даними. Але це не означає, що значення поза інтервалом абсолютно несумісні з даними.
  2. Значення поблизу середини інтервалу достовірності (сумісності) більше сумісні з даними, ніж значення біля кінців інтервалу.
  3. 95% - це лише умовність. Ви можете обчислити 90% або 99% або будь-який% інтервалів.
  4. Інтервали впевненості / сумісності корисні лише в тому випадку, якщо експеримент був виконаний належним чином, якщо аналіз був зроблений за попередньо встановленим планом, а дані відповідають припущенню методів аналізу. Якщо у вас погано проаналізовані дані, інтервал сумісності не є значущим або корисним.

10

P>0.05P<0.05


8
(-1) P-значення не показують вам чи гіпотеза , ймовірно , справжня або помилкова. Для цього вам потрібен попередній розподіл. Наприклад, дивіться цей xkcd . Проблемне розмахування рукою, яке призводить до цієї плутанини, полягає в тому, що якщо у нас є аналогічні пріори для великої кількості гіпотез, то значення p буде пропорційним ймовірності, що це правда чи помилка. Але перед тим, як побачити будь-які дані, деякі гіпотези набагато вірогідніші за інші!
Кліф АВ

3
Хоча цей ефект - це те, що не слід скидати з рахунків, він далеко не важливий момент посилається на статтю.
РМ

6

tl; dr - принципово неможливо довести, що речі не пов'язані між собою; статистичні дані можуть бути використані тількищоб показатиколи речі будуть пов'язані. Незважаючи на цей загальновідомий факт, люди часто неправильно трактують відсутність статистичної значущості, а це означає відсутність стосунків.


Хороший метод шифрування повинен генерувати шифротекст, який, наскільки зловмисник може сказати, не має жодного статистичного відношення до захищеного повідомлення. Тому що якщо зловмисник може визначити якесь відношення, то вони можуть отримати інформацію про захищені повідомлення, просто подивившись на шифротексти - що є поганою річчю ТМ .

Однак шифротекст та його відповідний простий текст на 100% визначають один одного. Тож навіть якщо найкращі математики світу не можуть знайти будь-яких значущих стосунків, як би вони не намагалися, ми все одно, очевидно, знаємо, що стосунки існують не просто, а це повністю і повністю детерміновано. Цей детермінізм може існувати навіть тоді, коли ми знаємо, що неможливо знайти стосунки .

Незважаючи на це, ми все ще отримуємо людей, які будуть робити такі речі:

  1. Виберіть якісь стосунки, які вони хочуть " спростувати ".

  2. Проведіть деяке дослідження щодо цього, яке недостатньо для виявлення передбачуваних стосунків.

  3. Повідомте про відсутність статистично значущих відносин.

  4. Накручуйте це на відсутність стосунків.

Це призводить до різного роду " наукових досліджень ", про які ЗМІ (помилково) повідомляють, що спростовують існування певних стосунків.

Якщо ви хочете створити своє власне дослідження навколо цього, є маса способів зробити це:

  1. Ледаче дослідження:
    На сьогодні найпростіший спосіб - просто неймовірно лінивий. Це так само, як із тієї фігури, пов'язаної у питанні:
    .
    Ви можете легко отримати те просто маючи невеликі розміри зразків, дозволяючи багато шуму та інших різних ледачих речей. Насправді, якщо ви так ліниві, що не збирайте будь-які дані, тоді ви вже готові!'Non-significant' study(high P value)"

  2. Лінивий аналіз:
    З якої - то дурної причини, деякі люди думають, коефіцієнт кореляції Пірсона з означає « немає кореляції ». Що правда, в дуже обмеженому сенсі. Але ось кілька випадків, які слід спостерігати: . Це, можливо, не існує " лінійних " відносин, але, очевидно, може бути і більш складне. І це не повинно бути комплексом рівня " шифрування ", а, скоріше, " це насправді лише трохи чіткі лінії " або " є два кореляції " чи що завгодно.0

  3. Ледача відповідь:
    У дусі сказаного я збираюся тут зупинитися. Щоб, ви знаєте, лінуватися!

Але, якщо серйозно, стаття добре підсумовує це:

Давайте будемо зрозуміти, що має зупинятися: ми ніколи не повинні робити висновок, що немає "різниці" або "немає асоціації" лише тому, що значення P більше, ніж поріг, такий як 0,05, або, що рівно, тому що довірчий інтервал включає нуль.


+1, оскільки те, що ви пишете, є правдою і викликає думку. Однак, на мою скромну думку, ви можете довести, що дві кількості розумно не співвідносяться за певних припущень. Спершу вам слід провести курс, наприклад, припустивши певний розподіл про них, але це може грунтуватися на законах фізики чи статистиці (наприклад, очікується, що швидкість молекул газу в контейнері буде газова або так далі)
NTG

3
@ntg Так, важко знати, як скласти частину цього матеріалу, тому я багато чого залишив. Я маю на увазі, загальна правда полягає в тому, що ми не можемо спростувати існування певних відносин, хоча ми можемо загалом продемонструвати, що конкретні стосунки не існують. Начебто, ми не можемо встановити, що два ряди даних не пов'язані між собою, але ми можемо встановити, що вони не є надійно пов'язаними простою лінійною функцією.
Нат

1
-1 "tl; dr- Це принципово неможливо довести, що речі не пов'язані": Тести на еквівалентність дають докази відсутності ефекту в межах довільного розміру ефекту.
Олексій

2
@ Алексис Я думаю, ви неправильно розумієте тестування на еквівалентність; ви можете використовувати тестування на еквівалентність для підтвердження відсутності певного тримання відносин, наприклад, лінійного співвідношення, але не підтверджувати відсутність будь-якого зв'язку.
Нат,

1
@Alexis Статистичний висновок може надати вам як багато доказів відсутності ефекту, що перевищує конкретний розмір ефекту в контексті деякої моделі . Можливо, ви припускаєте, що модель завжди буде відома?
Нат,

4

Для дидактичного вступу до проблеми Алекс Райнхарт написав книгу, повністю доступну в Інтернеті та відредаговану у No Starch Press (з більшим вмістом): https://www.statisticsdonewrong.com

Він пояснює корінь проблеми без складної математики та має конкретні глави із прикладами з імітованого набору даних:

https://www.statisticsdonewrong.com/p-value.html

https://www.statisticsdonewrong.com/regression.html

У другому посиланні графічний приклад ілюструє задачу p-значення. Р-значення часто використовується як єдиний показник статистичної різниці між набором даних, але його явно недостатньо.

Редагуйте для отримання більш детальної відповіді:

У багатьох випадках дослідження мають на меті відтворити точний тип даних, або фізичні вимірювання (скажімо, кількість частинок у прискорювачі під час конкретного експерименту), або кількісні показники (наприклад, кількість пацієнтів, що розвивають специфічні симптоми під час тестів на наркотики). У будь-якій ситуації багато факторів можуть втручатися в процес вимірювання, як помилка людини або зміни систем (люди реагують по-різному на один і той же препарат). Це причина, коли експерименти часто проводяться сотні разів, а тестування на наркотики робиться в ідеалі на когортах тисяч пацієнтів.

Потім набір даних зводиться до найпростіших значень за допомогою статистики: засобів, стандартних відхилень тощо. Проблема порівняння моделей через їх середнє значення полягає в тому, що вимірювані значення є лише показниками справжніх значень, а також статистично змінюються залежно від кількості та точності окремих вимірювань. У нас є способи добре припустити, які заходи можуть бути однаковими, а які ні, але лише з певною визначеністю. Звичайний поріг полягає в тому, що якщо у нас менше одного з двадцяти шансів помилитися, сказавши, що два значення різні, ми вважаємо їх "статистично різними" (це значення ), інакше ми не робимо висновку.P<0.05

Це призводить до незвичайних висновків, проілюстрованих у статті Nature, де два однакові заходи дають однакові середні значення, але висновки дослідників відрізняються через розмір вибірки. Цей та інші тропи зі статистичної лексики та звичок набувають все більшого значення в науках. Інша сторона проблеми полягає в тому, що люди, як правило, забувають, що вони використовують статистичні інструменти та роблять висновок про ефект без належної перевірки статистичної потужності своїх вибірок.

Для іншої ілюстрації, останнім часом суспільні та життєві науки переживають справжню кризу реплікації через те, що багато ефектів сприйняли як належне люди, які не перевіряли належну статистичну силу відомих досліджень (а інші фальсифікували дані але це ще одна проблема).


3
Хоча ця відповідь не є лише посиланням, ця відповідь має всі важливі характеристики " відповіді лише на посилання ". Щоб покращити цю відповідь, будь ласка, включіть ключові моменти до самої відповіді. В ідеалі ваша відповідь має бути корисною як відповідь, навіть якщо вміст посилань зникає.
RM

2
Про p-значення та помилковості базової ставки (згадані у вашому посиланні) Veritasium опублікував це відео під назвою байєсівська пастка .
jjmontes

2
Вибачте, я спробую якнайшвидше вдосконалити та розвинути відповідь. Моя ідея полягала також у наданні корисного матеріалу для допитливого читача.
Г.Клав’є

1
@ G.Clavier і самоописана статистика новачок і цікавий читач цінує це!
uhoh

1
@uhoh Радий прочитати. :)
G.Clavier

4

Для мене найважливішою частиною було:

... [Ми] закликаємо авторів обговорити точкову оцінку, навіть коли вони мають велике значення Р або широкий інтервал, а також обговорюють межі цього інтервалу.

Іншими словами: Поставте більший акцент на обговоренні оцінок (центр та інтервал довіри), а нижчий акцент - на «Тестування гіпотез на нуль».

Як це працює на практиці? Чимало досліджень зводиться до вимірювання розмірів ефекту, наприклад "Ми виміряли коефіцієнт ризику 1,20, 95% ДІ коливається від 0,97 до 1,33". Це підходяще резюме дослідження. Ви можете відразу побачити найбільш ймовірний розмір ефекту та невизначеність вимірювання. За допомогою цього резюме ви можете швидко порівняти це дослідження з іншими подібними дослідженнями, і в ідеалі ви зможете поєднати всі результати у середньозваженому середньому.

На жаль, такі дослідження часто підсумовуються як "Ми не знайшли статистично значущого збільшення коефіцієнта ризику". Це вагомий висновок дослідження вище. Але це не підходящий підсумок дослідження, тому що ви не можете легко порівняти дослідження, використовуючи такі типи резюме. Ви не знаєте, яке дослідження мало найточніше вимірювання, і ви не можете зрозуміти, яким може бути висновок метадослідження. І ви не відразу помічаєте, коли дослідження стверджують, що "незначне підвищення коефіцієнта ризику", маючи настільки великі інтервали довіри, що ви можете сховати слона в них.


Це залежить від недійсної гіпотези. Наприклад, відхиляючи свідчить про відсутність ефекту, більший за довільно малий . H0:|θ|ΔΔ
Олексій

1
Так, але навіщо навіть турбуватися обговорювати таку гіпотезу? Ви можете просто вказати розмір вимірюваного ефекту а потім обговорити, які найкращі та гірші наслідки є. Це зазвичай робиться у фізиці, наприклад, при вимірюванні різниці маси заряду між протоном і антипротоном . Автори могли вирішити сформулювати нульову гіпотезу (можливо, наслідувати ваш приклад, що абсолютна різниця більша, ніж деяка ), і приступили до її перевірки, але доданої вартості в такій дискусії мало. θ±δθΔ
Martin JH

3

Це «значне» , що статистикам , а не тільки вчені, піднімаюся і заперечуючи пухке використання «значущості» і значень. Цьому питанню повністю присвячений останній випуск американського статистика . Особливо дивіться головну редакцію Васермана, Ширма та Лазара. P


Дякую за посилання! Це відкривачка для очей; Я не усвідомлював, що з цього приводу існує стільки думок і дискусій.
uhoh

2

Факт, що з кількох причин р-значення справді стали проблемою.

Однак, незважаючи на свої слабкі місця, вони мають важливі переваги, такі як простота та інтуїтивна теорія. Тому, хоча я в цілому погоджуюся з коментарем Nature , я вважаю, що замість того, щоб повністю знизити статистичну значимість , потрібно більш зважене рішення. Ось кілька варіантів:

1. «Зміна за замовчуванням Р-значення порога статистичної значущості від 0,05 до 0,005 для вимог нових відкриттів». На мій погляд, Бенджамін та ін дуже добре висловлювали найбільш переконливі аргументи проти прийняття більш високого рівня доказів.

2. Прийняття р-значень другого покоління . Вони здаються розумним рішенням більшості проблем, що стосуються класичних p-значень . Як Блюм і ін кажуть тут , в другому поколінні р-значення можуть допомогти «поліпшити строгість, відтворюваність & прозорість статистичного аналізу.»

3. Перевизначення p-значення як "кількісний показник визначеності -" індекс довіри "- що спостережувані відносини або твердження є істинними". Це може допомогти змінити мету аналізу від досягнення важливості до належної оцінки цієї впевненості.

Важливо, що "результати, які не досягають порогу статистичної значущості або " впевненості " (що б це не було), все ще можуть бути важливими і заслуговують на публікацію у провідних журналах, якщо вони вирішують важливі дослідницькі питання суворими методами".

Я думаю , що може допомогти пом'якшити одержимість р-значення від провідних журналів, яка за неправильний р-значення .


Дякую за вашу відповідь, це корисно. Я проведу деякий час, читаючи Blume et al. про p-значення другого покоління , це здається досить читабельним.
uhoh

1
@uhoh, радий, що моя відповідь корисна на твоє запитання.
Кранц

1

Одне, що не згадувалося, - це те, що помилка чи значущість - це статистичні оцінки, а не фактичні фізичні вимірювання: вони сильно залежать від наявних у вас даних та способів їх обробки. Ви можете надати точне значення помилки та значимість лише у тому випадку, якщо ви виміряли кожну можливу подію. Зазвичай це не так, далеко не так!

Отже, кожна оцінка помилки або значущості, в даному випадку будь-якої заданої величини Р, за визначенням є неточною і їй не слід довіряти, щоб описати основні дослідження - не кажучи вже про явища! - точно. Справді, не слід довіряти нічого про результати, БЕЗ знання про те, що представляється, як була оцінена помилка та що було зроблено для контролю якості даних. Наприклад, одним із способів зменшити передбачувану помилку є видалення залишків. Якщо це видалення також робиться статистично, то як ви насправді можете дізнатися, що люди, що вижили, були справжніми помилками замість навряд чи реальних вимірювань, які слід включати до помилки? Як зменшена помилка могла покращити значущість результатів? Що щодо помилкових вимірювань біля оцінок? Вони вдосконалюються помилка та може вплинути на статистичну значимість, але може призвести до неправильних висновків!

З цього приводу я займаюся фізичним моделюванням і сам створив моделі, де помилка 3-сигми абсолютно нефізична. Тобто, статистично існує одна тисяча подій (ну ... частіше за все, але я відволікаюсь), що призведе до абсолютно смішного значення. Величина 3-х інтервальних похибок у моєму полі приблизно еквівалентна найкращій оцінці 1 см, раз у раз виявляючись метром. Однак це дійсно прийнятий результат при наданні статистичного +/- інтервалу, обчисленого з фізичних, емпіричних даних у моєму полі. Зрозуміло, дотримується вузькість інтервалу невизначеності, але часто значення найкращої здогадки є більш корисним результатом, навіть коли номінальний інтервал помилок був би більшим.

Як зауваження, я колись особисто відповідав за одного з тих, хто перебуває у тисячі людей, що пережили людей. Я був у процесі калібрування інструменту, коли сталася подія, яку ми повинні були виміряти. На жаль, ця точка даних була б точно однією із цих 100-кратних випускників, тому в певному сенсі вони дійсно трапляються і включаються в помилку моделювання!


"Ви можете надати точну міру, лише якщо ви виміряли кожну можливу подію." Хм. Отже, точність безнадійна? А також не має значення? Будь ласка, розгорніть різницю між точністю та ухилом. Чи є неточні оцінки необ’єктивними чи неупередженими? Якщо вони неупереджені, то хіба вони трохи не корисні? "Наприклад, один із способів зменшити помилку - це видалити залишків." Хм. Це зменшить дисперсію вибірки, але "помилку"? "... часто значення оцінки найкращої здогадки є більш корисним результатом, навіть коли номінальний інтервал помилок був би більшим" Я не заперечую, що хороший попередній показник кращий, ніж поганий експеримент.
Петро Леопольд

Текст трохи змінив на основі Вашого коментаря. Я мав на увазі те, що статистичний показник помилок - це завжди оцінка, якщо у вас є всі можливі індивідуальні тести, так би мовити, доступні. Таке трапляється рідко, за винятком випадків, коли наприклад опитування встановленої кількості людей (не як зразки більшої натовпу чи загальної сукупності).
Генімецурі

1
Я практик, який використовує статистику, а не статистику. Я думаю, що основною проблемою значень p є те, що багато хто не знайомий з тим, що плутає їх із суттєвим значенням. Таким чином, мене попросили визначити, які нахили важливі, використовуючи значення p, незалежно від того, великі вони чи ні. Аналогічна проблема полягає у використанні їх для визначення відносного впливу змінних (що для мене критично важливо, але яке приділяє на диво мало уваги в літературі з регресії).
користувач54285
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.