Що таке загальні статистичні гріхи?


227

Я студентка психології, і, як я все більше і більше займаюся незалежними дослідженнями статистики, все більше вражаю неадекватність моєї формальної підготовки. Як особистий досвід, так і досвід другого боку свідчить про те, що нестабільність статистичної суворості в бакалаврській та випускній підготовці є досить всюдисущою в психології. Тому я вважав, що було б корисно незалежним учням, як я, створити список "статистичних гріхів", табулюючи статистичні практики, що навчаються для оцінювання студентів, як стандартну практику, яка насправді або замінена вищим (більш потужним, або гнучким, або надійні тощо) сучасні методи або виявляються відверто недійсними. Передбачаючи, що в інших сферах також може виникнути подібний стан речей, я пропоную вікі спільноти, де ми можемо зібрати список статистичних гріхів по різних дисциплінах.


5
Я усвідомлюю, що "гріх", можливо, є запальним і що деякі аспекти статистичного аналізу не є чорно-білими. Мій намір - вимагати випадків, коли дана загальнонавчана практика є явно недоречною.
Майк Лоуренс

5
Ви також можете додати до суміші студентів з біології / наук про життя;)
nico

1
можливо, поверніть це статистичні гріхи науки про життя? ... або щось інше більш конкретне ...
Іван

1
@whuber Було кілька хороших відповідей, тому я їх об'єднав обох.

1
Привіт @Amanda, чи не могли б ви тут вказати, що йдеться в розмові? Ніхто не любить можливість бути прокатом.
naught101

Відповіді:



115

Більшість тлумачень p-значень є гріховними! Звичайне використання p-значень сильно помилково; факт, який, на мою думку, ставить під сумнів стандартні підходи до викладання тестів гіпотез і тестів, що мають значення.

Галлер і Краузе виявили, що статистичні інструктори майже так само ймовірні, як студенти неправильно трактувати p-значення. (Візьміть тест у їхньому документі і подивіться, як ви робите.) Стів Гудман робить хороший випадок для відмови від звичайного (неправильного) використання р-значення на користь ймовірностей. Папір Хаббард також варто переглянути.

Галлер і Краус. Помилкові тлумачення значущості: проблема, яку учні ділять зі своїми вчителями . Методи психологічних досліджень (2002) вип. 7 (1) стор. 1-20 ( PDF )

Хаббард і Баяррі. Плутанина щодо заходів доказування (p's) порівняно з помилками (α) у класичному статистичному тестуванні . Американський статистик (2003), вип. 57 (3)

Хороша людина. Назустріч доказовій медичній статистиці. 1: Помилковість P значення. Ann Intern Med (1999) vol. 130 (12) с. 995-1004 ( PDF )

Також дивіться:

Wagenmakers, EJ. Практичне вирішення поширених задач p-значень. Психономічний вісник та огляд, 14 (5), 779-804.

для деяких чітких випадків, коли навіть номінально "правильне" тлумачення p-значення було неправильним через вибір експериментатора.

Оновлення (2016 р.) : У 2016 році Американська статистична асоціація видала заяву про p-значення, дивіться тут . Це, певним чином, було відповіддю на "заборону р-значень", видану журналом психології приблизно роком раніше.


2
@Michael (+1) Я додав посилання на реферати та необгрунтовані PDF-файли. Сподіваюся, ви не заперечуєте.
chl

7
+1, але я хотів би зробити кілька критичних коментарів. Щодо початкової лінії, можна так само сказати, що "майже всі" (в теоретичному сенсі міри) інтерпретації будь - якої чітко визначеної концепції неправильні, тому що лише одна є правильною. По-друге, на що ви звертаєтесь, говорячи про "звичайне використання" та "стандартні підходи"? Ці неясні посилання звучать як солом’яна людина. Вони не згодні з тим, що можна знайти, наприклад, у літературі про освіту статистики.
whuber

4
@Whuber Погляньте на документ Goodman. Це досить добре відповідає моєму досвіду в галузі фармакології. Методи кажуть: "Результати, де P <0,05 були взяті як статистично значущі", а потім результати представлені + для p <0,05, ++ для p <0,01 і +++ для p <0,0001. Заява передбачає контроль за коефіцієнтами помилок a la Neyman і Pearson, але використання різних рівнів p підказує підхід Фішера, де значення p є показником міцності доказів проти нульової гіпотези. Як зазначає Гудман, ви не можете одночасно контролювати рівень помилок і оцінювати міцність доказів.
Майкл Лев

8
@Michael Існують альтернативні, щедріші тлумачення такого виду звітів. Наприклад, автор може усвідомлювати, що читачі можуть захотіти застосувати власні пороги значущості, і тому роблять позначення р-значень, щоб допомогти їм вийти. В якості альтернативи, автору можуть бути відомі можливі проблеми зі множинним порівнянням та використовувати різні рівні в коригуванні Бонферроні. Можливо, якась частина вини за нецільове використання p-значень повинна бути покладена на ноги читача, а не автора.
whuber

4
@Whuber Я повністю погоджуюся, але лише те, що ви пропонуєте, є правдою в деяких невеликих частках випадків (обмежена версія "повністю"). Існують деякі журнали, які вказують, що значення p слід повідомляти на рівні одного, двох або трьох зірок, а не точних значень, тому ці журнали несуть певну відповідальність за результат. Однак, як непродумана вимога, так і, мабуть, наївне використання значень р може бути результатом відсутності чіткого пояснення відмінностей між показниками помилок та доказів у кількох вступних текстах статистики, які знаходяться на моїх полицях.
Майкл Лев

73

Найнебезпечніша пастка, з якою я стикався під час роботи над прогнозною моделлю, - це не резервувати тестовий набір даних раніше, щоб присвятити його "остаточній" оцінці ефективності.

Переоцінити точність прогнозування вашої моделі дуже просто, якщо у вас є можливість якось використовувати дані тестування під час налаштування параметрів, вибору попереднього, вибору критерію зупинки алгоритму навчання ...

Щоб уникнути цієї проблеми, перед початком роботи над новим набором даних слід розділити свої дані так:

  • набір розвитку
  • набір оцінок

Потім розділіть свій набір розробок на "набір розробок тренінгу" та "набір розробок для тестування", де ви використовуєте набір розробок для тренувань різних моделей з різними параметрами та виберіть рейтинги відповідно до результатів роботи набору розробок для тестування. Ви також можете здійснювати пошук по сітці з перехресною валідацією, але тільки в наборі розробок. Ніколи не використовуйте набір оцінок, поки вибір моделі не зроблений на 100%.

Після того, як ви впевнені у виборі моделі та параметрах, виконайте перехресну перевірку на 10 разів на наборі оцінок, щоб мати уявлення про "реальну" прогнозовану точність обраної моделі.

Крім того, якщо ваші дані тимчасові, краще вибрати розділ розвитку / оцінювання за тимчасовим кодом: "Важко робити прогнози - особливо щодо майбутнього".


5
Я погоджуюся з цим в принципі, але у випадку невеликого набору даних (у мене часто буває лише 20-40 випадків) використання окремого набору оцінок не є практичним. Вкладена перехресна перевірка може обійти це, але може призвести до песимістичних оцінок щодо малих наборів даних
BGreene

11
Загалом, для розбиття даних надійним є величезний набір даних. Ось чому сувора внутрішня перевірка за допомогою завантажувальної програми є такою привабливою.
Френк Харрелл

Особливо, коли набір розробок - це минулі дані, а оцінка встановлюється майбутніми даними. Чому б не, врешті-решт, настроїти модель, не підготувати остаточну модель з фіксованими параметрами на всьому наборі розробок і передбачити весь набір оцінок разом з нею. У реальному сценарії ви не могли перекреслити валідацію через майбутні дані так, як ви описуєте, так що ви використовували б усі відповідні минулі дані.
Девід Ернст

64

Повідомлення p-значень, коли ви робили обмін даними (виявлення гіпотез) замість статистики (тестування гіпотез).


2
Чи можете ви (чи хтось) детальніше розробити?
antoine-sac


А як щодо р-значень, виправлених для тестування численних гіпотез (з деяким ароматом методу Бонферроні або більш досконалою корекцією)? Я схильний би вважати це добре, навіть в контексті обміну даними?
antoine-sac

Мені подобається загальна ідея, але це спотворення, щоб зрівняти статистику з тестуванням гіпотез, коли остання є підмножиною першої.
rolando2

46

Тестування гіпотез проти H 1 : μ 0 (наприклад, у гауссовій обстановці)H0:μ=0H1:μ0

щоб виправдати, що в моделі (тобто суміш " H 0 не відхиляється" і " H 0 є істинним").μ=0H0H0

Дуже хорошим прикладом такого типу (дуже поганих) міркувань є те, коли ви перевіряєте, чи є дисперсії двох гауссів рівними (чи ні) перед тестуванням, чи їх середнє значення є рівним чи ні з припущенням про рівну дисперсію.

Інший приклад виникає, коли ви перевіряєте нормальність (порівняно з ненормальністю) для обгрунтування нормальності. Кожен статистик зробив це в житті? це baaad :) (і повинен підштовхувати людей до перевірки стійкості до не-гауссовості)


6
Та сама логіка (прийняття "відсутності доказів на користь H1" як "доказ відсутності H1") по суті лежить в основі всіх тестів на придатність. Міркування також часто виникає, коли люди стверджують, що "тест був несуттєвим, тому ми можемо зробити висновок, що немає ефекту фактора X / немає впливу змінної Y". Я думаю, що гріх є менш тяжким, якщо його супроводжують міркування про потужність тесту (наприклад, апріорна оцінка розміру вибірки для досягнення певної потужності з огляду на певний розмір ефекту).
каракал

Якщо ви не зробите жодних міркувань щодо потужності, я б сказав, що клацання є істинним, коли воно не відхиляється, це дуже погано, тоді як клацання H 1 - це правда, тоді як H 0 відхилено - це трохи не так :). H0H1H0
Робін Жирард

Чудово !! Так, це зводить мене з розуму ..
jpillow

3
Я намагаюся бути статистично грамотним і все-таки час від часу потрапляю до цього. Які альтернативи? Змініть свою модель, щоб старий нуль став ? Єдиний інший варіант, про який я можу придумати, - це достатньо потужної вашої роботи, щоб невдача відхилити нуль на практиці досить близька до підтвердження нуля. Наприклад, якщо ви хочете переконатися, що додавання реагенту у ваші клітини не знищить більше 2% з них, потужність до задовільної помилкової негативної швидкості. H1
DocBuckets

Тестування на еквівалентність @DocBuckets з двома односторонніми тестами є більш жорстким, ніж підхід на основі потужності. Але вам потрібно встановити мінімальний відповідний розмір ефекту, нижче якого можна говорити про практичну еквівалентність.
Девід Ернст

46

Кілька помилок, які мене турбують:

  1. Якщо припустити, що об'єктивні оцінювачі завжди кращі, ніж упереджені оцінки.

  2. Якщо припустити, що високий передбачає хорошу модель, низький R 2 означає погану модель.R2R2

  3. Неправильне тлумачення / застосування кореляції.

  4. Оцінка точок звітування без стандартної помилки.

  5. Використання методів, які передбачають певну багатовимірну нормальність (наприклад, лінійний дискримінантний аналіз), коли доступні більш надійні, більш ефективні, не / напівпараметричні методи.

  6. Використання p-значення як міри сили між передбачувачем та відповіддю, а не як показник того, наскільки є докази певного зв'язку.


5
Ви поділили б їх на окремі варіанти?
russellpierce

41

Дихотомізація суцільної змінної предиктора або для "спрощення" аналізу, або для вирішення "проблеми" нелінійності в дії безперервного прогноктора.


18
Я не думаю, що це насправді "гріх", оскільки отримані результати не є помилковими. Однак це викидає багато корисної інформації, тому це не є хорошою практикою.
Роб Хайндман

2
У відповідності з цими лініями, використовуючи крайні групи, розробити надмірні розміри ефектів, тоді як використання середнього або середнього розбиття за розмірами ефектів заниження.
russellpierce

2
Це навіть не гріх, якщо є дві чи більше різних груп населення. Припустимо, у вас є роздільні класи або підгрупи, тоді це може мати сенс дискретизувати. Дуже тривіальний приклад: я б скоріше використовував показники для сайту / місцезнаходження / міста / країни чи лат / довго?
Ітератор

3
+1, і це стає серйозним гріхом, коли вони починають вибирати дихотомізацію, щоб оптимізувати різницю, яка потім перевіряється.
Ерік

5
@Iterator ви починаєте отримувати справжню причину для агрегування (до двох або більше категорій), тому що у вас є апріорні теоретичні причини вважати, що дисперсія значимо розподіляється на ці категорії . Наприклад, ми робимо це весь час, припускаючи, що колекції з трильйона або близько клітин містять людину , або що суміжний 24-годинний період тут, на Землі, осмислено інтерпретується як одиниця. Але довільна агрегація не просто "викидає" інформацію (наприклад, статистичну силу), але може призвести до (серйозних) упереджень щодо взаємозв'язків між явищами.
Олексій

41

Не дуже відповідаю на питання, але на цю тему є ціла книга:

Філіпп І. Добрий, Джеймс Вільям Хардін (2003). Поширені помилки в статистиці (і як їх уникнути). Вілі. ISBN 9780471460688


6
+1 Я переконався, що прочитав цю книгу незабаром після її виходу. У мене є велика кількість можливостей зробити статистичні помилки, тому я завжди вдячний, що вони вказали на них, перш ніж я їх роблю!
whuber


41

Ритуалізована статистика.

Цей «гріх» - це коли ти застосовуєш те, що тебе навчили, незалежно від його доречності, бо так робиться все. Це статистика за маршрутом, на один рівень вище, що дозволяє машині вибирати вашу статистику.

Приклади - це студенти на рівні рівня статистики, які намагаються зробити так, щоб усе вмістилося в їх скромний тест-тест та інструментарій ANOVA, або коли-небудь знайдеш себе "О, у мене є категоричні дані, я повинен використовувати X", не зупиняючись ніколи на огляді дані, або розглянути питання, що задається.

Варіант цього гріха передбачає використання коду, який ви не розумієте, щоб отримати вихід, який ви тільки розумієте, але знаєте "п'яту колонку, приблизно на 8 рядків вниз" або будь-яку відповідь, яку ви повинні шукати.


6
На жаль, якщо вас не цікавлять статистичні умовиводи або вам не вистачає часу та / або ресурсів, ритуал здається дуже привабливим ...
ймовірністьлогічний

Для мене опис Епіграда - це той, хто невпинно дбає про умовиводи і нехтує такими речами, як роздуми, відкриття та врахування причинності.
rolando2

35

Можливо поетапна регресія та інші форми тестування після вибору моделі.

Вибір незалежних змінних для моделювання, не маючи апріорної гіпотези за існуючими відносинами, може призвести до логічних помилок або помилкових кореляцій, серед інших помилок.

Корисні посилання (з біологічної / біостатистичної точки зору):

  1. Козак, М., Азеведо, Р. (2011). Чи має сенс використання ступінчастих змінних для побудови моделей послідовного аналізу шляхів? Physiologia plantarum, 141 (3), 197–200. doi: 10.1111 / j.1399-3054.2010.01431.x

  2. Віттінгем, MJ, Stephens, P., Bradbury, RB, & Freckleton, RP (2006). Чому ми все ще використовуємо поетапне моделювання в екології та поведінці? Журнал екології тварин, 75 (5), 1182–9. doi: 10.1111 / j.1365-2656.2006.01141.x

  3. Френк Харрелл, стратегії регресійного моделювання , Springer 2001.


32

Щось я бачу дивовижну кількість у доповідях конференцій і навіть у журналах, які роблять кілька порівнянь (наприклад, двозначні кореляції), а потім повідомляють про всі р <0,05 як "значущі" (ігноруючи на даний момент правильність чи неправильність цього).

Я знаю, що ви маєте на увазі про випускників психології, а також - я закінчила доктор психологічних наук і все ще тільки справді навчаюся. Це зовсім погано, я думаю, що психології потрібно серйозніше поставитися до кількісного аналізу даних, якщо ми збираємось його використовувати (що, очевидно, нам слід)


9
Це особливо важливо. Я пам’ятаю, як читав дослідження про те, чи був Рамадан поганим для немовлят, чиї матері постили. Це виглядало правдоподібно (менше їжі, менша вага від народження), але потім я подивився на додаток. Тисячі гіпотез, а кілька відсотків з них опинилися в «значному» діапазоні. Ви отримуєте дивні "висновки" на кшталт "погано для дитини, якщо Рамадан - 2, 4 або 6 місяць".
Карлос

29

Будучи дослідницькою, але претендує на підтвердження. Це може статися, коли можна змінювати стратегію аналізу (тобто підгонку моделі, вибір змінних тощо), керовані даними або керованими результатами, але не заявляючи про це відкрито, а потім лише повідомляти про "найкращі" (тобто з найменшими р-значеннями) результати, як ніби це був єдиний аналіз. Це також стосується того, що численні тестування, проведені Крісом Білі, призводять до високих помилкових позитивних результатів у наукових звітах.


26

Те, що я бачу досить часто і завжди шліфує свої передачі, - це припущення, що статистично значущий головний ефект в одній групі, а нестатистично значимий головний ефект в іншій групі передбачає значний ефект х групової взаємодії.


24

Особливо в епідеміології та охороні здоров'я - використовуючи арифметику замість логарифмічної шкали при повідомленні графіків відносних заходів асоціації (коефіцієнт небезпеки, коефіцієнт шансів чи коефіцієнт ризику).

Більше інформації тут .


5
Не кажучи вже про те, щоб взагалі не маркувати їх xkcd.com/833
radek

23

Кореляція передбачає причинну причину, що не так погано, як прийняття нульової гіпотези.


але іноді ... інколи потенційні напрямки причинного зв'язку мають дуже неоднакові ймовірності. Я, звичайно, не буду думати, що кореляція між віком і зростом може бути викликана висотою ... або якоюсь мінливою змінною. Крім того, я вважаю, що це навчання, яке, як правило, є досить чутливим до цього.
Іван

Дійсно, виводячи щось із A and B are correlatedзвичайного лише бачити, A causes Bале не B causes A... (і забути про те, Cякі причини Aі B)
Андре Хольцнер

12
google заробляє $ 65B на рік, не піклуючись про різницю ...
Neil McGuigan

5
Я погоджуюся з вашими пунктами, і всі вони справедливі. Але чи означає прибуток Google: кореляція => причинний зв’язок?
suncoolsu

3
Google заробляє всі ці гроші, не піклуючись про причинно-наслідкову ситуацію. Справді, навіщо це? Прогноз - це річ ...
сполучаєтьсяпред

23

Аналіз даних швидкості (точність та ін.) За допомогою ANOVA, припускаючи тим самим, що дані швидкості мають гаусову розподілену помилку, коли вона фактично біномічно розподілена. Діксон (2008) надає обговорення наслідків цього гріха та вивчення більш відповідних підходів до аналізу.


4
На скільки це зменшує потужність аналізу? В яких умовах це найбільш проблематично? У багатьох випадках відхилення від припущень щодо ANOVA не суттєво впливають на результати важливої ​​міри.
Майкл Лев

Якою альтернативою є процедура ANOVA?
Генрік

@Michael Lew & Henrik: Я щойно оновив цей запис, щоб включити посилання на Діксона (2008)
Майк Лоуренс

2
Але коротше кажучи, найбільш проблематично, коли спостережувані ймовірності низькі або високі, оскільки діапазон значень звужується і не в змозі виконати гауссові припущення.
russellpierce

Це лише настільки ж погано, як і звичайне наближення до двочлена - повинно бути добре, за умови, що кожен випадок зважується знаменником, який використовується для обчислення ставки. Можна було б очікувати, що вона буде поганою при ставках нижче 10% і вище 90%.
ймовірністьлогічний

18

Популярний в даний час графік планує 95% довірчі інтервали навколо необмежених значень продуктивності в повторних проектах заходів, коли вони стосуються лише дисперсії ефекту. Наприклад, графік часу реакції в повторних заходах проектують з довірчими інтервалами, де термін помилки походить від MSE повторних заходів ANOVA. Ці довірчі інтервали не представляють нічого розумного. Вони, звичайно, не представляють нічого про абсолютний час реакції. Ви можете використовувати термін помилки для створення довірчих інтервалів навколо ефекту, але це робиться рідко.


Чи є стандартна стаття, на яку можна відмовити рецензентів вимагати цієї занадто поширеної практики?
russellpierce

Єдина з яких я знаю критику - це Blouin & Riopelle (2005), але вони не досягають суті справи. Я, як правило, не наполягаю на тому, щоб не показувати їх, але роблю щось правильне, як на графіках ефектів Masson & Loftus (2003, див. Рисунок 4, праву панель ... якби вони були вилучені з лівої, ви б зробили це правильно ).
Іван

Щоб було зрозуміло, проблема цих КІ полягає в тому, що вони використовуються виключно з інфекційних причин щодо відмінностей між умовами, і тому вони гірші, ніж ПЛС ... насправді я віддаю перевагу їм. Принаймні, вони чесні.
Іван

17

Хоча я можу сказати, що багато чого з того, що говорить Майкл Лев, відмова від р-значень на користь коефіцієнтів ймовірності все ж пропускає більш загальну проблему - переоцінку ймовірнісних результатів над розмірами ефекту, які необхідні для надання суттєвому значенню результату. Цей тип помилок буває в усіх формах і розмірах, і я вважаю це найбільш підступною статистичною помилкою. Спираючись на Дж. Коена, М. Оукс та інших, я написав твір про це на веб- сайті http://integrativestatistics.com/insidious.htm .


3
Мені насправді незрозуміло, як співвідношення ймовірності (LR) не досягає всього, чого досягає розмір ефекту, в той же час використовуючи легко інтерпретоване масштаби (дані містять у X разів більше свідчень для Y, ніж для Z). Розмір ефекту, як правило, є лише деякою формою співвідношення, що пояснюється нез'ясованою мінливістю, і (у вкладеному випадку) LR - це відношення необясненої мінливості між моделлю, яка має ефект, і такою, яка не відповідає. Чи не повинно бути принаймні сильної кореляції між розміром ефекту та LR, і якщо так, що втрачається, переходячи до шкали коефіцієнта ймовірності?
Майк Лоуренс

Майк - Ти мене зацікавив, але чи поширюються твої точки на розміри ефектів так просто, як середні відмінності між групами? Вони можуть легко інтерпретуватися непростою людиною, а також можуть бути призначені інтервали довіри.
rolando2

Так, під розміром ефекту ви маєте на увазі абсолютний розмір ефекту, значення, яке для себе безглуздо, але яке може бути осмислене шляхом перетворення на відносний розмір ефекту (шляхом поділу на деяку міру змінності, як я вже згадував), або шляхом обчислення інтервал довіри для абсолютного розміру ефекту. Мій аргумент вище стосується достоїнств LR та відносних розмірів ефекту. Можливо, корисні для обчислювального інтерфейсу з ефектом в тих випадках, коли фактичне значення ефекту представляє інтерес (наприклад, прогнозування), але я все ще виступаю за LR як більш інтуїтивну шкалу для розмови про докази для / проти ефектів.
Майк Лоуренс

Я думаю, використання ЛР проти КІ, ймовірно, буде змінюватися залежно від контексту, який може бути корисно узагальнений наступним чином: Більш дослідницькі етапи науки, де теорії орієнтовно характеризуються наявністю / відсутністю явищ, можуть віддавати перевагу ЛР для кількісної оцінки доказів. З іншого боку, КІ можна віддати перевагу на більш розвинених етапах науки, де теорії є достатньо вдосконаленими, щоб дозволяти нюансувати прогнозування, включаючи діапазони очікуваних ефектів або, навпаки, коли різні діапазони ефектів підтримують різні теорії. Нарешті, прогнози, згенеровані з будь-якої моделі, потребують CI.
Майк Лоуренс

0|β|=1|β|>1|β|1β=0β0

15

Якщо не перевірити припущення про те, що помилка зазвичай розподіляється і постійно змінюється між методами лікування. Ці припущення не завжди перевіряються, тому розміщення моделі з найменшими квадратами, ймовірно, часто використовується, коли воно насправді є невідповідним.


11
Що недоцільно щодо оцінки найменших квадратів, коли дані ненормальні або гетерокедастичні? Він не є повністю ефективним, але все ще є неупередженим та послідовним.
Роб Хайндман

3
Якщо дані гетероскедастичні, то в кінцевому підсумку ви можете отримати дуже неточні результати прогнозування вибірки, оскільки регресійна модель намагатиметься надто сильно звести до мінімуму помилки на зразках в районах з великою дисперсією і недостатньо жорсткою для зразків з областей з низькою дисперсією. Це означає, що ви можете закінчити дуже сильно упереджену модель. Це також означає, що смужки помилок у прогнозах будуть неправильними.
Дікран Марсупіал

6
Ні, він є неупередженим, але дисперсія більша, ніж якщо б ви пояснили причини, які ви використовуєте більш ефективним. Так, інтервали прогнозування неправильні.
Роб Хайндман

4
Так (я використовував упереджене в розмовному, а не в статистичному сенсі, щоб модель була систематично упереджена до спостережень у областях з високою дисперсією простору зображень - mea culpa!) - точніше було б сказати, що більш висока дисперсія означає збільшується шанс отримати погану модель за допомогою кінцевого набору даних. Це здається розумною відповіддю на ваше запитання. Я насправді не сприймаю об'єктивності як такої великої затишку - важливо, що модель повинна давати хороші прогнози щодо даних, які я насправді є, і часто відхилення є важливішим.
Дікран Марсупіал

14

На моєму курсі інтро-психометрії у нижчій школі провів принаймні два тижні, навчаючи виконувати ступінчату регресію. Чи є ситуація, коли ступінчаста регресія - це гарна ідея?


6
"Гарна ідея" залежить від ситуації. Коли ви хочете максимально передбачити прогноз, це не жахлива ідея - хоча це може призвести до надмірного пристосування. Є деякі рідкісні випадки, коли це неминуче - коли немає теорії, яка б керувала вибором моделі. Я б не вважав ступінчату регресію "гріхом", але використовуючи її, коли теорії достатньо для того, щоб вибрати вибір моделі.
russellpierce

20
Можливо, гріх робить статистичні тести на моделі, отриманій за допомогою поетапної регресії.
Роб Хайндман

3
Це добре, якщо ви використовуєте перехресну перевірку, а не екстраполюйте. Не публікуйте значення p, однак вони не мають сенсу.
Ніл МакГуйган

Я працюю над проектом, який використовує поетапну регресію. Причина полягає в тому, що у мене є D >> N, де D - розмірність, а N - розмір вибірки (таким чином виключається використання однієї моделі з усіма змінними), підмножини функцій сильно корелюються між собою, я хочу статистично принциповий спосіб вибору, можливо, 2-3 "найкращих" ознак, і я не збираюся повідомляти P-значення, принаймні, без якоїсь досить консервативної корекції.
dimimcha

12

У моєї старої проф. Статистики було "велике правило" для поводження з чужими людьми: якщо ви бачите на своїй розсипчастій стороні, прикрийте її великим пальцем :)


Це схоже на Winsorization, що не надто страшно.
Арі Б. Фрідман

12

Це може бути скоріше відповідь поп-статистики, ніж те, що ви шукаєте, але:

Використання середнього значення як індикатора місцезнаходження, коли дані сильно перекошені .

Це не обов'язково проблема, якщо ви та ваша аудиторія знаєте, про що ви говорите, але це, як правило, не так, і медіана, швидше за все, може краще зрозуміти, що відбувається.

Мій улюблений приклад - середня заробітна плата, яку зазвичай повідомляють як "середню заробітну плату". Залежно від нерівності доходів / багатств у країні, це може сильно відрізнятися від середньої заробітної плати, що дає набагато кращий показник того, де люди перебувають у реальному житті. Наприклад, в Австралії, де у нас відносно низька нерівність, медіана на 10-15% нижча від середньої . У США різниця значно більша , медіана менше 70% від середнього, а розрив збільшується.

Повідомлення про "середню" (середню) заробітну плату призводить до розширення картини, ніж це гарантовано, а також може створити велику кількість людей помилкове враження, що вони заробляють не стільки, скільки "нормальні" люди.


Тут є напівпов'язане обговорення цього питання, як це стосується аналізу тенденцій: tamino.wordpress.com/2012/03/29/…
naught101

2
Це не просто пов'язано зі скутістю, але є загальною проблемою, що середнього або будь-якого іншого показника центральної тенденції недостатньо без врахування дисперсії. Наприклад, якщо медіани двох груп були рівними, але міжквартильний діапазон був у 100 разів більшим для однієї сукупності. Дивлячись на медіану, ви б сказали, що вони "той самий розподіл населення", коли насправді вони були б дуже різними. Не кажучи вже про численні режими, що створюють проблеми ...
ймовірністьлогічний

Але, для деяких цілей значення означає , що заробітна плата - це велика змінна величина, тобто сума заробітної плати є значущою. Що стосується питань, де загальний дохід від заробітної плати певної (під) групи є релевантним, засоби - це правильна річ: загальну суму можна отримати від середньої, а не від середньої.
kjetil b halvorsen

@kjetilbhalvorsen: Чому тоді просто не використовувати загальний?
naught101

н

10

Те, що значення p - це ймовірність того, що нульова гіпотеза є істинною, а (1-p) - ймовірність того, що альтернативна гіпотеза є істинною, про те, що якщо не відкинути нульову гіпотезу, це означає, що альтернативна гіпотеза помилкова і т.д.


1
1

Цікаво, чи можете ви дати мені посилання, щоб прочитати про це?
Дікран Марсупіал

2
(тут ви йдете) [ ece.uvic.ca/~bctill/papers/mocap/Aitkin_1997.pdf] особисто, хоча мені це цікаво, я борюся з питанням, чому задній розподіл коефіцієнта ймовірності - це кількість відсотки.
ймовірністьіслогічного

10

Аналогічно @dirkan - Використання p-значень як формальної міри доказування того, що нульова гіпотеза є істинною. Він має деякі хороші евристичні та інтуїтивно добрі риси, але по суті є неповним доказом, оскільки не посилається на альтернативну гіпотезу. Незважаючи на те, що дані можуть бути малоймовірними під нульовим значенням (що призводить до малого p-значення), вони можуть бути ще більш неправдоподібними в альтернативній гіпотезі.


Я не відповідаю, тому що я не хочу йти на роздуми над тим, щоб роздумати, і з цього приводу перебираю всі ті, що вже були надані, щоб переконатися, що я не повторюю! Але я думаю, що я можу бути корисною. Існує книга Гуддіна та Хардіна під назвою "Поширені помилки в статистиці та як їх уникнути". Тут ви можете знайти безліч чудових прикладів. Це популярна книга, яка вже виходить у своє четверте видання.
Майкл Черник

Також у книзі Альтмана з Chapman & Hall / CRC "Практична статистика в медичних дослідженнях" є розділ про медичну літературу, де виявлено багато статистичних гріхів, що мали місце в опублікованих працях.
Майкл Черник

9

Використання кругових діаграм для ілюстрації відносних частот. Більше тут .


2
Було б добре включити деякі міркування на місці.
naught101

9

Використання статистики / ймовірності в тестуванні гіпотез для вимірювання "абсолютної істини". Статистика просто не може цього зробити, вони можуть бути корисними лише для вирішення між альтернативами , які повинні бути визначені "поза" статистичної парадигми. Такі твердження, як "нулева гіпотеза підтверджена статистикою", є просто неправильними; статистика може сказати лише вам, що "нульова гіпотеза сприятлива для даних, порівняно з альтернативною гіпотезою". Якщо ви припускаєте, що або нульова гіпотеза, або альтернатива повинні бути істинними, ви можете сказати, що «нульовий виявився істинним», але це лише тривіальний наслідок вашого припущення, а не що-небудь продемонстроване даними.


9

α=0,05

І подібно до (або майже такої ж, як) відповіді @ ogrisel , виконуючи пошук Grid та звітування лише про найкращий результат.


Я думаю, ти мав на увазі посилання на інший комікс, хоча це безсмертний.
rolando2

Можливо, якщо я досить добре пам’ятаю те, що мав на увазі тоді: xkcd.com/882
Андрій,

8

(З трохи удачі це буде суперечливим.)

Використання підходу Неймана-Пірсона до статистичного аналізу наукових експериментів. Або, ще гірше, використовуючи неправильно визначений гібрид Неймана-Пірсона та Фішера.


Вибачте за необізнаність, але що не так з конструкцією Неймана-Пірсона для аналізу (результатів) наукових експериментів?
Андре Хольцнер

@Andre Я думаю, що це зауваження може бути тісно пов'язане з іншим, запропонованим @Michael Lew в іншому місці цієї теми ( stats.stackexchange.com/questions/4551/… ).
whuber

8

Запит і, можливо, отримання діаграми потоку : ця графічна річ, де ви говорите, який рівень ваших змінних та які відносини ви шукаєте, і ви слідуєте стрілками вниз, щоб отримати тест на позначення торгової марки або статистику фірмового найменування . Іноді пропонуються з таємничими "параметричними" та "непараметричними" шляхами.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.