У чому полягає проблема після тестування?


15

Мій професор-статистик так говорить, всі книги, які я дивлюся, заявляють про це: пост-спеціальні випробування ненаукові. Ви повинні спочатку вивести гіпотезу з теорії, а потім зібрати дані та проаналізувати їх.

Але я дійсно не розумію, в чому проблема.

Припустимо, я бачу показники продажів різних кольорів автомобілів і формую гіпотезу, що з числа проданих автомобілів різного кольору найбільша група автомобілів на вулиці повинна бути білою. Тож я одного дня сиджу на якійсь вулиці і відзначаю всі кольори всіх машин, які проходять повз мене. Потім я роблю кілька тестів і знаходжу що завгодно.

Тепер, припустимо, мені стало нудно і одного дня сів на якійсь вулиці і відзначив усі кольори всіх машин, які проходили повз мене. Оскільки я люблю графіки, я будую гарну гістограму і виявляю, що білі машини складають найбільшу групу. Тому я думаю, що, можливо, більшість автомобілів на вулиці білі і виконують якісь тести.

Як і чому результати або інтерпретація результатів постспеціального тесту відрізняються від результатів теоретичного тесту * гіпотези?

* Як узагалі називається протилежний пост-тест?


Я хотів би додати, що більшість наших знань про Всесвіт (Земля рухається навколо Сонця) виведена пост-хок із спостереження.

Мені здається, що з фізики цілком нормально вважати, що не випадково сонце сходить на Сході протягом останніх тисяч років.


2
Проблемні приклади наведено тут та тут .
Scortchi

@Scortchi Хм, дякую, але все, що я можу знайти, це: "Це було б зловживанням статистичним тестуванням, як це було чітко пояснено і продемонстровано в багатьох місцях". Решта коментарів та відповідей, здається, пояснюють не проблему посттехнічного тестування, а загалом тестування.

2
Порівняйте відповідь амеби (еквівалентну вашому 1-му сценарію) з відбійною (еквівалентною вашому 2-й).
Scortchi

3
Лише зауважте, що протилежність пост-хоку - це апріорі. Відповідь @whuber у публікації, пов’язаній вище, є досить вичерпною, але ви можете шукати дослідницький аналіз даних та підтверджуючий аналіз даних.
Пітер Флом - Відновіть Моніку

Це пов'язане з дотиком,
shadowtalker

Відповіді:


12

"Знаєте, зі мною сьогодні ввечері сталося найдивовижніше. Я приїжджав сюди, по дорозі на лекцію, і я зайшов через стоянку. І ти не повіриш, що сталося. Я побачив машину з ліцензією номер ARW 357. Ви можете собі уявити? З усіх мільйонів номерних знаків у штаті, який шанс я побачив саме цього сьогодні ввечері? Дивовижно! " Річард Фейнман

Я відчуваю, що не в змозі пояснити глибокі технічні аспекти цієї проблеми. Однак я думаю, що багато з них можна звести до інтуїції.

У першій програмі ви починаєте з певної гіпотези, яку ви перевіряєте на нових даних (з розробленого експерименту). Вивчення показників продажів може привести вас до дуже добре продуманого експерименту, де ви дійсно можете вирішити, наскільки сильною має бути ваша відповідь (статистична потужність, p-значення, розмір вибірки та багато іншого).

У другому плані, насамперед, це те, що ви нічого не вирішуєте про силу відповіді. Це одна проблема. Друга проблема полягає в тому, що витяг гіпотези з тієї ж вибірки, що використовується для тестів, дуже неконтрольовано збільшить шанси на те, що випадкові закономірності трактуються як цінна інформація. Що ви робите - це помітити щось (що білих автомобілів у великій кількості) і запитати себе, чи це важливо. Справа в тому, що ви вибрали лише помітний факт, помітний на цьому зразку, відкинувши інші гіпотези. Так ви створили сприятливі умови для певної гіпотези, і ви порушуєте припущення більшості априорних статистичних тестів.

Не науково поводитися так, як ви не знали про цю витік , і робити вигляд, що це експеримент з усіма його припущеннями, коли це неправда. У цьому випадку науково використовувати пост-спеціальний аналіз для формулювання гіпотези та розробки абсолютно нового експерименту для того, щоб перевірити його.


Але чи не експеримент, створений спеціально для гіпотези, найбільш крайньої форми "сприятливих" умов?

1
Єдине, що «сприяє» експерименту, - це ґрунтовність відповіді. І крім усього іншого, вона намагається «не сприяти» конкретній гіпотезі.
rapaio

4

Якщо ви спочатку збираєте дані, а потім будуєте теорію на основі цих даних, ви загрожуєте пристосувати історію до своїх спостережень. Проблема в тому, що ми, люди, надзвичайно добре пишемо розповіді. По-іншому: будь-які дані можуть бути "пояснені" історією, якщо історія просто зведена.

Цей процес передбачає приємні анекдоти. Однак немає ніяких причин, чому він повинен пояснювати реальність та / або давати хороші прогнози. Для цього потрібно налаштувати та затвердити модель .

xkcd зазначає, що це явище пронизує спортивний "коментар" :

спортивний коментар

Спорідненим є феномен пареїдолії : бачення закономірностей там, де їх немає. Подивіться, наприклад, "обличчя" люди бачили на попередніх супутникових знімках Марса:

Марсіанське обличчя

Крім того, якщо ви збираєте більше даних, вам потрібно бути обережними, щоб ви не переробляли свою історію все більш химерними способами, щоб змусити її "продовжувати" пояснювати свої спостереження :

виборчий прецедент


2

Наука діє, формуючи гіпотези (які, звичайно, мотивовані досвідом), робить прогнози на основі цих гіпотез, а потім перевіряє їх. Чи було б сенсом щось спостерігати в минулому, узагальнювати це спостереження в теорії, але потім трактувати саме минуле як вид зворотного експерименту, який автоматично підтверджує теорію? Ні, адже все питання полягало у тому, наскільки добре узагальнюється ваша теорія, а не чи працювала вона колись у минулому. Ось чому тестування гіпотез, запропонованих даними , вважається поганою наукою.


1

Ваш професор та інші відповіді вірні, що після спеціального аналізу є проблеми. Однак ви також маєте рацію, що багато хорошої науки походить від спеціального аналізу. Ключовим моментом є те, що слід віддавати перевагу належним чином розробленим експериментам, а також, що після проведення спеціальних аналізів слід ставитися до обережності та спеціальних інструментів, щоб запобігти відсутності фальшивих артефактів фактичними відкриттями. Стаття у Вікіпедії про швидкість виявлення помилок може дати зрозуміти проблему.

Просто наведіть пару прикладів:

  • Якщо вжити біометричних заходів щодо всієї світової популяції великої рогатої худоби, можна зробити висновок, що велика рогата худоба має дві ніздрі. Це насправді пост-спеціальний аналіз, але більшість біології, вулканології чи історії побудовані саме так. Причина, по якій ми не відкидаємо той факт, що велика рогата худоба має дві ніздрі, є свідченням на користь того, що вона настільки непосильна.
  • Ми беремо дані телят, народжених у попередньому році на даній фермі худоби. Ми розуміємо, що кожного вівторка під повним місяцем понад 50% новонароджених телят були самками - за винятком державних свят у цій країні чи зимових вівторків. Якби ми раніше висловлювали гіпотезу про те, що в такі дні днів вироблялося більше телят жіночої статі, ми могли б зробити тест на гіпотезу і прийняти (або відкинути) цю гіпотезу. Однак якщо взяти до уваги, що це лише пост-спеціальний аналіз, доказів буде недостатньо, щоб відкинути помилкове явище.

Існує часто цитується стаття, яка за іронією долі відхиляє всі докази того, що парашути є корисними як анекдотичні - що є лише особливо поганим класом доказів, що ґрунтується на аналізі після заходу.

І використати гарний приклад, використаний у відповіді Стефана Коласса: кілька темних плям, що нагадують обличчя на Марсі, можна відкинути як пареїдолію, але щось, що відтворює " Тайну вечерю" Леонардо да Вінчі до найдрібнішої деталі, не змогло.


0

Якщо у вас немає теорії, що підтверджує ваші пропозиції, то, навіть якщо ваше твердження буде підтверджено, це може відбутися через збіг обставин і нічого не доводить. Наприклад, я вважаю, що я роблю горщики, коли сходить сонце, і роблю це протягом останніх 10 років - на основі цих даних пост-спеціальний аналіз говорить мені, що існує взаємозв'язок між моїм заняттям горщиком і сонцем, що сходить, тоді як те, що існує, є лише збігом обставин. Сонце не встає, тому що ви робите горщик чи навпаки.

Життя сповнена збігів. Теорія, що підтримується теорією, усуває такі збіги чи псевдозв'язки.


Якщо у мене є теорія, і результати відповідають цій теорії, це може бути також збігом обставин. Тому теорії не можуть бути підтверджені, а лише підроблені. Насправді існує взаємозв'язок між ранковим випорожненням і сонцем, що сходить, оскільки рухи сонця диктують добовий ритм, в свою чергу впливають на дефекацію.

0

Ось інтуїція, яка вам може бути корисною. Якщо вам нудно і рахувати машини, вам все одно потрібно пам’ятати, що те, що ви бачите, є результатом якогось випадкового процесу. Зокрема, машини могли бути різного кольору.

Тому, якщо ви формуєте гіпотезу, що найчастіший колір - білий, якщо це насправді є, але може бути також, що найчастішим кольором є червоний, але в цьому конкретному експерименті найчастішим був білий (який завжди можливий ).

Тепер, якщо ви робите пост-час , ви будете перевіряти, чи білий колір є найчастішим, і, враховуючи, що дані пропонують цю гіпотезу, ви цілком можете зробити висновок, що білий - найчастіший ... Принаймні, дані ніколи не будуть суперечити гіпотеза (post-hoc).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.