Хто вперше використав / винайшов р-значення?


30

Я намагаюся написати серію публікацій в блозі на p-значеннях, і я подумав, що було б цікаво повернутися туди, де все почалося - що, здається, є документом Пірсона 1900 року. Якщо ви знайомі з цим документом, ви пам’ятаєте, що це стосується тестування на придатність.

Пірсон трохи розслаблений зі своєю мовою, коли мова йде про значення p. Він неодноразово використовує "шанси", коли описує, як інтерпретувати його p-значення. Наприклад, на с.168, коли йдеться про результати повторних рулонів з 12 кубиків, він каже " ... що приводить нас до P = .0000016, або шанси складають 62,499 до 1 проти такої системи відхилень випадково Вибір. З такими шансами було б доцільно зробити висновок, що кістки виявляють упередженість у бік вищих точок ".

У цій статті він посилається на більш ранні роботи, зокрема про книгу Меррімана 1891 року про мінімум квадратів.

Але Пірсон дійсно викладає обчислення для p-значень (wrt-chi-square good of fit fit testing).

Чи був Пірсон першою людиною, яка задумала p-значення? Коли я шукаю p-значення, згадується Фішер - і його робота була в 1920-х роках.

Відредаговано: і спасибі за згадку про Лапласа - він, схоже, не звертався до нульової гіпотези (Pearson, здається, робить це неявно, хоча він ніколи не використовував цей термін у своїх документах про 1900 рік). Пірсон розглядав корисність тестування на придатність: якщо припустити, що підрахунки походять від неупередженого процесу, яка ймовірність того, що спостережувані підрахунки (і підрахунки більше відхиляються) виникають з припущеного розподілу?

Його трактування ймовірностей / шансів (він перетворює ймовірності в шанси) говорить про те, що він працює з неявним уявленням про нульову гіпотезу. Принципово важливо, що він також зазначає, що ймовірність, що випливає з значення x ^ 2, показує шанси "проти системи відхилень як неправдоподібних або більш неправдоподібних, ніж ця" - мови, яку ми визнаємо зараз, щодо його обчислених p-значень.

Невже Арбутно не пішов так далеко?

Сміливо розміщуйте свої коментарі як відповіді. Було б непогано побачити дискусію.


7
Ця стаття передбачає, що її використовував Лаплас, який встановив би нижню межу: en.wikipedia.org/wiki/…

9
Можна стверджувати, що Арбутнот (1710 р.) В Аргументі про Божественне Провидіння, взятому з постійної закономірності, що спостерігається у народженнях обох статей, можливо, міг би рахуватися. Він використовує модель монети ("хрест і купа") і спочатку розраховує ймовірність отримання рівно стільки голов, скільки хвостів, перш ніж вказує, що "шанси візьмуть за собою деякі умови, наступні середні, і схиляться до однієї стороною чи іншим. Але дуже малоймовірно (якби лише Шанс керував), що вони ніколи не дотягнуться до кінців "; ми можемо бачити, як він наближається до поняття р-значення там.
Glen_b -Встановити Моніку

4
Цікаво, що Девід у своєму списку jstor.org/stable/2685564?seq=1#page_scan_tab_contents припускає, що термін P-значення вперше було використано в 1943 році Демінгом у своїй книзі "Статистичне коригування даних". Я знаю, що ви після поняття не термін, але мені було цікаво побачити, коли термін нарешті з'явився.
mdewey

2
Хто вигадав, може бути важко дізнатися. Але хто винен у поточному використанні p-значень, безумовно, Фішер.
Карлос Сінеллі

1
Ми визначаємо p-значення як "ймовірність отримання результату в певному діапазоні (часто якесь значення або більш екстремальне для обчисленої статистики, наприклад, використовуваної Пірсоном у 1900 р.), Враховуючи, що певна гіпотеза правильна"?
Секст Емпірік

Відповіді:


19

Якоб Бернуллі (~ 1700) - Джон Арбутнот (1710) - Ніколаус Бернуллі (1710) - Авраам де Моївр (1718)

Про випадок Арбутнот 1 див. Пояснення в примітці нижче , також можна прочитати в « Доктрині про шанс» Де Моєва (1718) зі сторінки 251–254, яка ще більше розширює цей напрямок мислення.

De Moivre робить два кроки / просування:

  1. Нормальне наближення розподілу Бернуллі, що допомагає легко обчислити ймовірності результатів, що знаходяться в певному діапазоні або поза ним. У розділі перед прикладом про справу Арбутнота де Моївре пише про його наближення (тепер його називають гауссовим / нормальним розподілом) для розподілу Бернуллі. Це наближення дозволяє легко обчислити p-значення (що Арбутнот не міг зробити).

  2. Узагальнення аргументації Арбутнота. Він зазначає, що "цей спосіб міркування також може бути корисно застосований в деяких інших дуже цікавих запитах". (що може дати частковий кредит Де Моєрре за те, що він бачив загальну застосовність аргументу)


  • За словами де Moivre, Якоб Бернуллі писав про цю проблему у своєму Ars Conjectandi . Де Моївре називає це англійською мовою: «Призначення меж, в межах яких, повторюючи експерименти, ймовірність події може наближатися нескінченно до заданої ймовірності», але оригінальний текст Бернуї - на латині. Я не знаю достатньої латини, щоб можна було зрозуміти, чи писав Бернуллі про таке поняття, як значення p або більше схоже на закон великих чисел. Цікаво зазначити, що Бернуї стверджує, що мав ці ідеї протягом 20 років (а також твір 1713 був опублікований після його смерті 1705, тому, здається, передує даті 1710, згаданій у коментарях @Glen_b для Арбутнота).

  • Одним із джерел натхнення для де-Moivre був Ніколаус Бернуї, який у 1712/1713 роках зробив розрахунки щодо ймовірності кількості народжених хлопчиків не менше 7037 та не більших 7363, коли 14000 - це кількість усього народжених дітей і ймовірність для хлопчика 18/35.

    (Номери цієї проблеми базувались на 80-річній статистиці для Лондона. Про це він писав у листах до П'єра Реймона де Монтморта, опублікованих у другій редакції (1713 р.) « Нарис Монморта», «Нарисована наука про небезпеку» .)

    Розрахунки, за якими я не зовсім дотримувався, виявились ймовірністю 43,58 до 1. (Використовуючи комп’ютер, який підсумовує всі терміни ймовірність двочлена від 7037 до 7363, я отримую 175: 1, тому я, можливо, неправильно трактував його роботу / розрахунок. )


1: Джон Арбутно писав про цей випадок у "Аргументі про божественне провидіння", узятому з постійної закономірності, що спостерігається при народженні обох статей (1710).

Пояснення аргументації Арбутнота: коефіцієнт народження хлопчик: дівчинка надзвичайно відрізняється від середини. Він не обчислює точно p-значення (що не є його метою), але використовує ймовірність отримати хлопчиків> дівчаток 82 рази підряд стверджуючи, що це число буде ще більш малим, коли ви вважаєте, що можна взяти менший діапазон і що це сталося більше, ніж у просто Лондоні і 82 роки він закінчує висновок, що це малоймовірно і що це повинно бути деяким (божественним) провидінням, щоб протистояти більшої смертності серед чоловіків, щоб нарешті виявитись рівними чоловіками та жінками.

128214836000000000000000000000

Арбутно: тоді Шанс А буде поблизу нескінченно малої кількості, принаймні менше, ніж будь-яка Фракція, що присвоюється. Звідси випливає, що керує саме Мистецтво, а не Шанс.


Автор StackExchangeStrike


Можливо, історія зворотної ймовірності Ендрю Дейла може допомогти більше. (У пошуках перекладу Бернуллі я виявив, що він переклав відповідний уривок, згаданий де Moivre). У перші дні ця обернена ймовірність, що тепер вважається більш баєсівською технікою, могла бути досить частою інструментом інтерпретації та використання.
Секст Емпірік

3

У мене є три допоміжні посилання / аргументи, які підтримують дату ~ 1600-1650 для формально розробленої статистики та набагато раніше для просто використання ймовірностей.

Якщо ви приймаєте тестування гіпотез за основу, прогнозуючи ймовірність, то Інтернет-словник етимології пропонує таке:

" гіпотеза (n.)

1590-х років, "певна заява;" 1650-ті роки, "пропозиція, прийнята і сприйнята як належне, використовується як передумова", з середньофранцузької гіпотези та безпосередньо з пізньо-латинської гіпотези, з грецької гіпотези "підстава, основи, фундамент", отже, розширене використання "аргумент, припущення, "буквально" розміщення під, "від гіпо-" під "(див. гіпо-) + теза" розміщення, пропозиція "(від скороченої форми кореня PIE * dhe-" встановити, поставити "). Термін у логіці; вужчий науковий сенс - з 1640-х років. ".

Вікісховище :

"Записано з 1596 року, з середньофранцузької гіпотези, від пізньо-латинської гіпотези, від давньогрецької ὑπόθεσις (hupóthesis," підстава, основа аргументації, припущення "), буквально" розміщення під ", саме від ὑποτίθημι (hupotíthēmi," я поставив раніше, запропонуйте »), від ὑπό (hupó,« внизу ») + τίθημι (títhēmi,« ставлю, місце »).

Гіпотеза іменника (множинні гіпотези)

(науки) Використовується вільно, орієнтовна здогадка, що пояснює спостереження, явище чи наукову проблему, які можуть бути перевірені шляхом подальшого спостереження, дослідження та / або експерименту. Як науковий термін мистецтва див. Додану цитату. Порівняйте з теорією та цитатами, поданими там. цитати ▲

  • 2005 р., Рональд Х. Пайн, http://www.csicop.org/specialarticles/show/intelligent_design_or_no_model_creationism , 15 жовтня 2005 року:

    Занадто багато з нас викладали в школі, що вчений, намагаючись щось зрозуміти, спершу придумає «гіпотезу» (здогадку чи здогад - не обов’язково навіть здогадку про «освіту»). ... [Але т] слово "гіпотеза" повинно використовуватися в науці виключно для обґрунтованого, розумного, на основі знань пояснення того, чому якесь явище існує чи відбувається. Гіпотеза може бути ще неперевіреною; може бути вже випробуваний; можливо, були підроблені; можливо, ще не підроблені, хоча перевірені; або, можливо, безліч разів тестували безліч способів, не підробляючи їх; і може стати загальновизнаним науковим співтовариством. Розуміння слова "гіпотеза", яке використовується в науці, вимагає зрозуміти принципи, що лежать в основі Оккама " s Думка Бритви та Карла Поппера щодо "фальсифікованості" - включаючи думку про те, що будь-яка поважна наукова гіпотеза повинна, в принципі, бути "здатною" бути доведеною помилковою (якщо вона насправді має бути просто неправильною), але ніколи не можна довести, що це правда. Одним з аспектів правильного розуміння слова "гіпотеза", що використовується в науці, є те, що лише малий відсоток гіпотез може колись стати теорією ".

Про вірогідність та статистику Вікіпедія пропонує:

" Збір даних

Відбір проб

Коли не можуть бути зібрані повні дані перепису, статистики збирають вибіркові дані, розробляючи конкретні проекти експериментів та зразки опитування. Сама статистика також пропонує інструменти для прогнозування та прогнозування за допомогою статистичних моделей. Ідея робити висновки на основі вибіркових даних почалася приблизно в середині 1600-х рр. У зв'язку з оцінкою кількості населення та розробкою попередників страхування життя . (Довідка: Wolfram, Stephen (2002). Новий вид науки. Wolfram Media, Inc. p. 1082. ISBN 1-57955-008-8).

Щоб використовувати зразок як орієнтир для цілого населення, важливо, щоб він справді представляв загальну сукупність. Представницька вибірка запевняє, що умовиводи та висновки можуть безпечно поширюватися від вибірки на цілу сукупність. Основна проблема полягає у визначенні того, наскільки обраний зразок насправді репрезентативний. Статистика пропонує методи для оцінки та виправлення будь-яких упереджень у межах вибірки та процедур збору даних. Існують також методи експериментального проектування експериментів, які можуть зменшити ці проблеми на початку дослідження, посилюючи його здатність розпізнавати істини про населення.

Теорія вибірки є частиною математичної дисципліни теорії ймовірностей. Імовірність використовується в математичній статистиці для вивчення розподілу вибірки вибіркової статистики та, загалом, властивостей статистичних процедур. Використання будь-якого статистичного методу справедливо, коли розглянута система або сукупність задовольняє припущенням методу. Різниця в точці зору між класичною теорією ймовірностей та теорією вибірки полягає приблизно в тому, що теорія ймовірностей починається з заданих параметрів загальної сукупності для виведення ймовірностей, що стосуються вибірок. Однак статистичні умовиводи рухаються у зворотному напрямку - індуктивно виводячи із зразків параметри більшої чи загальної сукупності .

З "Wolfram, Stephen (2002). Новий вид науки. Wolfram Media, Inc., стор. 1082.":

" Статистичний аналіз

• Історія. Деякі обчислення шансів на випадкові ігри були зроблені ще в античності. Починаючи з приблизно 1200-х років все більш детальні результати, засновані на комбінаторному перерахуванні ймовірностей, були отримані містиками та математиками, систематично правильні методи були розроблені в середині 1600-х та на початку 1700-х років. Ідея робити висновки з вибіркових даних виникла в середині 1600-х років у зв'язку з оцінкою кількості населення та розробкою попередників страхування життя. Метод усереднення для виправлення випадкових помилок спостереження почав застосовуватися, насамперед, в астрономії, в середині 1700-х років, тоді як розміщення найменших квадратів та поняття розподілу ймовірностей стали встановлені близько 1800 р. Імовірнісні моделі, засновані на випадкові коливання між особами почали застосовуватися в біології в середині 1800-х років, і багато класичних методів, які зараз використовуються для статистичного аналізу, були розроблені в кінці 1800-х і на початку 1900-х років у контексті сільськогосподарських досліджень. У фізиці принципово ймовірнісні моделі були центральними для впровадження статистичної механіки наприкінці 1800-х років та квантової механіки на початку 1900-х років.

Інші джерела:

"Цей звіт, в основному нематематичний термін, визначає значення p, узагальнює історичні джерела підходу p значення до тестування гіпотез, описує різні застосування p≤0,05 у контексті клінічних досліджень та обговорює появу p≤ 5 × 10−8 та інші значення у вигляді порогових значень для геномних статистичних аналізів ".

У розділі "Історичне походження" зазначено:

"Опубліковані роботи з використання понять вірогідності для порівняння даних з науковою гіпотезою можна простежити століттями. Наприклад, на початку 1700-х років лікар Джон Арбутно проаналізував дані про хрещення в Лондоні протягом 1629–1710 років і зауважив, що кількість чоловічих народжень перевищувала жіночу народжуваність у кожному досліджуваному році. Він повідомив що якщо припустити, що баланс чоловічих та жіночих народжень ґрунтується на випадковості, то ймовірність спостерігати надлишок чоловіків понад 82 поспіль років - 0,582 = 2 × 10–25, або менше, ніж один у септиліона (тобто один на трильйон трильйонів) шансів.[1]

[1]. Арбутнотт Дж. Аргумент божественного провидіння, взятий з постійної регулярності спостерігав у народженнях обох статей. Філ Транс 1710; 27: 186–90. doi: 10.1098 / rstl.1710.0011 опубліковано 1 січня 1710 року

"Р-значення давно пов'язані з медициною та статистикою. Джон Арбутнот та Даніель Бернуллі були обома лікарями, крім того, що вони були математиками, і їх аналіз статевих співвідношень при народженні (Арбутнот) та схильність до орбіт планет (Бернуллі) забезпечують ці два" найвідоміші ранні приклади тестів на значимість . Якщо їх повсюдність у медичних журналах є стандартом, за яким їх судять, значення P також є надзвичайно популярними в медичній професії. З іншого боку, вони підлягають регулярні критики з боку статистиків і лише неохоче захищали Наприклад, десяток років тому видатні біостатисти, покійний Мартін Гарднер та Дуг Альтман145789разом з іншими колегами організували успішну кампанію, щоб переконати Британський медичний журнал робити менший акцент на P-значеннях і більше на довірчих інтервалах. Журнал "Епідеміологія" їх взагалі заборонив. Останнім часом напади навіть з’явилися в популярній пресі . Значення P, таким чином, здається, є відповідною темою для Журналу епідеміології та біостатистики. Цей нарис представляє особистий погляд на те, що, якщо що, можна сказати, щоб захистити їх.10,11

Я пропоную лише обмежений захист P-значень. ... ".

Список літератури

1 Hald A. A history of probability and statistics and their appli- cations before 1750. New York: Wiley, 1990.
2 Shoesmith E, Arbuthnot, J. In: Johnson, NL, Kotz, S, editors. Leading personalities in statistical sciences. New York: Wiley, 1997:7–10. 
3 Bernoulli, D. Sur le probleme propose pour la seconde fois par l’Acadamie Royale des Sciences de Paris. In: Speiser D,
editor. Die Werke von Daniel Bernoulli, Band 3, Basle:
Birkhauser Verlag, 1987:303–26. 
4 Arbuthnot J. An argument for divine providence taken from
the constant regularity observ’d in the births of both sexes. Phil Trans R Soc 1710;27:186–90. 
5 Freeman P. The role of P-values in analysing trial results. Statist Med 1993;12:1443 –52. 
6 Anscombe FJ. The summarizing of clinical experiments by
significance levels. Statist Med 1990;9:703 –8.
7 Royall R. The effect of sample size on the meaning of signifi- cance tests. Am Stat 1986;40:313 –5.
8 Senn SJ. Discussion of Freeman’s paper. Statist Med
1993;12:1453 –8.
9 Gardner M, Altman D. Statistics with confidence. Br Med J
1989.
10 Matthews R. The great health hoax. Sunday Telegraph 13
September, 1998. 
11 Matthews R. Flukes and flaws. Prospect 20–24, November 1998.

@Martijn Weterings : "Чи було Пірсоном у 1900 році відродження чи раніше ця ( частістська ) концепція з'явилася раніше? Як Джейкоб Бернуллі думав про свою" золоту теорему "у частолюбському розумінні чи в байєсівському розумінні (про що говорить і чи є Ars Conjectandi? є більше джерел)?

Американська статистична асоціація має веб-сторінку з історії статистики, на якій поряд з цією інформацією є плакат (відтворений частиною нижче) під назвою "Хронологія статистики".

  • AD 2: Докази перепису, завершеного під час династії Хань, збереглися.

  • 1500-ті: Джироламо Кардано обчислює ймовірність різних рулонів кісток.

  • 1600-ті роки: Едмунд Галлі пов'язує рівень смертності з віком і розробляє таблиці смертності.

  • 1700-ті роки: Томас Джефферсон керує першим переписом США.

  • 1839: Створена Американська статистична асоціація.

  • 1894: Термін «стандартне відхилення» введений Карлом Пірсоном.

  • 1935: Р. А. Фішер публікує «Дизайн експериментів».

Часткова хронологія статистики

У розділі "Історія" веб-сторінки Вікіпедії " Закон великих чисел " пояснюється:

"Італійський математик Героламо Кардано (1501–1576)заявив без доказів того, що точність емпіричної статистики, як правило, покращується із кількістю випробувань. Потім це було оформлено як закон великої кількості. Спеціальна форма LLN (для бінарної випадкової величини) вперше була доведена Якобом Бернуллі. Йому знадобилося понад 20 років, щоб розробити достатньо суворий математичний доказ, який був опублікований у його творі Ars Conjectandi («Мистецтво кон’юнктури») у 1713 році. Він назвав це своєю «Золотою теоремою», але він загалом став відомим як «Теорема Бернуллі». Це не слід плутати з принципом Бернуллі, названим на честь племінника Якова Бернуллі Даніела Бернуллі. У 1837 р. С.Д. Пуассон далі описав його під назвою "la loi des grands nombres" ("Закон великої кількості"). Після цього було відомо під обома назвами, але "

Після того, як Бернуллі та Пуассон опублікували свої зусилля, інші математики також внесли свій внесок у вдосконалення закону, включаючи Чебишева, Маркова, Бореля, Кантеллі, Колмогорова та Хінчіна ".


Питання: "Чи був Пірсон першою людиною, яка задумала p-значення?"

Ні, напевно, ні.

У " Звіті ASA про p-значення: контекст, процес та мета " (09 червня 2016 р.) Від Wasserstein та Lazar, doi: 10.1080 / 00031305.2016.1154108 є офіційна заява про визначення p-значення (яке немає сумніви, не узгоджені всіма дисциплінами, що використовують або відкидають значення p), яке звучить:

" . Що таке р-значення?

Неофіційно р-значення - це ймовірність за вказаною статистичною моделлю, що статистичний підсумок даних (наприклад, середня різниця вибірки між двома порівняними групами) буде рівним або більш крайнім, ніж його спостережуване значення.

3. Принципи

...

6. Сама по собі p-величина не дає хорошої міри доказів щодо моделі чи гіпотези.

Дослідники повинні визнати, що значення p без контексту чи інших доказів надає обмежену інформацію. Наприклад, значення р поблизу 0,05, взяте само собою, дає лише слабкі докази проти нульової гіпотези. Так само відносно велике р-значення не означає доказів на користь нульової гіпотези; багато інших гіпотез можуть однаково або більше відповідати спостережуваним даним. З цих причин аналіз даних не повинен закінчуватися обчисленням p-значення, коли інші підходи є доцільними та здійсненими. "

Відхилення нульової гіпотези, ймовірно, відбулося задовго до Пірсона.

Сторінка Вікіпедії на ранніх прикладах перевірки нульової гіпотези говорить:

Ранній вибір нульової гіпотези

Пол Міл стверджував, що гносеологічне значення вибору нульової гіпотези значною мірою не визнано. Коли нульова гіпотеза спрогнозована теорією, точнішим експериментом буде більш суворий тест основної теорії. Коли нульова гіпотеза за замовчуванням «не має різниці» або «немає ефекту», точнішим експериментом є менш суворий тест теорії, який мотивував виконання експерименту. Отже, вивчення походження останньої практики може бути корисним:

1778 рік: П'єр Лаплас порівнює народжуваність хлопчиків і дівчат у багатьох європейських містах. Він констатує: "природно зробити висновок, що ці можливості майже в одному співвідношенні". Таким чином, нікчемна гіпотеза Лапласа про те, що народжуваність хлопчиків і дівчаток повинна бути однаковою, отримуючи "загальноприйняту мудрість".

1900 рік: Карл Пірсон розробляє тест на квадрат чі, щоб визначити, "чи дана форма кривої частоти ефективно описує зразки, взяті з даної сукупності". Таким чином, нульовою гіпотезою є те, що популяція описується деяким розподілом, передбаченим теорією. Він використовує в якості прикладу цифри п’ять і шістдесят у даному викиданні кісток Weldon.

1904: Карл Пірсон розробляє концепцію "надзвичайних ситуацій", щоб визначити, чи результати не залежать від конкретного категоріального чинника. Тут нульовою гіпотезою є за замовчуванням, що дві речі не пов'язані між собою (наприклад, утворення рубців та смертність від віспи). Нульова гіпотеза в цьому випадку вже не передбачається теорією чи звичайною мудрістю, а натомість є принципом байдужості, який спонукає Фішера та інших до відмови від використання "обернених ймовірностей".

Незважаючи на те, що будь-яку людину зараховують за відмову від нульової гіпотези, я не вважаю за доцільне позначати їх " виявленням скептицизму на основі слабкої математичної позиції".


Я шукав твір Даніела Бернуї (друге видання - 1808, але сама робота - з 1734) "RECHERCHES PHYSYQUES ET ASTRONOMIQUES, sur le problème offersé pour la seconde fois par l'Académie Royale des Sciences de Paris: Quelle est la викликати статура де l'inclinaison дез плани дез Orbites де Planetes пар раппорт план а.о. де l'Екватор - де - ла революції їх Солей Autour де син сокиру, і d'où Vient дія ле inclinaisons де КЕС Orbites sont différentes Entre Elles. е-Рар. ch / zut / wihibe / content / titleinfo / 13426461
Sextus

Тут згадується щось на кшталт ймовірності того, що нахил усіх шести планет відбувається в одному з 17 секторів, що становить . Це обчислення ймовірності, але не стільки р-значення. 1:175
Секст Емпірік
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.