Рекомендації щодо нетехнічних, але глибоких статей у статистиці


24

Натхнення для цього питання походить з відомої статті пізнього Лео-Бреймана Статистичне моделювання: дві культури (доступний відкритий доступ). Автор порівнює те, що він вважає двома різними підходами до аналізу даних, торкаючись ключових ідей класичної статистики та машинного навчання. Однак стаття зрозуміла широкій аудиторії - імовірно, будь-кому, хто працює з даними, незалежно від того, чи проводили вони статистику на докторському рівні або лише пройшли вступний курс. Більше того, стаття є стимулюючою . Тобто, це легко породжує дискусію (про що свідчить серія жвавих коментарів, опублікованих у цьому ж номері).

Мені цікаво відкрити більше статей з цими якостями. Тобто статті, які:

  • Торкайтеся фундаментальних понять у статистиці / аналізі даних
  • Може бути зрозумілий широкій аудиторії з точки зору варіабельності науково-дослідної та формальної статистичної підготовки
  • Стимулюйте дискусію, чи то через прозріння чи суперечку

2
На сьогодні відповіді були дуже цікавими! Нехай вони йдуть. Звичайно, я не прийму жодної відповіді відповідно до meta.stats.stackexchange.com/questions/409/…
Річард Бордер,

2
Там немає Royal Road до статистики.
Аксакал

Відповіді:


15

Шмуелі, Галіт. "Пояснити чи передбачити?" Статистична наука (2010): 289-310.

Я вважаю, що це відповідає твоїм трьом точкам кулі.

У ньому йдеться про пояснювальне проти прогнозуючого моделювання (терміни мають бути поясненнями) і зазначає, що відмінності між ними часто не визнаються.

Це підкреслює, що залежно від мети моделювання (пояснювальної та прогнозної) можуть використовуватися різні стратегії побудови моделі, а різні моделі можуть бути обрані як "найкраща" модель.

Це досить вичерпний документ і приємне читання. Обговорення його узагальнено у публікації блогу Роб Дж. Хайндмана . Пов’язана дискусія щодо перехресної перевірки знаходиться в цій темі (з великою кількістю відгуків). Ще одне (без відповіді) питання на цю ж тему - це .


12

Леманн, Еріх Л. "Теорії Фішера, Неймана-Пірсона тестування гіпотез: одна теорія чи дві?" Журнал Американської статистичної асоціації 88.424 (1993): 1242-1249.

Багатьом це не відомо, але коли гіганти професії все ще були серед нас, вони не впоралися один з одним. Дебати щодо основ тестування гіпотез, чи то індуктивний чи дедуктивний, побачили деякі досить серйозні образи, що пролітали між Фішером з одного боку та Нейманом-Пірсоном з іншого. І питання ніколи не ставилося за їхнє життя.

Черездовго після того, як вони пройдуть все, Леман намагається подолати прогалину, і, на мою думку, робить гарну роботу, оскільки він показує, що підходи є взаємодоповнюючими, а не взаємовиключними. Це, до речі, сьогодні навчаються студенти. Вам потрібно знати декілька основних речей про тестування гіпотез, але в іншому випадку ви можете слідувати документу без проблем.


1
Дякую за цитування. Я колись задавав питання щодо передбачуваного конфлікту між підходами F та NP: stats.stackexchange.com/questions/112769 , і, незважаючи на багато уваги та обґрунтування, отримані ним, я все ще не переконаний у жодній із існуючих відповідей (і не став прийняти будь-який). Я планую повернутися до цієї нитки і почитати / поставити щедро чи щось таке, але ніколи не знайду часу; якщо ви знайомі з документом Леманна, я б закликав вас надати відповідь там.
амеба каже: Відновіть Моніку

@amoeba Я читав статті Леманна знову і знову, це дуже легко читається, але я не думаю, що я вивчив цю справу так ретельно, як ви. Тож коли б у вас був час, вам було б корисно перейти його і побачити його точку зору. Ви знайдете обговорення проблеми Беренса-Фішера особливо показовою.
JohnK

Дякую, що поділились. Можливо, все, що я чув, було досить однобічним, але все, що я чув про сера Рона Фішера, це те, що він був досить неприємною людиною, щоб сказати, щонайменше. У нього також були сумнівні думки щодо зв'язку між вживанням тютюну та раком легенів .
Філ

"Легкішою" альтернативою статті є Крістенсен, Рональд. "Тестування Фішера, Неймана, Пірсона та Байєса". Американський статистик 59.2 (2005): 121-126. Я вважав це приємним.
Річард Харді

9

Wilk, MB та Gnanadesikan, R. 1968. Методи побудови графіку ймовірностей для аналізу даних. Біометріка 55: 1-17. Jstor посилання, якщо у вас є доступ

Цей документ на момент мого написання майже 50 років, але все ще відчуває себе свіжим та новаторським. Використовуючи багату різноманітність цікавих та змістовних прикладів, автори уніфікують та розширюють різноманітні ідеї для побудови та порівняння розподілів, використовуючи рамки QQ (quantile-quantile) та PP (ймовірність-ймовірність). Поширення тут означають загалом будь-які набори даних або чисел (залишки, контрасти тощо), що виникають при їх аналізі.

Конкретні версії цих сюжетів налічують кілька десятиліть, найбільш очевидно нормальна ймовірність або нормальна кількість сюжетів. які є в цих термінах квантильно-квантовими сюжетами, а саме ділянками спостережуваних квантів проти очікуваних або теоретичних квантилів з вибірки однакового розміру від нормального (гауссового) розподілу. Але автори демонструють, скромно, але впевнено, що одні й ті самі ідеї можна легко поширити - і практично за допомогою сучасних обчислень - для вивчення інших видів квантилів та складання результатів автоматично.

Автори, тоді обидва в лабораторії Bell Telephone Laboratories, користувалися сучасними обчислювальними технологіями, і навіть багатьом університетам та науково-дослідним установам знадобилося десятиліття або близько того, щоб наздогнати. Навіть зараз ідеї в цьому документі заслуговують більш широкого застосування, ніж вони отримують. Це рідкісний вступний текст або курс, що включає будь-яку з цих ідей, крім звичайного сюжету QQ. Гістограми та графіки коробки (кожен часто дуже корисний, але, тим не менш, кожен незручний і обмежений декількома способами) продовжують залишатися основними скобами при введенні сюжетів розподілу.

На особистому рівні, хоча основні ідеї цього документу були знайомі більшу частину моєї кар’єри, мені подобається перечитувати його кожні пару років. Однією з вагомих причин є задоволення від того, як автори втілюють прості, але потужні ідеї для успішного використання серйозних прикладів. Ще однією вагомою причиною є те, що папір, написаний лаконічно, без найменшого сліду, натякає на розширення основних ідей. Не раз я переосмислював повороти основних ідей, які явно висвітлювались у бічних підказках та подальших коментарях.

Це не просто документ для тих, хто особливо цікавиться статистичною графікою, хоча, на мій погляд, він повинен включати всіх, хто цікавиться статистикою будь-якого типу. Він просуває способи роздумів про розподіли, які практично допомагають розвивати чиїсь статистичні навички та уявлення.


2
Це чудовий вибір. Я читав це кілька разів - як тільки я побачив імена авторів у вашій відповіді, я зрозумів, що це за папір, і відразу мені захотілося прочитати його ще раз. Я думаю, що у мене є десь його копія ...
Glen_b -Встановити Моніку

6

Іоанідіс, Джон Пенсіль "Чому більшість опублікованих досліджень є помилковими". PLoS Medicine (2005)

Іоаннідіс, Джон ПА "Як зробити більш опублікованими дослідження правдивими". PLoS Medicine (2014)

Повинно читати кожного дослідника / статистику / аналітика, який хоче уникнути небезпеки неправильного використання та інтерпретації статистики в дослідженнях. Стаття 2005 року була найбільш доступною в історії Публічної бібліотеки наук, і вона викликала багато суперечок та дискусій.


6

Tukey, JW (1960) Висновки проти рішень Technometrics 2 (4): 423-433

Цей документ базується на розмові Тукі після обіду, і є коментар, що "почалася значна дискусія", щоб вона відповідала принаймні третині ваших точкових точок.

Я вперше прочитав цей документ, коли я закінчував доктор технічних наук і оцінив його вивчення практичності аналізу даних.


Посилання не працює. Це працює
kjetil b halvorsen

5

Ефрон і Морріс, 1977, Парадокс Штейна в статистиці .

Ефрон і Морріс написали серію технічних робіт про оцінку Джеймса-Штейна в 1970-х роках, обрамляючи "парадокс" Штейна в контексті "Емпіричного Байєса". Документ 1977 року є популярним, опублікованим у Scientific American .

Це чудове читання.


3

Ну, незважаючи на більший інтерес до Роя Модель серед економістів (але я можу помилятися), його оригінальний документ "Деякі думки про розподіл заробітку" від 1951 року - це глибока та нетехнічна дискусія щодо проблеми самовибору. Цей документ послужив натхненням для моделей вибору, розроблених нобелівською премією Джеймсом Гекманом. Хоча старий, я думаю, що він відповідає твоїм трьом точкам кулі.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.