Які прориви у статистиці за останні 15 років?


56

Я досі пам’ятаю документ «Аналів статистики» про підвищення рівня Фрідмана-Хасті-Тібшірані та коментарі до цих же питань інших авторів (включаючи Фрейнда та Шапіра). У той час явно Підвищення розглядалося як прорив у багатьох аспектах: обчислювально здійсненний, ансамблевий метод, з чудовим, але загадковим виконанням. Приблизно в той же час SVM визріла, пропонуючи рамки, підкріплені твердою теорією та безліччю варіантів та застосувань.

Це було в дивовижні 90-ті. За останні 15 років мені здається, що багато статистичних даних були операцією з очищення та деталізації, але мають мало по-справжньому нових поглядів.

Тож я поставлю два питання:

  1. Чи пропустив я якийсь революційний / насіннєвий папір?
  2. Якщо ні, то чи існують нові підходи, які, на вашу думку, можуть змінити точку зору статистичного висновку?

Правила:

  1. Одна відповідь за повідомлення;
  2. Посилання та посилання вітаються.

PS: У мене є кілька кандидатів на перспективні прориви. Я опублікую їх пізніше.


5
Дивіться stats.stackexchange.com/q/1883/159 для подібного питання (яке було закрито як суб'єктивне та аргументативне).
Роб Хайндман

1
Я збирався виховувати ту саму нитку. Пахне дублікатом.
Дірк Еддельбуеттель

1
Це, безумовно, суб'єктивно, але хіба це все одно не добре для CW?
Крістофер Аден

1
Це було в більш тривалих часових масштабах. Я не думаю, що це дублікат. Що стосується аргументативного, це залежить від учасників. Я не намагаюся нагородити тут трофей, аби бути в курсі семінарних паперів, які я та інші могли пропустити. Оскільки правильної відповіді немає, я всі за КВ. Мені цікаво, що поки що всі відповіді стосуються байєсівських нововведень.
веселий

2
Це схоже на пост, який може бути вічно зібраним. Я думаю, що це може залишатися відкритим.
gung - Відновіть Моніку

Відповіді:


43

Відповідь настільки проста, що мені доведеться написати все це безглуздя, щоб зробити резюме дозволити мені його опублікувати: R


14

Я не впевнений, чи можна було б назвати це "проривом", але публікація теорії ймовірностей: Логіка науки Едвіна Джейнеса та Ларрі Бретторста, можливо, заслуговує на уваги. Деякі речі, які вони роблять тут, є:

1) показати еквівалентність між деякими ітераційними схемами "сезонного коригування" та байєсовою інтеграцією "параметру неприємності".

2) вирішив так званий «парадокс маргіналізації» - одними вважали «смерть байезіанства» та інші - «смерть неналежних пріорів».

3) ідея, що ймовірність описує стан знань про те, що судження є істинним чи хибним, на відміну від опису фізичної властивості світу .

Перші три глави цієї книги доступні безкоштовно тут .


2
На жаль, резолюція Джейнеса щодо парадоксу маргіналізації була хибною. Дивіться примітки Кевіна Ван Хорна про поводження з Джейнессом про парадокс маргіналізації , доступні тут .
Циан

1
@cyan - Зауважте, що, хоча його резолюція була недосконалою в деяких областях, його основні принципи вирішили це. Загальне правило власних пріорів та їх конвергентних меж означає, що mp не може виникнути. Недолік, швидше за все, через незавершеність книги протягом більшої частини другої. Мені подобається резолюція [тут] ( arxiv.org/abs/math/0310006 ) краща, ніж версія ksvh. коротший і загальніший.
ймовірністьлогічний

14

Як прикладний статистик та інколи мінорний автор програмного забезпечення, я б сказав:

WinBUGS (випущений 1997 р.)

Він заснований на BUGS, який був випущений більше 15 років тому (1989 р.), Але саме WinBUGS зробив байєсівський аналіз реально складних моделей доступними для значно ширшої бази користувачів. Див., Наприклад , Lunn, Spiegelhalter, Thomas & Best (2009) (та обговорення цього питання в статистиці медицини, т. 28, вип. 25 ).


2
Як це змінюється зараз, коли Stanнемає?
Арі Б. Фрідман

13

ЛАРС отримує мій голос. Він поєднує лінійну регресію з змінним вибором. Алгоритми для обчислення його зазвичай дають вам колекцію лінійних моделей, в - й один з яких має ненульові коефіцієнти для тільки регресорів, так що ви можете легко подивитися на моделі різної ступені складності.i ikii


Ви коли-небудь використовували ЛАРС? Я прошу, тому що я ніколи про це не чув і раніше це звучить дуже цікаво. Оригінальна стаття трохи довга (93 сторінки), тому я хотів би отримати певну думку, перш ніж я заглиблююся в неї.
Томек Тарчинський

@Tomek Tarczynski: Я вжив його в невеликій кількості. У Matlab є пакет (я впевнений, що в R є один або декілька), який я використав. Він також забезпечує рідкісний PCA, який мене більше зацікавив. Зізнаюся, я лише зняв папір. ;)
shabbychef

11

Введення функції втрат "внутрішньої невідповідності" та інших функцій втрат "без параметризації" в теорію рішень. Він має багато інших "приємних" властивостей, але я вважаю, що найкращий такий:

якщо найкраща оцінка за допомогою функції втрати внутрішньої невідповідності - , то найкраща оцінка будь-якої функції «один на один» , скажімо, є просто .θ e θ g ( θ ) g ( θ e )θθeθg(θ)g(θe)

Я думаю, що це дуже круто! (наприклад, найкраща оцінка коефіцієнта журналу - log (p / (1-p)), найкраща оцінка дисперсії - квадрат стандартного відхилення тощо тощо)

Улов? внутрішню розбіжність може бути досить складно виправити! (він включає мінімум () фунцію, коефіцієнт ймовірності та інтеграли!)

"Контр-улов"? ви можете «перевпорядкувати» проблему, щоб її було легше обчислити!

"Контр-контр-улов"? з'ясувати, як "перевпорядкувати" проблему може бути складно!

Ось декілька посилань, з яких я знаю, в яких використовується ця функція втрат. Хоча мені дуже подобається "внутрішня оцінка" частин цих статей / слайдів, у мене є деякі застереження щодо підходу "попередній довідник", який також описаний.

Тестування гіпотези Байєса: Довідковий підхід

Внутрішня оцінка

Порівнюючи звичайні засоби: нові методи старої проблеми

Комплексне об'єктивне оцінювання баєса та гіпотези


11

Я вважаю, що саме в межах 15-річного вікна є алгоритми контролю частоти помилкових виявлень . Мені подобається підхід 'q-value'.


1
Хм, цитований документ Бенджаміні-Хохберга JRSSB був опублікований у 1995 році, тому я просто боюсь за вікном! jstor.org/stable/2346101 Документ Storey, який ввів -значення, був 2002 року. dx.doi.org/10.1111/1467-9868.00346q
OneStop

9

Додаючи свої власні 5 центів, я вважаю, що найбільш значним проривом за останні 15 років стало стиснене зондування. LARS, LASSO та безліч інших алгоритмів потрапляють у цей домен, оскільки стиснене зондування пояснює, чому вони працюють, і поширює їх на інші домени.


1
Я дивився на стиснене зондування і, як нестатист, я постійно запитую себе: "Хіба це не просто обернена випадкова проекція?". Я знаю, що «просто» - це просте слово, яке можна легко кинути, але відчувається, що люди залишають, що здається, очевидними зв’язками між випадковою проекцією (близько 2000) та стиснутим зондуванням (близько 2004).
Уейн

9

Те, що має дуже мало спільного з самими статистичними даними, але приносить велику користь: зростаюча вогнева потужність комп’ютерів, що робить більш доступними набори даних та складніший статистичний аналіз, особливо в прикладних сферах.


8

Алгоритм очікування-розповсюдження для байєсівського висновку, особливо в класифікації Гаусса, був, мабуть, значним проривом, оскільки він забезпечує ефективний метод аналітичного наближення, який працює майже так само, як і обчислювально дорогі підходи на основі вибірки (на відміну від звичайного наближення Лапласа). Дивіться роботу Томаса Мінка та інших людей щодо дорожньої карти ЄП


ЕП здається крутим (хоча це все ще болить мені в голові). Чи все ще відсутні загальні гарантії конвергенції?
кон'югатприор

7

Ми можемо включити до цього подальшого розвитку 2011 року стосовно стохастичних часткових диференціальних рівнянь Ліндгрен, Руе та Ліндстрем
Ів


2

Хоча дещо більш загальне, ніж статистика, я думаю, що були досягнуті важливі досягнення у методах дослідження епродуктивних досліджень (RR) . Наприклад, розвиток R knittrіSweaveпакети та ноутбуки "R Markdown", поліпшення LyX та LaTeX значно сприяли обміну даними, співпраці, верифікації / валідації та навіть додатковому просуванню статистики. Реферовані документи у статистичних, медичних та епідеміологічних журналах рідко дозволяли легко відтворювати результати до появи цих відтворюваних методів дослідження / технологій. Зараз декілька журналів потребують відтворюваних досліджень, і багато статистиків використовують RR та код розміщення, їх результати та джерела даних в Інтернеті. Це також сприяло поглибленню наукових дисциплін даних та зробило статистичне навчання більш доступним.


1

На мою думку, стаття опублікована в 2011 році в журналі Science. Автори пропонують дуже цікавий показник асоціації між парою випадкових змінних, який добре працює у багатьох ситуаціях, коли подібні заходи не вдається (Пірсон, Спірмен, Кендалл). Дійсно приємний папір. Ось.


Здається, посилання розірвано.
dsaxton

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.