Які "великі проблеми" в статистиці?


77

Математика має свої відомі Проблеми тисячоліття (і, історично, Гільбертові 23 ), питання, які допомогли сформувати напрямок поля.

Я мало маю уявлення, однак, якими будуть гіпотези Рімана та П проти НП у статистиці.

Отже, які загальні відкриті питання в статистиці?

Відредаговано, щоб додати: Як приклад загального духу (якщо не зовсім конкретики) відповіді, яку я шукаю, я знайшов натхненну лекцію Девіда Доного на «Конкурсі математики 21 століття» «Гільберта 23»: Високомірний аналіз даних: прокляття та благословення розмірності

Таким чином, потенційна відповідь може говорити про великі дані та чому це важливо, типи статистичних викликів високомірних позицій даних та методи, які потрібно розробити, або питання, на які потрібно відповісти, щоб допомогти вирішити проблему.


5
Дякуємо, що опублікували це. Це важлива (і потенційно надихаюча) дискусія.
whuber

Відповіді:


48

Великий питання повинен включати в себе основні питання статистичної методології або, оскільки статистика повністю про додатки, вона повинна стосуватися як статистики використовується з проблемами , важливими для суспільства.

Ця характеристика передбачає, що в будь-який розгляд великих проблем слід включити наступне:

  • Як найкраще провести випробування на наркотики . В даний час тестування класичної гіпотези вимагає багатьох формальних етапів вивчення. На пізніших (підтверджуючих) фазах економічні та етичні питання набувають великого розмаху. Чи можемо ми зробити краще? Чи повинні ми розміщувати сотні чи тисячі хворих у контрольних групах і тримати їх там, наприклад, до кінця дослідження, чи ми можемо знайти кращі способи виявити способи лікування, які справді діють, та доставити їх членам судового процесу (і інші) швидше?

  • Справлятися з упередженням наукових публікацій . Негативні результати публікуються набагато менше просто тому, що вони просто не досягають магічного p-значення. У всіх галузях науки потрібно знайти кращі способи вивести на світ науково важливі, а не лише статистично значущі результати. (Проблема численних порівнянь та подолання даних з великими розмірами є підкатегоріями цієї проблеми.)

  • Зондування меж статистичних методів та їх взаємозв'язків з машинним навчанням та машинним пізнанням . Неминучий прогрес у обчислювальній техніці зробить справжній AI доступним у наші життя. Як ми будемо програмувати штучний мозок? Яку роль можуть стати статистичне мислення та статистичне навчання у створенні цих досягнень? Як статистики можуть допомогти думати про штучне пізнання, штучне навчання, вивчати їх обмеження та досягати успіхів?

  • Розробка кращих способів аналізу геопросторових даних . Часто стверджується, що більшість або переважна більшість баз даних містять локальні посилання. Незабаром багато людей і пристроїв будуть розташовані в режимі реального часу за допомогою GPS та технологій стільникового телефону. Статистичні методи аналізу та використання просторових даних справді лише в зародковому стані (і, здається, переносяться на ГІС та просторове програмне забезпечення, яке зазвичай використовується нестатистами).


1
Які способи люди намагаються вирішити ці проблеми?
raegtin

3
@grautur: Це чотири чудових питання (плюс багато інших, тому що ваша відповідь стосується кожної відповіді в цій темі). Усі вони заслуговують на детальні відповіді, але тут для цього просто немає місця: будь-яке питання, будь-ласка!
whuber

3
Щодо першої кулі (випробування на наркотики): навіть люди, які в іншому випадку можуть не бути зацікавлені в медичних експериментах, повинні прочитати статтю NYTimes про нові наркотики, що обговорюються, щодо основних правил клінічних випробувань ( nytimes.com/2010/09/19/health/research/ … ). Статистично грамотний читач одразу побачить нестабільні наслідки щодо експериментальної конструкції та використання p-значень для прийняття рішень. Десь існує статистична резолюція до головоломки життя і смерті, описаної в цій статті.
whuber

26

У Майкла Джордана є коротка стаття під назвою « Які відкриті проблеми в байесівській статистиці»? , в якій він опитував купу статистиків за їх погляди на відкриті проблеми статистики. Я трохи підсумую тут (він же скопіювати та вставити), але, мабуть, найкраще просто прочитати оригінал.

Непараметричні та напівпараметричні

  • Для яких проблем байєсівська непараметрика корисна і чи варта турбуватися?
  • Девід Дансон: "Непараметричні моделі Байєса включають нескінченно багато параметрів, а пріори зазвичай вибираються для зручності за допомогою гіперпараметрів, встановлених на, здавалося б, розумних значеннях без належного об'єктивного або суб'єктивного обгрунтування".
  • "Кілька людей відмітили, що одне із привабливих застосувань часто-параметричних параметриків - це напівпараметричне висновок, де непараметричний компонент моделі є неприємним параметром. Ці люди вважали, що бажано буде чітко формулювати (частістську) теорію Байєсові напівпараметрики ".

Пріори

  • "Визволення залишається основним джерелом відкритих проблем".
  • "Аад ван дер Ваарт повернув об'єктивний Байєс на голову і вказав на відсутність теорії для" ситуацій, коли хочеться, щоб попереднє пройшло в задній частині ", а не" просто надання байєсівського підходу до розгладження ".

Байєсові / частістські стосунки

  • "Багато респондентів висловили бажання ще більше заплутувати байесовські / частолістські відносини. Це найчастіше виявлялося в контексті об'ємних моделей і даних, де не тільки суб'єктивні підходи до конкретизації пріорів важко реалізувати, але пріори зручності можуть бути (високо) вводить в оману ".
  • "Деякі респонденти висловились за неасимптотичну теорію, яка могла б більш повно розкрити передбачувані переваги байєсівських методів; наприклад, Девід Дансон: "Часто оптимістичну частоту частотистів отримують за допомогою процедур, які явно роблять набагато гірше в кінцевих зразках, ніж байєсівські підходи". "

Обчислення та статистика

  • Алан Гельфанд: "Якщо MCMC вже не є життєздатним для проблем, які люди хочуть вирішити, то яка роль INLA, варіаційних методів, підходів до ABC?"
  • "Кілька респондентів попросили більш ретельно інтегрувати обчислювальну та статистичну науку, зазначивши, що набір висновків, до яких можна дійти в будь-якій ситуації, є спільною функцією моделі, попереднього, даних та обчислювальних ресурсів, а також бажаючих для більш чіткого управління вигідними перевагами серед цих кількостей. Роб Касс підняв можливість поняття "інфекційна вирішуваність", коли деякі проблеми, як розуміється, не надто сподіваються (наприклад,вибір моделі в регресії, де "для скромної кількості даних, що піддаються нетривіального шуму, неможливо отримати корисні довірчі інтервали щодо коефіцієнтів регресії, коли існує велика кількість змінних, наявність або відсутність у моделі апріорі не визначено") і де є й інші проблеми ("певні функціонали, для яких існують корисні інтервали впевненості"), на які є надія ".
  • "Кілька респондентів, вибачаючись за певну невизначеність, висловили відчуття, що велика кількість даних не обов'язково передбачає велику кількість обчислень; скоріше, що якось інфекційна сила, присутня у великих даних, повинна переноситись на алгоритм і робити це можливим зробити менше обчислювальних кроків для досягнення задовільного (приблизного) інфекційного рішення ".

Вибір моделі та тестування гіпотез

  • Джордж Казелла: "Зараз ми робимо вибір моделі, але байєси, здається, не турбуються про властивості базування на вибраній моделі. Що робити, якщо це неправильно? Які наслідки встановлення достовірних регіонів для певного параметра коли ви вибрали неправильну модель? Чи можемо ми мати процедури з якоюсь гарантією? "β1
  • Необхідність додаткової роботи над теоретично-теоретичними основами при виборі моделі.
  • Девід Шпігельтер: "Як найкраще зробити перевірки на конфлікт попередніх даних та невід'ємною частиною байєсівського аналізу?"
  • Ендрю Гелман: "Для перевірки моделей ключовою відкритою проблемою є розробка графічних інструментів для розуміння та порівняння моделей. Графіка не лише для необроблених даних; скоріше, складні байєсівські моделі дають можливість для кращого та ефективнішого аналізу даних розвідувальних".

13

Я не впевнений, наскільки вони великі, але є сторінка Вікіпедії для невирішених проблем у статистиці. Їх перелік включає:

Висновок і тестування

  • Систематичні помилки
  • Допустимість оцінки Грейб-Векселя
  • Поєднання залежних p-значень у мета-аналізі
  • Проблема Берена - Фішера
  • Багаторазові порівняння
  • Відкриті проблеми в баєсівській статистиці

Експериментальний дизайн

  • Проблеми в латинських квадратах

Проблеми більш філософського характеру

  • Вибірка видової проблеми
  • Аргумент судного дня
  • Парадокс обміну

6

Як приклад загального духу (якщо не зовсім специфіки) відповіді, яку я шукаю, я знайшов натхненну лекцію Девіда Доного на конференції "Математичні виклики ХХІ століття": "23 роки" Гільберта:

Високомірний аналіз даних: прокляття та благословення розмірності


2
Можна запропонувати вам відредагувати своє основне запитання, щоб включити цю інформацію?
russellpierce

4

У Mathoverflow є подібне питання щодо великих проблем в теорії ймовірностей .

З цієї сторінки виходить, що найбільші питання стосуються самовиключення випадкових прогулянок і перебоїв.


1
Я думаю, що статистика є окремою областю від теорії ймовірностей.
raegtin

3
@raegtin - Я не думаю, що теорія ймовірностей не відрізняється від статистики, скоріше це теорія. "Статистика" - це застосування теорії ймовірностей до інфекційних проблем (тобто практики).
ймовірністьлогічний


3

Моєю відповіддю буде боротьба між частофілістською та байєсівською статистикою. Коли люди запитують вас, у що ви «вірите», це не добре! Особливо для наукової дисципліни.


2
Немає нічого поганого в тому, що вчений "вірить" у щось, тим більше, що байєсівська ймовірність являє собою ступінь віри чи знань щодо правдивості певного твердження.
Дікран Марсупіал

2
... Проблема виникає лише тоді, коли вчений не може розрізнити переконання і факт. Немає нічого ненаукового в переконанні, що байєсська чи частолістська статистика є вищою, оскільки немає об'єктивного тесту, який би міг вирішити відповідь (AFAIK), тому вибір значною мірою є суб'єктивним та / або питанням "коней на курси".
Дікран Марсупіал

@propofol - Я погоджуюся, що слово "вірити" не є підходящим поняттям для використання в статистиці - воно містить неправильні різновиди конотацій. Інформація - це набагато більш відповідне слово, яке я думаю (тобто "яка у вас інформація?"). Це не змінює математику чи теореми про оптимальність байєсівського аналізу, але надає їм належного значення з точки зору того, як вони насправді використовуються. наприклад, знання фізичної теорії чи причинного механізму - це інформація, а не віра.
ймовірністьлогічний
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.