Я думаю, що важливо пам’ятати, що різні методи хороші для різних речей, і тестування значимості - не все, що є у світі статистики.
1 і 3) ЕБ, мабуть, не є дійсною процедурою тестування гіпотез, але це також не передбачається.
Дійсність може бути багатьма речами, але ви говорите про суворий експериментальний дизайн, тому ми, мабуть, обговорюємо тест гіпотези, який повинен допомогти вам прийняти правильне рішення з певною довгостроковою частотою. Це суворо дихотомічний режим "так / ні", який корисний в основному людям, які мають прийняти рішення "так / ні". Дуже багато класичної роботи над цим дуже розумними людьми. Ці методи мають гарну теоретичну обґрунтованість, якщо вважати, що всі ваші припущення мають місце і & c. Однак ЕБ, безумовно, не призначений для цього. Якщо ви хочете використовувати класичні методи NHST, дотримуйтесь класичних методів NHST.
2) ЕБ найкраще застосовувати в задачах, коли ви оцінюєте багато подібних змінних величин.
Сам Ефрон відкриває свою книгу « Масштабні висновки», в якій перелічено три чіткі епохи історії статистики, вказуючи, що ми зараз перебуваємо в
Епоха наукового масового виробництва, в якій нові технології, типізовані мікроматрицею, дозволяють одній команді вчених виробляти набори даних розміром, які Квітелет заздрив би. Але зараз затоплення даних супроводжується безліччю питань, можливо, тисячами оцінок або тестів гіпотез, на які статистику доручено відповідати разом; зовсім не те, що мали на увазі майстри-класики.
Він продовжує:
За своєю природою емпіричні аргументи Байєса поєднують у собі частістські та баєсові елементи при аналізі проблем повторної структури. Повторні структури - це саме те, чим відрізняється наукове масове виробництво, наприклад, на рівнях експресії, порівнюючи хворих і здорових суб'єктів для тисяч генів одночасно за допомогою мікроматеріалів.
Мабуть, найуспішніший останній додаток ЕБ limma
, доступний у Bioconductor . Це пакет R з методами оцінки диференціальної експресії (тобто мікромасив) між двома досліджуваними групами на десятки тисяч генів. Сміт показує, що їхні методи ЕБ дають t-статистику з більшою мірою свободи, ніж якби ви обчислювали регулярну генно-статистичну t-статистику. Використання EB тут "еквівалентно усадці прогнозованих відхилень вибірки до об'єднаної оцінки, що призводить до набагато більш стійкого висновку, коли кількість масивів невелика", що часто буває так.
Як Ефрон вказує вище, це не що інше, як те, що було розроблено класичним NHST, і ця установка зазвичай є більш дослідницькою, ніж підтверджуючою.
4) Як правило, ви можете бачити ЕВ як метод усадки, і він може бути корисний скрізь, коли усадка корисна
limma
Вище приклад згадує усадку. Чарльз Штейн дав нам дивовижний результат, що при оцінці засобів для трьох і більше речей існує оцінювач, який кращий, ніж використання спостережуваних засобів, . Оцінювач Джеймса-Штейна має вигляд при цьому а - константа. Цей оцінювач зменшує спостережувані засоби до нуля, і це краще, ніж використовувати в сильному сенсі рівномірно нижчого ризику.X1,...,Xkθ^JSi=(1−c/S2)Xi,S2=∑kj=1Xj,cXi
Ефрон і Морріс показали подібний результат для зменшення до об'єднаного середнього значення і ось до чого оцінюють EB. Нижче наводиться приклад, що я зробив зменшення рівня злочинності в різних містах методами ЕБ. Як ви бачите, більш екстремальні оцінки скорочуються на відстань у середньому. Менші міста, де ми можемо очікувати більшої дисперсії, отримують сильніші усадки. Чорна точка являє собою велике місто, яке в основному не отримало усадки. У мене є деякі симуляції, які показують, що ці оцінки справді мають менший ризик, ніж використання спостережуваних показників злочинності, пов'язаних з ПМЖ.X¯,
Чим більше схожих на кількісні показники, тим більше ймовірність усадки корисною. Книга, яку ви посилаєтеся, використовує показники хітів в бейсболі. Морріс (1983) вказує на кілька інших додатків:
- Розподіл доходів --- переписне бюро. Оцінки доходу від перепису на душу населення для кількох областей.
- Гарантування якості --- Bell Labs. Оцінює кількість відмов за різні періоди часу.
- Встановлення страхового тарифу. Оцінює ризик на випадок для груп застрахованих осіб або для різних територій.
- Вступ до юридичної школи Оцінює вагу балів за LSAT щодо ГДД для різних шкіл.
- Пожежна сигналізація --- NYC. Оцінює помилковий показник тривоги для різних місць сигналізації.
Все це проблеми паралельної оцінки, і наскільки я знаю, вони більше стосуються того, щоб зробити хороший прогноз того, що таке певна кількість, ніж про те, щоб визначити рішення "так / ні".
Деякі посилання
- Ефрон, Б. (2012). Широкомасштабні умовиводи: емпіричні методи Байєса для оцінки, тестування та прогнозування (т. 1). Cambridge University Press. Чикаго
- Efron, B., & Morris, C. (1973). Правило оцінки Штейна та його конкурентів - емпіричний підхід Байєса. Журнал Американської статистичної асоціації, 68 (341), 117-130. Чикаго
- James, W., & Stein, C. (1961, червень). Оцінка з квадратичною втратою. У працях четвертого Берклі-симпозіуму з математичної статистики та ймовірності (т. 1, № 1961, с. 361-379). Чикаго
- Морріс, CN (1983). Параметричні емпіричні умовиводи Байєса: теорія та застосування. Журнал Американської статистичної асоціації, 78 (381), 47-55.
- Сміт, GK (2004). Лінійні моделі та емпіричні методи Байєса для оцінки диференціальної експресії в експериментах з мікромасивом. Статистичні програми в генетиці та молекулярній біології Том 3, випуск 1, стаття 3.