Вимірювання регресії до середнього в попаданні додому

11

Кожен, хто слідкує за бейсболом, ймовірно, чув про нестандартне виконання MVP типу Жозе Баутіста в Торонто. За чотири роки тому він забивав приблизно 15 домашніх пробіжок за сезон. Минулого року він потрапив до 54, кількість перевершила лише 12 гравців в історії бейсболу.

У 2010 році йому виплатили 2,4 мільйона, і він просить у команди 10,5 мільйонів за 2011 рік. Вони пропонують 7,6 мільйона. Якщо він зможе повторити це в 2011 році, він буде легко вартий будь-якої суми. Але які шанси на нього повторюються? Наскільки важко ми можемо очікувати, що він до кінця регресує? Скільки його виступу, як ми можемо очікувати, було обумовлено випадковістю? Що ми можемо очікувати, що його загальний регрес до середнього рівня за 2010 рік? Як мені це зробити?

Я бавився з базою баз бейсболу Lahman і видавив запит, який повертає додому загальні суми для всіх гравців за попередні п’ять сезонів, у яких було щонайменше 50 атлетиків за сезон.

Таблиця виглядає приблизно так (зауважте Хосе Баутіста у рядку 10)

     first     last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010
1    Bobby    Abreu      15      16      20      15      20
2   Garret Anderson      17      16      15      13       2
3  Bronson   Arroyo       2       1       1       0       1
4  Garrett   Atkins      29      25      21       9       1
5     Brad   Ausmus       2       3       3       1       0
6     Jeff    Baker       5       4      12       4       4
7      Rod  Barajas      11       4      11      19      17
8     Josh     Bard       9       5       1       6       3
9    Jason Bartlett       2       5       1      14       4
10    Jose Bautista      16      15      15      13      54

і повний результат (232 рядки) доступний тут .

Я справді не знаю, з чого почати. Чи може хтось вказати мене в правильному напрямку? Деякі відповідні теорії та команди R були б особливо корисними.

Спасибі ласкаво

Томмі

Примітка. Приклад трохи надуманий. Домашні вибори безумовно не найкращий показник вартості гравця, а підсумки домашнього бігу не враховують різну кількість шансів за сезон, що тісто має шанс потрапити на домашні пробіги (виступи в складі). Це також не відображає, що деякі гравці грають на більш сприятливих стадіонах, і середній час вдома в лізі змінюється рік за роком. І т.д.

r regression modeling

— TMOD
джерело

2

Бейсбол є улюбленим джерелом прикладів американських статистиків, тому пошук Google (/ вченого) містить декілька релевантних статей, наприклад, Morrison and Schmittlein (1981) jstor.org/stable/2630890 . Я залишу це комусь більш знайомому з бейсболом і R, щоб відповісти на ваше запитання.

— onestop

1

Я б також запропонував вам ознайомитись з роботою Дж. К. Бредбері та його блогом Sabernomics, sabernomics.com/sabernomics . Його книга про вимірювання вартості гравця, ймовірно, буде розуміти, які характеристики є пророкуючими для майбутньої продуктивності.

— Енді Ш

2

Проблема, про яку йдеться, трохи нагадує проблему, що стосується чужих людей , але не у звичайному розумінні людей, що вижили. Для включення дивовижного результату (наприклад, більш чужих) вам знадобиться "розподіл вибірки" з важким хвостом (результат Хосе значно більше ніж 3 стандартні відхилення від його середнього за минулі дані), тож це може допомогти вам краще підходити до даних, і враховувати це в передбаченні.

— ймовірністьлогічний

Якщо ви розглядаєте невеликий ярлик на додаток до всіх більш складних коментарів, що з’являються тут, є Тест Діксона для випускників, який ви можете виконати на вибірці аж до 4. Див. Cee.vt.edu/ewr/environmental/teach/smprimer /

— outlier

3

Я думаю, що напевно є байєсівська усадка або попередня корекція, яка може допомогти передбаченню, але ви можете також розглянути ще одну проблему ...

Подивіться гравців в історію, а не лише останні кілька років, які провели сезони проривів після пари в майорах (драматичні збільшення, можливо, в 2 рази), і подивіться, як вони зробили в наступному році. Цілком можливо, що ймовірність збереження продуктивності є правильним прогноктором.

Існує багато способів розглянути цю проблему, але, як сказав mpiktas, вам знадобиться більше даних. Якщо ви просто хочете розібратися з останніми даними, тоді вам доведеться переглянути загальну статистику ліги, виборців, проти яких він працює, це складна проблема.

А далі просто розглядаємо власні дані Баутіста. Так, це був його найкращий рік, але він також вперше після 2007 року мав понад 350 АБ (569). Ви можете розглянути можливість перетворення відсоткового збільшення продуктивності.

— Джон
джерело

3

Ви можете пристосувати модель до цих даних самостійно і отримати прогнози, які враховують регресію до середнього рівня, використовуючи змішані (багаторівневі) моделі. Прогнози таких моделей пояснюють середній рівень регресу. Навіть не знаючи майже нічого про бейсбол, я не знаходжу результатів, я мав жахливо правдоподібний характер, оскільки, як ви кажете, модель дійсно потребує врахування інших факторів, таких як поява плити.

Я думаю, що модель Пуассона зі змішаними ефектами була б більш підходящою, ніж лінійна змішана модель, оскільки кількість домашніх пробігів - це підрахунок. Дивлячись на надані вами дані , гістограма hrпоказує, що вона сильно позитивно перекошена, що говорить про те, що лінійна змішана модель не буде працювати добре і включає досить велику кількість нулів, спочатку з або без перетворення журналу.

Ось код, який використовує lmerфункцію з пакету lme4 . Створивши змінну ідентифікатора для ідентифікації кожного гравця та змінивши їх у форматі "довгий", як mpiktas, зазначений у його відповіді, (я це зробив у Stata, оскільки я не маю нічого хорошого в управлінні даними в R, але ви могли це зробити в пакет електронних таблиць):

Year.c <- Year - 2008   # centering y eases computation and interpretation
(M1 <- lmer(HR ~ Year.c + (Year.c|ID), data=baseball.long, family=poisson(log), nAGQ=5))

Це підходить для моделі з посиланням на журнал, що дає експоненціальну залежність частоти показів від року, яка може змінюватися в залежності від гравців. Можливі й інші функції зв'язку, хоча ідентифікаційне посилання призвело до помилки через негативно встановлені значення. Хоча, посилання на sqrt працювало нормально, і має менший BIC та AIC, ніж модель із посиланням на журнал, тож воно може бути краще підходить. Прогнози щодо показника частоти показів у 2011 році залежать від обраної функції посилань, особливо для гравців, таких як Bautista, чий показник часто змінився останнім часом.

Я боюся, що мені не вдалося реально реалізувати подібні прогнози lme4. Мені більше знайома Stata, яка дозволяє дуже легко отримати прогнози на спостереження з пропущеними значеннями для результату, хоча xtmelogit, здається, не пропонує будь-якого вибору функції посилання, крім журналу, який дав прогноз 50 для Bautista's Додому працює в 2011 році. Як я вже сказав, я не вважаю це дуже правдоподібним. Буду вдячний, що хтось міг би показати, як генерувати прогнози на 2011 рік із наведених вище lmerмоделей.

Модель авторегресії , такі як AR (1) для помилок гравець рівня може бути цікава, але я не знаю , як поєднати таку структуру зі змішаною моделлю Пуассона.

— одна зупинка
джерело

використовуючи функцію розплаву з переформатування пакетів, перетворення в довгий формат - це один рядок у R, розплав (дані, id = 1: 2).

— mpiktas

Цікавим розширенням / альтернативою цього є встановлення ієрархічної моделі з розподілом вибірки Посія з вибірковим параметром швидкості (1 швидкість на рік), але розподілом вибірки вибірки Коші для параметра швидкості (замість звичайної або нормальної суміші). Розподіл Коші дозволить статися до надзвичайної події (шляхом вибірки великого параметра швидкості). Проміжним випадком (між нормальним та Коші) є розподіл t. (Коші легше проби, оскільки він може використовувати зворотний метод CDF).

— ймовірністьлогічний

2

Вам потрібні додаткові дані про гравців та їх характеристики у часовий проміжок, у який ви маєте дані про домашні пробіжки. Для першого кроку додайте певні часові характеристики, такі як вік гравців та їх досвід. Тоді ви можете використовувати моделі даних HLM або панелі даних. Вам потрібно буде підготувати дані у формі:

    First Last  Year HR Experience Age
1.  Bobby Abreu 2005 15     6      26

Тоді була б найпростіша модель (функція lme - з пакету nlme )

lme(HR~Experience,random=~Experience|Year,data=your_data)

Ця модель в значній мірі покладається на припущення, що домашній номер кожного гравця покладається лише на досвід, який дозволяє певну мінливість. Напевно, це буде не дуже точно, але ви принаймні отримаєте відчуття, наскільки малоймовірними є цифри Жозе Баутіста порівняно із середнім гравцем. Цю модель можна вдосконалити, додавши характеристики інших гравців.

— mpiktas
джерело

Я б не сказав, що @TMOD потребує більше даних, просто прогнози, можливо, будуть більш точними, якби у @TMOD було більше даних. У запитанні є достатньо інформації для створення прогнозу.

— ймовірністьлогічного

@probabilityislogic, так, є достатньо інформації для створення прогнозу, але тоді модель матиме лише перехоплення.

— mpiktas

необов'язково, до цих даних можна підходити модель AR (1) або AR (2)

— ймовірністьлогічний

@probabilityislogic, ах так, ти маєш рацію.

— mpiktas

2

Ви можете перевірити Блог книги.

Том Танго та інші автори "Книги: Граючи відсотки в бейсболі", мабуть, найкращі джерела саберметрії там. Зокрема, вони люблять регресувати до середнього. Вони придумали систему прогнозування, розроблену як найбільш основну прийнятну систему (Марсель), і вона покладається майже виключно на регресію в середньому.

Я вважаю, що одним із методів було б використовувати такий прогноз, щоб оцінити справжній талант, а потім знайти відповідний розподіл навколо цього середнього таланту. Після того, як ви матимете це, кожен вигляд пластини буде подібний до випробування Бернуллі, тож біноміальний розподіл може зайняти вас решту шляху.

— Майкл Макгован
джерело

1

БЮРЗ, з 2011 по 2014 рік він потрапив у 43, 27, 28 та 35.

Це досить близько до його середнього показника в 162 іграх - 32 (що, звичайно, включає ці значення), і приблизно 1 СД під 54 в 2010 році.

Виглядає як регресія до середнього в дії: Екстремальна група, побудована за рахунок використання великих букв на галасливих суб'єктах (1 у цьому випадку), відхиляється від їх групи, означає випадково.

http://www.baseball-reference.com/players/b/bautijo02.shtml

— Тім
джерело