EDIT: З моменту створення цієї публікації я перейшов до додаткової публікації тут .
Короткий зміст тексту нижче: Я працюю над моделлю і спробував лінійну регресію, трансформації Box Cox та GAM, але не досягнув особливого прогресу
Використовуючи R
, я в даний час працюю над моделлю , щоб передбачити успіх Малих бейсбольної ліги гравців на рівні вищої ліги (MLB). Залежна змінна, наступальна кар'єра перемагає вище заміни (oWAR), є проксі для успіху на рівні MLB і оцінюється як сума образливих внесків за кожну гру, в яку гравець бере участь протягом своєї кар'єри (детальніше тут - http : //www.fangraphs.com/library/misc/war/). Незалежні змінні - це z-набрані мінорні наступальні змінні ліги для статистики, які вважаються важливими прогнозами успіху на рівні вищої ліги, включаючи вік (гравці з більшим успіхом у молодшому віці, як правило, кращі перспективи), викреслюють показник [SOPct ], коефіцієнт вигулу [BBrate] та скориговане виробництво (глобальний показник наступального виробництва). Крім того, оскільки є кілька рівнів другорядних ліг, я включив фіктивні змінні для другорядного рівня гри (подвійний А, Високий А, Низький А, Новичок та Короткий сезон з Потрійним А [найвищий рівень до основних ліг] як еталонну змінну]). Примітка: Я змінив масштаб WAR, щоб бути змінною, яка переходить від 0 до 1.
Змінна розсіювач така:
Для довідки залежна змінна oWAR має такий графік:
Я почав з лінійної регресії oWAR = B1zAge + B2zSOPct + B3zBBPct + B4zAdjProd + B5DoubleA + B6HighA + B7LowA + B8Rookie + B9ShortSeason
і отримав наступні діагностичні діаграми:
Існують чіткі проблеми з відсутністю неупередженості залишків і відсутністю випадкових варіацій. Крім того, залишки не є нормальними. Результати регресії наведені нижче:
Дотримуючись порад у попередній темі , я спробував перетворення Box-Cox без успіху. Далі я спробував GAM з посиланням на журнал і отримав такі сюжети:
Оригінал
Новий діагностичний сюжет
Схоже, сплайни допомогли підігнати дані, але діагностичні діаграми все ще показують погану форму. EDIT: Я думав, що спочатку дивився на залишки та встановлені значення, але я був невірним. Діаграма, яку було показано спочатку, позначена як Оригінал (вище), а сюжет, який я завантажив після цього, позначений як Новий діагностичний сюжет (також вище)
моделі збільшилася
але результати, отримані командою gam.check(myregression, k.rep = 1000)
, не такі перспективні.
Хтось може запропонувати наступний крок для цієї моделі? Я радий надати будь-яку іншу інформацію, яку, на вашу думку, може бути корисною для розуміння прогресу, який я досяг до цього часу. Дякуємо за будь-яку допомогу, яку ви можете надати.