Я використовую LOESS регресійні моделі в R, і я хочу порівняти виходи 12 різних моделей з різними розмірами вибірки. Я можу описати фактичні моделі більш детально, якщо це допоможе у відповіді на питання.
Ось розміри вибірки:
Fastballs vs RHH 2008-09: 2002
Fastballs vs LHH 2008-09: 2209
Fastballs vs RHH 2010: 527
Fastballs vs LHH 2010: 449
Changeups vs RHH 2008-09: 365
Changeups vs LHH 2008-09: 824
Changeups vs RHH 2010: 201
Changeups vs LHH 2010: 330
Curveballs vs RHH 2008-09: 488
Curveballs vs LHH 2008-09: 483
Curveballs vs RHH 2010: 213
Curveballs vs LHH 2010: 162
Модель регресії LOESS - це поверхневе прилягання, де розташування X та Y розташування кожного кроку бейсболу використовуються для прогнозування ймовірності sw, коливального удару. Однак я хотів би порівняти між усіма цими 12 моделями, але встановлення однакового проміжку (тобто прольоту = 0,5) матиме різні результати, оскільки існує такий широкий діапазон розмірів вибірки.
Моє основне питання - як визначити проміжок вашої моделі? Більший проміжок більше згладжує придатність, тоді як нижній проміжок фіксує більше тенденцій, але вносить статистичний шум, якщо даних недостатньо. Я використовую більш високий проміжок для менших розмірів зразка і нижній проміжок для більших розмірів вибірки.
Що я повинен зробити? Яке хороше правило при встановленні проміжку для моделей регресії LOESS в R? Спасибі заздалегідь!