Вам не доведеться . Функція втрат має той самий мінімум, якщо ви включаєте або придушити його. Якщо ви включите його, ви отримаєте приємну інтерпретацію мінімізації (половини)середньоїпомилки на точку даних. Іншими словами, ви мінімізуючи помилкишвидкостізамість сумарної похибки.1м
Розглянемо порівняння продуктивності для двох наборів даних різної величини. Невизначена сума помилок у квадраті не є безпосередньо порівнянною, оскільки більші набори даних мають тенденцію до більш повної помилки саме через їх розмір. З іншого боку, середня помилка на кожну точку даних є .
Ви можете трохи допрацювати?
Звичайно. Ваш набір даних - це набір точок даних . Після того, як у вас є модель h , помилка найменших квадратів h в одній точці даних є{ хi, уi}годгод
( год ( х)i) - уi)2
це, звичайно, різне для кожної точки даних. Тепер, якщо ми просто підсумуємо помилки (і помножимо на одну половину з причини, яку ви описали), ми отримаємо загальну помилку
12∑i( год ( х)i) - уi)2
але якщо ділити на кількість сум, отримаємо середню помилку на точку даних
12м∑i( год (х)i) -уi)2
Перевага середньої помилки в тому , що якщо у нас є два набору даних і { х ' я , у ' я } з differeing розмірів , то ми можемо порівняти середні помилки , але не загальна кількість помилок. Оскільки, якщо другий набір даних, скажімо, в десять разів перевищує перший, то ми очікуємо, що загальна помилка буде приблизно в десять разів більша для тієї ж моделі. З іншого боку, середня помилка розділяє ефект від розміру набору даних, і тому ми могли б очікувати, що моделі подібної продуктивності матимуть однакові середні помилки для різних наборів даних.{ хi, уi}{ х'i, у'i}