Я знаю, що це, ймовірно, обговорювалося десь ще, але я не змогла знайти чіткої відповіді. Я намагаюся використовувати формулу для розрахунку поза вибіркою лінійної регресійної моделі, де - сума квадратних залишків і - загальна сума квадратів. Для навчального набору зрозуміло, що
Що з набором тестування? Чи варто продовжувати користуватися для вибірка або використовувати натомість?
Я виявив, що якщо користуюся , що виходить іноді можуть бути негативними. Це відповідає опису функції sklearn r2_score()
, де вони використовували (що також використовується функцією їх linear_model для тестування зразків). Вони заявляють, що "постійна модель, яка завжди прогнозує очікуване значення y, не враховуючи вхідних функцій, отримала б оцінку R ^ 2 0,0".score()
Однак в інших місцях люди використовували як тут, так і тут (друга відповідь dmi3kno). Тож мені було цікаво, що має більше сенсу? Будь-який коментар буде дуже вдячний!