У мене є навчена модель логістичної регресії, яку я застосовую до набору даних тестування. Залежна змінна - двійкова (булева). Для кожного зразка в наборі даних тестування я застосовую логістичну регресійну модель, щоб генерувати% ймовірність того, що залежна змінна буде істинною. Потім я записую, чи було акустичне значення правдивим чи хибним. Я намагаюся обчислити цифру або відрегульовану як у моделі лінійної регресії.R 2
Це дає мені запис для кожного зразка в тестовому наборі:
prob_value_is_true acutal_value
.34 0
.45 1
.11 0
.84 0
.... ....
Мені цікаво, як перевірити точність моделі. Моєю першою спробою було використати таблицю на випадок надзвичайних ситуацій і сказати "якщо prob_value_is_true
> 0,80, здогадатися, що фактичне значення є істинним", а потім виміряти відношення правильної та неправильної класифікації. Але мені це не подобається, тому що мені здається, що я просто оцінюю 0,80 як межу, а не точність моделі в цілому і зовсім не prob_value_is_true
значення.
Тоді я спробував просто розглянути кожне дискретне значення prob_value_is_true, як приклад, дивлячись на всі вибірки, де prob_value_is_true
= 0,34, і вимірюючи% тих зразків, де акустичне значення є істинним (у цьому випадку ідеальна точність була б, якщо% вибірок це було правдою = 34%). Я можу створити показник точності моделі, підсумовуючи різницю при кожному окремому значенні prob_value_is_true
. Але розміри вибірки тут викликають велике занепокоєння, особливо для крайнощів (близько 0% або 100%), так що середні значення акустичних значень не є точними, тому використовувати їх для вимірювання точності моделі не здається правильним.
Я навіть намагався створити величезні діапазони, щоб забезпечити достатній розмір вибірки (0 - .25, .25 - .50, .50 - .75, .75-1.0), але як виміряти "добро" цього відсотка від фактичного значення натрапляє на мене . Скажімо, всі зразки, де prob_value_is_true
знаходиться між 0,25 і 0,50, мають середнє acutal_value
значення 0,45. Це добре, оскільки його в асортименті? Поганий, оскільки його не близько 37,5% (центр ареалу)?
Тож я застряг у тому, що, здається, має бути простим питанням, і сподіваюся, що хтось може вказати мені на ресурс або метод, щоб обчислити статичну точність для моделі логістичної регресії.