Я читав інші теми про графіки часткової залежності, і більшість з них стосується того, як ви насправді побудуєте їх за допомогою різних пакетів, а не як ви можете їх точно інтерпретувати. Отже:
Я читав і створював неабияку кількість сюжетів часткової залежності. Я знаю, що вони вимірюють граничний вплив змінної χs на функцію ƒS (χS) із середнім впливом всіх інших змінних (χc) з моєї моделі. Вищі значення y означають, що вони мають більший вплив на точне прогнозування мого класу. Однак я не задоволений цією якісною інтерпретацією.
Моя модель (випадковий ліс) передбачає два стримані класи. "Так дерева" та "Не дерева". TRI - це змінна, яка виявилася хорошою змінною для цього.
Я почав вважати, що значення Y - це ймовірність правильної класифікації. Приклад: y (0,2) показує, що значення TRI> ~ 30 мають 20% шансів правильно визначити класифікацію True Positive.
Де навпаки
y (-0.2) показує, що значення TRI <~ 15 мають 20% шансів правильно визначити класифікацію True Negative.
Загальні інтерпретації, які зроблені в літературі, звучали б так: "Цінності, що перевищують TRI 30, починають позитивно впливати на класифікацію у вашій моделі", і все. Це звучить настільки розпливчасто і безглуздо для сюжету, що потенційно може так багато говорити про ваші дані.
Крім того, всі мої ділянки мають обмеження на відстані від -1 до 1 в межах для осі y. Я бачив інші сюжети, від -10 до 10 і т.д. Це функція від кількості класів, які ви намагаєтесь передбачити?
Мені було цікаво, чи може хтось говорити з цією проблемою. Можливо, покажіть мені, як я повинен тлумачити ці сюжети чи якусь літературу, яка може мені допомогти. Може я читаю занадто далеко в цьому?
Я дуже ретельно прочитав Елементи статистичного навчання: вилучення даних, висновок та прогнозування, і це було чудовим відправною точкою, але це стосується цього.