Я намагаюся зрозуміти, як повністю зрозуміти процес прийняття рішення щодо моделі класифікації дерева рішень, побудованої за допомогою sklearn. 2 головних аспекту, на які я дивлюся, - це графічне зображення дерева та перелік імпортів функцій. Я не розумію, як визначається важливість функції в контексті дерева. Наприклад, ось мій список імпортів функцій:
Рейтинг функцій: 1. FeatureA (0,300237)
FeatureB (0,166800)
FeatureC (0.092472)
FeatureD (0,075009)
FeatureE (0,068310)
FeatureF (0,067118)
FeatureG (0,066510)
ОсобливістьH (0,043502)
ОсобливістьI (0,040281)
FeatureJ (0.039006)
FeatureK (0,032618)
ОсобливістьL (0,008136)
FeatureM (0,000000)
Однак, коли я дивлюся на верхівку дерева, це виглядає приблизно так:
Насправді, деякі функції, які належать до категорії "найважливіші", не з'являються до тих пір, поки не вниз по дереву, а вершина дерева - FeatureJ, яка є однією з найнижчих позицій. Моє наївне припущення полягало б у тому, що найбільш важливі риси будуть розміщені біля верхівки дерева, щоб мати найбільший вплив. Якщо це неправильно, то що саме робить функцію "важливою"?