Я думаю, що варто було б спробувати «Випадкові ліси» ( randomForest ); деякі посилання були надані у відповідь на відповідні запитання: Вибір функцій для "остаточної" моделі при виконанні перехресної перевірки в машинному навчанні ; Чи можна моделі CART зробити надійними? . Підвищення / пакетування робить їх більш стійкими, ніж одна КАРТА, яка, як відомо, дуже чутлива до невеликих збурень. Деякі автори стверджували, що воно виконується так само, як і штрафні машини SVM або градієнти, що підсилюють ґрунт (див., Наприклад, Cutler et al., 2009). Я думаю, що вони, безумовно, перевершують національні мережі.
Boulesteix і Strobl надають хороший огляд декількох класифікаторів для вибору оптимального класифікатора та негативного зміщення в оцінці швидкості помилок: емпіричне дослідження високого розміру прогнозування (BMC MRM 2009 9: 85). Я чув про ще одне хороше дослідження на засіданні IV EAM , яке має бути переглянуто в статистиці медицини ,
Жоао Мароко , Діна Сільва, Мануела Геррейро, Олександр де Мендонса. Чи перевершують випадкові ліси нейронні мережі, підтримуючі векторні машини та класифікатори дискримінантного аналізу? Тематичне дослідження еволюції до деменції у пацієнтів літнього віку з когнітивними скаргами
Мені також подобається пакет каретів : він добре задокументований і дозволяє порівнювати точність прогнозування різних класифікаторів в одному наборі даних. Він забезпечує керування навчальними / тестовими зразками, точністю обчислень тощо у кількох зручних для користувача функціях.
Пакет glmnet від Friedman and coll. Реалізує штрафований GLM (див. Огляд у Журналі статистичного програмного забезпечення ), тому ви залишаєтесь у відомій моделі моделювання.
В іншому випадку ви також можете шукати класифікатори, засновані на правилах асоціації (див. Перегляд завдань CRAN на машинному навчанні або алгоритми 10 кращих алгоритмів в обробці даних для легкого ознайомлення з деякими з них).
Я хотів би зазначити ще один цікавий підхід, який я планую повторно реалізувати в R (насправді це код Matlab), який є дискримінаційним кореспондентським аналізом від Hervé Abdi. Хоча спочатку було розроблено для вирішення малих вибіркових досліджень з великою кількістю пояснювальних змінних (зрештою, згрупованих у когерентні блоки), схоже, це ефективно поєднує класичний DA із методиками зменшення даних.
Список літератури
- Cutler, A., Cutler, DR, and Stevens, JR (2009). Деревоподібні методи , у високовимірному аналізі даних у дослідженнях раку , Li, X. та Xu, R. (ред.), Стор. 83-101, Спрингер.
- Saeys, Y., Inza, I., and Larrañaga, P. (2007). Огляд методів відбору ознак у біоінформатиці . Біоінформатика, 23 (19): 2507-2517.