Скажімо, у нас є вибірка з двох груп: A
і B
. Припустимо, що ці групи складаються з людей, і ми вирішимо описати людей за ознаками. Деякі з цих особливостей є категоричними (наприклад, вони їздять на роботу?), А деякі - числовими (наприклад, їх висота). Назвемо ці функції: . Ми збираємо сотні цих особливостей (наприклад, n = 200), припустимо для простоти, без помилок і шуму для всіх людей.
Ми гадаємо, що дві групи різні. Наша мета - відповісти на наступні два питання:
- Чи насправді вони значно відрізняються?
- Що істотно відрізняється між ними?
Можуть допомогти такі методи, як дерева рішень (наприклад, випадкові ліси) та лінійний регресійний аналіз. Наприклад, можна було б ознайомитись із важливістю ознак у випадкових лісах або за пристосованими коефіцієнтами в лінійній регресії, щоб зрозуміти, що може відрізняти ці групи, та дослідити взаємозв’язки між ознаками та популяціями.
Перш ніж спуститись по цьому маршруту, я хочу тут зрозуміти свої варіанти, що є хорошим та сучасним проти поганої практики. Зауважте, що моя мета - це не передбачення саме по собі, а тестування та виявлення значних відмінностей між групами.
Які існують принципові підходи до вирішення цієї проблеми?
Ось деякі проблеми, які я маю:
Такі методи, як аналіз лінійної регресії, можуть не відповісти повністю (2), правда? Наприклад, одна придатність може допомогти знайти деякі відмінності, але не всі суттєві відмінності. Наприклад, мультиколінеарність може завадити нам виявити, як різняться всі функції в різних групах (принаймні, за один прийом). З тієї ж причини, я б очікував, що ANOVA також не може дати повну відповідь на (2).
Не зовсім зрозуміло, як би відповів прогностичний підхід (1). Наприклад, яку класифікаційну / передбачувальну втрату ми повинні мінімізувати? І як ми перевіряємо, чи значно відрізняються групи, коли ми маємо пристосування? Нарешті, я переживаю, що відповідь, яку я отримую (1), може залежати від конкретного набору класифікаційних моделей, які я використовую.