Я намагаюся знайти співвідношення між дихотомічною та суцільною змінною.
З моєї основної роботи з цього питання я виявив, що я повинен використовувати незалежний t-тест, і передумовою цього є те, що розподіл змінної має бути нормальним.
Я провів тест Колмогорова-Смірнова для перевірки нормальності і виявив, що суцільна змінна є ненормальною і перекошеною (приблизно для 4000 точок даних).
Я робив тест Колмогорова-Смірнова на весь діапазон змінних. Чи повинен я розділити їх на групи і зробити тест? Тобто, скажіть, якщо у мене risk level
( 0
= не ризиковано, 1
= ризиковано) і рівень холестерину, тоді я повинен:
Розділіть їх на дві групи, як
Risk level =0 (Cholestrol level) -> Apply KS Risk level =1 (Cholestrol level) -> Apply KS
Взяти їх разом і застосувати тест? (Я виконував це лише для всього набору даних.)
Після цього, який тест потрібно зробити, якщо він все ще не є нормальним?
EDIT: Наведений вище сценарій був лише описом, який я намагався надати для своєї проблеми. У мене є набір даних, який містить понад 1000 змінних і близько 4000 зразків. Вони мають або суцільний, або категоричний характер. Моє завдання - передбачити дихотомічну змінну на основі цих змінних (можливо, придумати модель логістичної регресії). Тому я подумав, що початкове дослідження передбачає пошук кореляції між дихотомічною та суцільною змінною.
Я намагався побачити, як відбувається розподіл змінних, і, отже, намагався перейти до t-test. Тут я знайшов нормальність як питання. Тест Колмогорова-Смірнова дав значення значущості 0,00 у більшості цих змінних.
Чи варто тут припускати нормальність? Скісність і куртоз цих змінних також показують, що дані перекошені (> 0) майже у всіх випадках.
Відповідно до замітки, поданої нижче, я буду досліджувати точково-бісеріальну кореляцію далі. Але щодо розподілу змінних я все ще не впевнений.