Лікування залишків, вироблених куртозом


10

Мені було цікаво, чи може хтось допомогти мені з інформацією про куртоз (тобто чи є можливість трансформувати ваші дані, щоб зменшити їх?)

У мене є набір анкет з великою кількістю випадків та змінних. Для кількох моїх змінних дані показують досить високі значення куртозу (тобто лептокуртичного розподілу), що випливає з того, що багато учасників дали точно таку ж оцінку для змінної. У мене особливо великий розмір вибірки, тому згідно з теоремою центрального межі, порушення норм все одно має бути добре.

Проблема, однак, полягає в тому, що особливо високий рівень куртозу призводить до того, що в моєму наборі даних є кілька однозначних людей. Таким чином, навіть якщо я перетворюю дані або видаляю / коригую залишки, високий рівень куртозу означає, що наступні найбільш екстремальні показники автоматично стають застарілими. Я прагну використовувати (аналіз дискримінантних функцій). Кажуть, що DFA є надійним у відході від нормальності, за умови, що порушення спричинене хиткістю, а не чужими людьми. Крім того, як кажуть, на DFA особливо впливають люди, що переживають дані (Tabachnick & Fidel).

Будь-які ідеї, як обійти це? (Моя початкова думка була якимось способом контролю за куртозом, але хіба це не добре, якщо більшість мого зразка дають подібні оцінки?)

Відповіді:


8

Очевидним "здоровим глуздом" спосіб вирішення вашої проблеми є

  1. Отримайте висновок, використовуючи повний набір даних. тобто які результати ви оголосите ігноруючи проміжні розрахунки?
  2. Отримайте висновок, скориставшись набором даних із видаленими вказаними "видатками". тобто які результати ви оголосите ігноруючи проміжні розрахунки?
  3. Порівняйте крок 2 з кроком 1
  4. Якщо різниці немає, забудьте, у вас навіть була проблема. Випускники не мають значення для вашого висновку . Атлантисти можуть вплинути на якийсь інший висновок, який, можливо, був зроблений з використанням цих даних, але це не має значення для вашої роботи. Це чиясь проблема.
  5. Якщо є різниця, то у вас в основному питання "довіри". Чи справді ці "люди, що пережили", в тому сенсі, що вони справді щось представляють щодо вашого аналізу? Або "погані люди" погані в тому, що вони походять з якогось "забрудненого джерела"?

У ситуації 5 у вас є випадок того, що коли-небудь "модель", яку ви використовували для опису "населення", є неповною - є деталі, які не визначені, але важливі для висновків. Існує два способи вирішити це, що відповідає двом сценаріям "довіри":

  1. P(D|θ)P(D|θ)=P(λ|θ)P(D|θ,λ)dλ
  2. P(D|θ)P(D|θ)=G(D|θ)u+B(D|θ)(1u)

Більшість «стандартних» процедур можуть бути наближеними до таких моделей. Найбільш очевидним є розгляд випадку 1, де дисперсія вважається постійною в спостереженнях. Розслабивши це припущення в розподіл, ви отримаєте суміш розподілу. Це зв'язок між "нормальним" і "т" розподілом. Нормальна має фіксовану дисперсію, тоді як "t" змішується на різних дисперсіях, кількість "змішування" залежить від ступенів свободи. Високий коефіцієнт DF означає низьке змішування (відхилення навряд чи), низький коефіцієнт DF означає високе змішування (вірогідніший показник). Насправді ви могли б сприймати випадок 2 як особливий випадок випадку 1, де «хороші» спостереження є нормальними, а «погані» спостереження - Коші (t з 1 DF).


Яка відмінна відповідь, @probabilityislogic
Пітер Флом

Просто уточнююча примітка: Оптимальна класифікація вимагає знання справжніх багатоваріантних розподілів. Якщо ви можете добре оцінити ці розподіли, то отримана функція класифікації майже оптимальна. Аутлієри (як вказує куртоз) справді є проблематичними, оскільки в регіоні немає мало даних, з якими можна оцінити щільність. За допомогою багатоваріантних даних прокляття розмірності також сприяє цій проблемі.
Пітер Вестфалл
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.