Чи існує простий спосіб виявлення людей, що пережили?


14

Мені цікаво, чи існує простий спосіб виявлення людей, що вижили.

Для одного з моїх проектів, який, в основному, був співвідношенням кількості разів, коли респонденти беруть участь у фізичних навантаженнях за тиждень, і кількістю разів, коли вони їдять поза домом (фаст-фуд) протягом тижня, я намалював розсип і буквально видалив точки даних, які були крайніми. (Розсіювач показав негативну кореляцію.)

Це ґрунтувалося на оціночному судженнях (на основі розсіювача, де ці точки явно були крайніми). Я не робив жодних статистичних тестів.

Мені просто цікаво, чи це здоровий спосіб поводження з випускниками.

У мене є дані від 350 осіб, тому втрата (скажімо) 20 точок даних не хвилює мене.


Дивіться також відповіді на подібне запитання, суворе визначення чужоземця
Йонас

3
Також дуже тісно пов'язаний stats.stackexchange.com/questions/175 . Багато можливих методів виявлення зовнішніх справ описані у відповідях на сайті stats.stackexchange.com/questions/213 . Але більш детальним було б якийсь контекст : що ви робите з цим розсіювачем? Які висновки ви намагаєтеся зробити з цього? Деякі висновки мало залежатимуть від того, що ви робите з людьми, що переживають люди, тоді як інші можуть залежати від них критично. Це вказує на те, що методи, які ви використовуєте для ідентифікації та лікування осіб, що переживають люди, повинні залежати від призначеного аналізу.
whuber

У наборах даних про економіку стандартною практикою є лише те, щоб сказати: "Ми встановлюємо набір даних на рівні 2,5% та 97,5%", або 1% та 99%. Потім вони просто видаляють спостереження, що виходять за межі цього кількісного діапазону.

@Harokitty Winsorising, мабуть, означає відсікання значень, а не відкидання їх.
Пітер Вуд

Я рекомендую вам також повідомити про нерозредагований графік розкидання, окрім помилок у записі даних. Не виключено, що може бути одна чи більше додаткових чітких груп населення. Для іспиту дивіться запис у Вікіпедії для діаграми Hertzsprung – Russell за адресою en.wikipedia.org/wiki/Hertzsprung%E2%80%93Russell_diagram
Роберт Джонс

Відповіді:


21

Немає простого звукового способу видалення залишків. Випускники можуть бути двох видів:

1) Помилки введення даних. Їх часто найпростіше помітити і завжди найлегше впоратися. Якщо ви зможете знайти потрібні дані, виправте їх; якщо ні, видаліть його.

2) Законні дані, які незвично. Це набагато складніше. Для біваріантних даних, таких як ваш, зовнішній вигляд може бути одновимірним або двоваріантним.

а) Уніваріант. По-перше, "незвичне" залежить від розподілу та розміру вибірки. Ви даєте нам розмір вибірки 350, але що таке розподіл? Очевидно, це не нормально, оскільки це відносно невелике ціле число. Те, що незвично під Пуассоном, не було б під негативним двочленом. Я хотів би підозрювати нульовий завищений негативний біноміальний зв’язок.

Але навіть коли у вас є розподіл, (можливі) люди, що пережили, впливатимуть на параметри. Ви можете переглянути дистрибуції "випустити один", де ви перевіряєте, чи точка q була б вищою, якщо дані мали всі точки, окрім q. Хоча тоді, що робити, якщо є кілька людей, що не мають права?

б) Двохвидовий. Саме тут значення жодної змінної саме по собі не є незвичайним, але разом вони є непарними. Існує, можливо, апокрифічна доповідь, згідно з якою перепис населення одного разу говорив, що в США було 20 000 12-річних вдів. 12-річні не є незвичайними, вдови теж не є, але 12-річні вдови є.

З огляду на все це, можливо, простіше повідомити про надійну міру відносин.


Спасибі. Я думаю, що, можливо, еліпс довіри був би хорошим показником для людей, що переживають люди, оскільки він би показував відсоток даних, які лежатимуть у певному рівні довіри (за умови нормального розподілу).
Амаральд

Ваші дані не можуть бути звичайними двовимірними, оскільки вони складаються з негативних цілих чисел
Пітер Флом - Відновити Моніку

18

Я провів багато досліджень на людей, що вижили, особливо коли я працював над валідацією даних про енергію в Оук-Хребті з 1978 по 1980 рік. Існують офіційні тести на одновимірні люди, що переживають нормальні дані (наприклад, тест Грюббса і тест на відношення Діксона). Існують тести на багатовимірні люди, що переживають люди та часові ряди. Книга Барнетта та Льюїса на тему "Недосвідчені статистичні дані" - це біблія про людину, що вижила, і охоплює майже все.

Коли я був у Oak Ridge, працюючи над валідацією даних, у нас були великі багатовимірні набори даних. Для однонаціональних людей, що переживають люди, існує напрямок крайнощів (сильно вище середнього та сильно нижче середнього). Але для багатоваріантних людей, що переживають люди, існує багато напрямків, як шукати людей, що вижили. Наша філософія полягала в тому, щоб розглянути, чим призначене використання даних. Якщо ви намагаєтеся оцінити певні параметри, такі як двоваріантна кореляція або коефіцієнт регресії, то ви хочете подивитися в напрямку, який надає найбільший вплив на інтерес-параметр. У той час я читав неопублікований документ Маллоуса про функції впливу. Використання функцій впливу для виявлення людей, що переживають люди, висвітлюється у багатоваріантній книзі аналізу Гнанадесікана. Звичайно, ви можете знайти його також у Барнетті та Льюїсі.

Функція впливу для параметра визначається в точках багатовимірного простору спостережень і по суті вимірює різницю між оцінкою параметра при включенні точки даних порівняно з тим, коли вона залишається поза. Ви можете робити такі оцінки з кожною вибірковою точкою, але зазвичай ви можете отримати хорошу функціональну форму для функції впливу, яка дає розуміння та швидше обчислення.

Наприклад, у своїй роботі в американському журналі «Математичні та управлінські науки» 1982 р. «Функція впливу та її застосування для перевірки даних» я показую аналітичну формулу функції впливу для біваріантної кореляції і що контури постійного впливу є гіперболами. Так контури показують напрямок у площині, де функція впливу найшвидше зростає.

У своїй роботі я показую, як ми застосували функцію впливу для двоваріантної кореляції з даними форми FPC форми 4 про генерацію та споживання енергії. Існує чітко висока позитивна кореляція між цими двома, і ми знайшли декількох людей, які сильно вплинули на оцінку кореляції. Подальше дослідження показало, що принаймні один із пунктів був помилковим, і ми змогли це виправити.

Але важливим моментом, який я завжди згадую, коли обговорюю людей, що не належать до людей, є те, що автоматичне відхилення є неправильним. Зовнішній вигляд не завжди є помилкою, а іноді він надає важливу інформацію про дані. Дійсні дані не слід видаляти лише тому, що вони не відповідають нашій теорії реальності. Незалежно від того, чи це важко зробити, слід завжди досліджувати причину виникнення екслідерів.

Я мушу зазначити, що це не вперше багатоваріантні люди, що обговорюються на цьому сайті. Шукати інших людей, ймовірно, призведе до декількох питань, де обговорюються багатоваріантні люди. Я знаю, що раніше я посилався на свої статті та ці книги та наводив посилання на них.

Крім того, коли обговорюється відхилення від зовнішньої зовнішності, багато хто з нас на цьому веб-сайті рекомендують проти цього, особливо якщо це робиться виключно на основі статистичного тесту. Пітер Хубер часто згадує про надійну оцінку як альтернативу відхиленню від зовнішньої сили. Ідея полягає в тому, що надійні процедури знижуватимуть втрату ваги людей, зменшуючи їхній вплив на оцінку без важкого кроку їх відхилення та використання неміцного оцінювача.

Функція впливу фактично спочатку була розроблена Франком Гампелем у його докторській дисертації на початку 1970-х (я думаю, 1974). Його ідея полягала в тому, щоб використовувати функції впливу для виявлення оцінювачів, які не відрізняються стійкістю до інших людей, і допомогти розробити надійні оцінки.

Ось посилання на попередню дискусію на цю тему, де я згадав про деяку мою роботу з виявлення людей, що пережили час, у часових рядах з використанням функцій впливу.


2

Ще один простий підхід до поводження з непрацездатними людьми - це використання непараметричної статистики. Ймовірно, з вашим розміром вибірки Rho Spearman добре би працював як індекс кореляції. (Однак зауважте, що непараметрична статистика порядок порядку не дуже допомагає вам у нелінійних зв’язках.)

Якщо ви хочете використати r Pearson's (параметрична статистика), і якщо ви не в змозі обчислити відстань Кука, ви можете використовувати стандартне правило, що будь-яка точка даних, що перевищує середнє значення 2.67 стандартних відхилень (sd). , або 4,67 сд від середнього значення - відповідно, зовнішній або крайній. Це типові значення обрізання для людей, що переживають люди, та крайніх точок даних, які використовуються в одній стандартній програмі статистичного аналізу (SPSS).

Тільки тому, що точка даних є стороннім, це не означає, що погані дані повинні бути відкинуті. Ви можете обчислити свою кореляцію з і без крайніх точок і піти звідти.


1

Ви можете спробувати відстань Кука. Про запропоновані скорочення див. У статті Вікіпедії. Крім того, якщо ви рухаєтесь до якоїсь моделі регресії, то, можливо, ви захочете спробувати надійну регресію.


1
Це більше схоже на коментар, ніж на відповідь; відповіді зазвичай більш тривалі та детальні. Наприклад, якщо ви включили міркування про те, чому відстань Кука є хорошим випробуванням для людей, що вижили, і так, це було б відповіддю.
Пітер Флом - Відновити Моніку

1

По-перше, не видаляйте нетипові значення, якщо ви не впевнені, що вони не вивчені! Вони можуть містити важливу інформацію (мінливість). Ви повинні скинути їх, якщо очевидно, що зовнішній вигляд пов'язаний з неправильно введеними або виміряними даними. Якщо ви не знаєте методу вибірки, який використовується для отримання ваших даних, слід визначити нетипові значення та їх наслідки наступним чином:

  1. Ступінь аномальності: очікується 5% спостережень із стандартизованими залишками (еi)> 2. Якщо у вас є декілька більш високих залишків, ви можете підозрювати людей, що залишилися.

  2. Ступінь відстані до центральної ваги в просторі x: годii(важелі). Коли деякігодii дуже високо, у вас є спостереження, яке може спотворити вашу модель, оскільки вона виходить за межі вашого дослідження.

  3. Ступінь впливу на пристосовану модель: Впливові точки - це ті, які мають достатню вагу для зміни вашої моделі. Тоді коефіцієнти пристосованої моделі, що використовують усі n спостережень, сильно відрізняються від коефіцієнтів примірної моделі, використовуючи всі точки, але не це спостереженняi-та.
    Відстань Кука або D's Cook - це загальновживана оцінка впливу точки даних. :DСi=еi2·годii/[(1-годii)·p]

Можливі рішення:

  • Трансформація змінних та / або додавання нових змінних до моделі.
  • Для впливових спостережень, які є не що інше, як інше, якщо не багато, ви можете видалити цих людей.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.