Я провів багато досліджень на людей, що вижили, особливо коли я працював над валідацією даних про енергію в Оук-Хребті з 1978 по 1980 рік. Існують офіційні тести на одновимірні люди, що переживають нормальні дані (наприклад, тест Грюббса і тест на відношення Діксона). Існують тести на багатовимірні люди, що переживають люди та часові ряди. Книга Барнетта та Льюїса на тему "Недосвідчені статистичні дані" - це біблія про людину, що вижила, і охоплює майже все.
Коли я був у Oak Ridge, працюючи над валідацією даних, у нас були великі багатовимірні набори даних. Для однонаціональних людей, що переживають люди, існує напрямок крайнощів (сильно вище середнього та сильно нижче середнього). Але для багатоваріантних людей, що переживають люди, існує багато напрямків, як шукати людей, що вижили. Наша філософія полягала в тому, щоб розглянути, чим призначене використання даних. Якщо ви намагаєтеся оцінити певні параметри, такі як двоваріантна кореляція або коефіцієнт регресії, то ви хочете подивитися в напрямку, який надає найбільший вплив на інтерес-параметр. У той час я читав неопублікований документ Маллоуса про функції впливу. Використання функцій впливу для виявлення людей, що переживають люди, висвітлюється у багатоваріантній книзі аналізу Гнанадесікана. Звичайно, ви можете знайти його також у Барнетті та Льюїсі.
Функція впливу для параметра визначається в точках багатовимірного простору спостережень і по суті вимірює різницю між оцінкою параметра при включенні точки даних порівняно з тим, коли вона залишається поза. Ви можете робити такі оцінки з кожною вибірковою точкою, але зазвичай ви можете отримати хорошу функціональну форму для функції впливу, яка дає розуміння та швидше обчислення.
Наприклад, у своїй роботі в американському журналі «Математичні та управлінські науки» 1982 р. «Функція впливу та її застосування для перевірки даних» я показую аналітичну формулу функції впливу для біваріантної кореляції і що контури постійного впливу є гіперболами. Так контури показують напрямок у площині, де функція впливу найшвидше зростає.
У своїй роботі я показую, як ми застосували функцію впливу для двоваріантної кореляції з даними форми FPC форми 4 про генерацію та споживання енергії. Існує чітко висока позитивна кореляція між цими двома, і ми знайшли декількох людей, які сильно вплинули на оцінку кореляції. Подальше дослідження показало, що принаймні один із пунктів був помилковим, і ми змогли це виправити.
Але важливим моментом, який я завжди згадую, коли обговорюю людей, що не належать до людей, є те, що автоматичне відхилення є неправильним. Зовнішній вигляд не завжди є помилкою, а іноді він надає важливу інформацію про дані. Дійсні дані не слід видаляти лише тому, що вони не відповідають нашій теорії реальності. Незалежно від того, чи це важко зробити, слід завжди досліджувати причину виникнення екслідерів.
Я мушу зазначити, що це не вперше багатоваріантні люди, що обговорюються на цьому сайті. Шукати інших людей, ймовірно, призведе до декількох питань, де обговорюються багатоваріантні люди. Я знаю, що раніше я посилався на свої статті та ці книги та наводив посилання на них.
Крім того, коли обговорюється відхилення від зовнішньої зовнішності, багато хто з нас на цьому веб-сайті рекомендують проти цього, особливо якщо це робиться виключно на основі статистичного тесту. Пітер Хубер часто згадує про надійну оцінку як альтернативу відхиленню від зовнішньої сили. Ідея полягає в тому, що надійні процедури знижуватимуть втрату ваги людей, зменшуючи їхній вплив на оцінку без важкого кроку їх відхилення та використання неміцного оцінювача.
Функція впливу фактично спочатку була розроблена Франком Гампелем у його докторській дисертації на початку 1970-х (я думаю, 1974). Його ідея полягала в тому, щоб використовувати функції впливу для виявлення оцінювачів, які не відрізняються стійкістю до інших людей, і допомогти розробити надійні оцінки.
Ось посилання на попередню дискусію на цю тему, де я згадав про деяку мою роботу з виявлення людей, що пережили час, у часових рядах з використанням функцій впливу.