Заміна випускників середнім рівнем

31

Це питання мені задав мій друг, який не користується Інтернетом. У мене немає статистичних даних, і я шукав Інтернет з цього питання.

Питання полягає в тому, чи можна замінити середньостатистичні показники? якщо це можливо, чи є довідники / журнали для резервного копіювання цього твердження?

— Алун
джерело

25

Звичайно це можна зробити, але важко уявити ситуацію, коли це має сенс зробити.

— Пітер Флом - Відновити Моніку

2

Вже декілька більш довгих відповідей, але резюме одного речення @Peter Flom навряд чи може відповідати резюме.

— Нік Кокс

4

Жодна відповідь досі не вказала на слона в кімнаті: хоча заміна "залишків" середнім зберігає середній набір даних, він змінює майже будь-яку іншу статистику. Він навіть змінює оцінки стандартної похибки середнього значення. Відповідно - на підтримку коментаря @Peter Flom - отриманий набір даних не здається корисним для будь-якої надійної форми висновку. (Імовірно, його можна було б використовувати не самостійно, а як проміжні кроки в ітераційній процедурі для виявлення людей, що

— втратили чинність

1

@whuber Очевидно ключовий момент. Я хотів би зробити це ще однією відповіддю, щоб ніхто не пропустив цю тему занадто швидко. Люди, які спокушаються цим пристроєм, і, очевидно, є такі, повинні усвідомити, що це (а) не гарна ідея (б) погана ідея.

— Нік Кокс

1

@ user2357112 Мається на увазі, що середнє значення, що використовується, є середнім значенням інших значень. Зовнішнє значення, яке вважається ненадійним, не повинно включатись у розрахунок.

— Нік Кокс

41

Зрозуміло, що це можливо, але не ясно, що це коли-небудь може бути гарною ідеєю.

Давайте окреслимо декілька способів, яким це обмежене або дефіцитне рішення:

Насправді ви говорите про те, що значення зовнішнього вигляду є абсолютно недостовірним, наскільки ваша єдина можлива здогадка - це значення повинно бути середнім. Якщо це ви думаєте, то, ймовірно, буде чесніше просто опустити спостереження, про яке йдеться, оскільки, очевидно, у вас недостатньо інформації, щоб краще здогадатися.
Не маючи нічого іншого, вам потрібен критерій або критерії для визначення першочергових людей (як мається на увазі @Frank Harrell). В іншому випадку це довільна і суб'єктивна процедура, навіть якщо вона захищається як предмет судження. З деякими критеріями можливо, що таким чином видалення інших людей створює ще більше, як побічний ефект. Прикладом може бути те, що люди, що втрачають люди, більше ніж стільки стандартних відхилень від середнього. Видалення стовбура змінює стандартне відхилення, і нові точки даних тепер можуть кваліфікуватися тощо.
Імовірно, середнє значення означає середнє значення всіх інших значень, точка, яку явно зробив @David Marx. Ідея неоднозначна без цього умови.
Використання середнього може здатися безпечною чи консервативною процедурою, але зміна значення на середнє змінить майже будь-яку іншу статистику, включаючи заходи рівня, масштабу та форми та показники їх невизначеності, наголошував @whuber.
Середнє значення може навіть не бути здійсненним значенням: прості приклади - це коли цілі числа, але зазвичай середнє значення не є цілим числом.
Навіть з думкою про те, що використовувати підсумковий захід - це обережно, а використання середнього, а не медіанного чи іншого міри потребує певного обґрунтування.
Кожного разу, коли є інші змінні, зміна значення однієї змінної без посилання на інші може зробити точку даних аномальною в інших сенсах.

Що робити з людьми, що випадають, - це відкрите і дуже складне питання. Різноманітні рішення та стратегії мають різну привабливість. Ось частковий перелік можливостей. Упорядкування довільне і не має на меті передавати будь-яке замовлення з точки зору застосовності, важливості чи будь-якого іншого критерію. Ці підходи не є взаємовиключними.

Одне (на мій погляд, добре) визначення полягає в тому, що "[o] utliers - вибіркові значення, які викликають здивування по відношенню до більшості вибірки" (WN Venables і BD Ripley. 2002. Сучасна прикладна статистика з S. New York: Springer, стор.119). Однак сюрприз є у свідомості спостерігача і залежить від якоїсь мовчазної чи явної моделі даних. Можливо, існує інша модель, за якою зовнішній вигляд зовсім не дивує, тому дані насправді є (скажімо) лонормальними або гамма, а не звичайними. Коротше кажучи, будьте готові до (пере) розгляду вашої моделі.
Зайдіть у лабораторію чи поле та зробіть вимірювання ще раз. Часто це неможливо здійснити, але це здається стандартним у кількох науках.
Перевірте, чи справжні люди, що не мають справжнього рівня Більшість тестів для мене виглядають досить надуманими, але ви можете знайти такий, який, на вашу думку, відповідає вашій ситуації. Ірраціональна віра, що тест є відповідним, завжди потрібна, щоб застосувати тест, який потім подається як квінтесенційно раціональний.
Викиньте їх як предмет судження.
Викиньте їх, використовуючи якесь більш-менш автоматизоване (як правило, не "об'єктивне") правило.
Ігноруйте їх, частково або повністю. Це може бути формальним (наприклад, обрізанням) або просто питанням залишити їх у наборі даних, але пропустити їх з аналізу як занадто гарячих для обробки.
Затягніть їх за допомогою певного регулювання, наприклад, Winsorizing.
Зменшуйте їх за допомогою іншого надійного методу оцінки.
Зменшуйте їх, працюючи в трансформованому масштабі.
Відхилення їх за допомогою функції зв’язку без ідентичності.
Розмістіть їх, встановивши відповідне розповсюдження жиру, довгого або важкого хвоста, без або з предикторами.
Пристосуйте, використовуючи індикатор або фіктивну змінну в якості додаткового прогноктора в моделі.
Побічне вирішення проблеми, використовуючи якусь непараметричну (наприклад, рангову) процедуру.
Отримайте поводження з прихованою невизначеністю за допомогою завантажувальної програми, джекніфінгу або процедури, заснованої на перестановці.
Редагуйте, щоб замінити зовнішній вигляд на якесь більш вірогідне значення, засноване на детермінованій логіці. "18-річна бабуся навряд чи, але ця людина народилася в 1932 році, тому, мабуть, це справді 81 рік."
Редагуйте, щоб замінити неможливий чи неправдоподібний зовнішній вигляд, використовуючи метод імпутації, який є прийнятною не зовсім білою магією.
Проаналізуйте з і без і побачите, наскільки різниці мають інші (статистичні, наукові чи практичні) різниці.
Щось баєсійське. Моє попереднє незнання того, що забороняє давати будь-які деталі.

EDIT Це друге видання має користь від інших відповідей та коментарів. Я намагався позначити свої джерела натхнення.

— Нік Кокс
джерело

1

(+1) приємна відповідь. З боку Байєса можна зробити багато речей, але насправді ви намагаєтесь побудувати якусь модель для того, як у вас з'явилися такі значення (процес, що призвів до перешкод). Наприклад, це може бути щось просте, наприклад "кожне значення даних має невелику невідому ймовірність потрапляння в дистрибутив, який набагато дивіше, ніж основна маса даних", а потім ставити попередній розподіл на цю ймовірність і формалізувати певний вибір для цього дикого розподіл та пріори за його параметрами. Ефект полягає в зменшенні ваги впливу очок, які не відповідають моделі.

— Glen_b -Встановити Моніку

16

У вашому запитанні є кілька проблем.

Що таке "аутлер"?
Чи слід замінити "чужий"?
Що особливого в середньому на відміну від якоїсь іншої оцінки?
Як би ви компенсували збільшення видимої дисперсії при заміні на одне значення, яке спричиняє занадто малу дисперсію?
Чому б не застосувати надійні оцінювачі, стійкі до людей, що пережили?
Це незалежна чи залежна змінна?

Ніхто з 1-5 не має очевидної відповіді. Якщо ви справді відчуваєте, що ці "люди, що не вийшли з життя", помиляються, і ви не хочете використовувати надійний статистичний метод, ви можете зробити їх відсутніми та використовувати декілька імпутацій як одне з можливих рішень. Якщо змінна є залежною змінною, одним надійним вибором є порядкова регресія.

— Френк Харрелл
джерело

1

+1, хороші бали. Мене заінтригує пропозиція OLR; Чи є причина, чому ви віддаєте перевагу тому, щоб використовувати надійну функцію втрат, наприклад, бісквіт Тукі?

— gung - Відновіть Моніку

2

Y

$Y$

Y

$Y$

9

У пропозиції є численні вади. Ось, мабуть, найбільша.

Припустимо, ви збираєте дані та бачите ці значення:

2, 3, 1

$2, 3, 1$

$6/3 = 2$

Потім виходить чужа людина:

2, 3, 1, 1000

$2, 3, 1, 1000$

Отже, ви замінюєте його середнім:

2, 3, 1, 2

$2, 3, 1, 2$

Наступне число добре:

2, 3, 1, 2, 7

$2, 3, 1, 2, 7$

Тепер середнє значення 3. Зачекайте хвилину, середнє значення зараз 3, але ми замінили 1000 на середнє значення 2, тільки тому, що воно відбулося як четверте значення. Що робити, якщо ми змінимо порядок зразків?

2, 3, 1, 7, 1000

$2, 3, 1, 7, 1000$

$(2 + 3 + 1 + 7)/4 = 13/4$

Проблема полягає в тому, що помилкова дата, яку ми замінюємо замість 1000, залежить від інших даних. Це гносеологічна проблема, якщо зразки повинні представляти незалежні вимірювання.

$n$ $n$ $n$ $n$ $n$

В основному, обрізання результатів, які не підходять, - це одне (і може бути виправданим, якщо це робиться послідовно за алгоритмом, а не за зміною настрою експериментатора).

Відверта фальсифікація результатів заперечує на філософських, гносеологічних та етичних засадах.

Можуть бути деякі пом'якшувальні обставини, які пов'язані з тим, як використовуються результати. Як, наприклад, скажімо, що ця заміна випускників середньою середньою точністю є частиною вбудованого алгоритму вбудованого комп'ютера, який дозволяє йому реалізовувати систему управління замкнутим циклом. (Він відбирає деякі вихідні дані системи, потім коригує входи, щоб досягти контролю.) Все в режимі реального часу, і тому щось потрібно подавати протягом заданого періоду часу замість відсутніх даних. Якщо ця маніпуляція допомагає подолати глюки і забезпечує безперебійну роботу, то все добре.

Ось ще один приклад з цифрової телефонії: PLC (приховування втрат пакетів). Лайно трапляється, і пакети губляться, але спілкування в режимі реального часу. PLC синтезує підроблені фрагменти голосу на основі нещодавньої інформації про висоту з правильно отриманих пакетів. Отже, якщо динамік вимовляв голосну "aaa", а потім пакет втрачався, PLC може прокладати відсутній пакет, екстраполюючи "aaa" на тривалість кадру (скажімо, 5 або 10 мілісекунд чи що завгодно). "Ааа" така, що нагадує голос мовця. Це аналогічно використанню "середнього" для заміни значень, які вважаються поганими. Це гарна річ; це краще, ніж звук, що прошиває звук, і сприяє розбірливості.

Якщо підробка даних є частиною програми брехні людей, щоб приховати невдалу роботу, це щось інше.

Отже, ми не можемо думати про це незалежно від програми: як використовується статистика? Чи заміна призведе до недійсних висновків? Чи є етичні наслідки?

— Анон
джерело

Історія телефонії є дуже цікавою, але, здається, є справою захищеної інтерполяції замінити відсутні значення. Зв'язок із заміною зовнішньої сторони непростий, оскільки потрібні лише суто локальні операції, а локальні зміни є вторинними для "аналізу" всього набору даних.

— Нік Кокс

2

Тут багато цікавих ідей (+1). Зауважте, що процедура заміни не обов'язково є послідовною. Можна одразу ідентифікувати всіх "залишків" та замінити їх середнім на залишок. Це послідовна процедура, не на відміну від Winsorizing.

— whuber

6

У цій статті Кузіно і Шартьє обговорюється заміна людей, які втратили життя, середніми

http://www.redalyc.org/pdf/2990/299023509004.pdf

Вони пишуть:

Tabachnick та Fidell (2007) запропонували замінити відсутні дані на середнє значення решти даних у відповідній комірці. Однак ця процедура, як правило, зменшить поширення популяції, зробить спостережуваний розподіл більш лептокуртичним та, можливо, збільшить ймовірність помилки I типу. Більш досконала техніка, численні імпутації, передбачає заміну вичерпаних (або відсутніх даних) можливих значень (Elliott & Stettler, 2007; Serfling & Dang, 2009).

Існує також пакет "outliers" пакету R, який має функцію заміни середніх груп середнього рівня. Я також побачив ряд звернень у своєму пошуку Google, що означає, що SPSS також має таку функцію, але я не знайомий з цією програмою. Можливо, якщо ви будете слідувати темам, ви зможете відкрити технічну основу для практики.

Список літератури

Cousineau, D., & Chartier, S. (2010). Виявлення та лікування сторонніх людей: огляд. Міжнародний журнал психологічних досліджень, 3 (1), 58-67.

— Томас
джерело

Я шукав вашу довідку про всі випадки появи слова "середній" і не міг знайти місця, де він обговорює питання про заміну інвалідів середнім. Якщо я щось пропустив, ви могли б точніше вказати, де відбувається це обговорення?

— whuber

1

Я змінив посилання, тому що не міг змусити його працювати. На сторінці 9 документа автор зазначає: "Отримані люди, які явно є результатом хибної діяльності, повинні бути усунені. Однак у багатовимірних конструкціях це може призвести до видалення занадто великої кількості учасників до того, що аналіз більше не може бути виконаний. . Tabachnick і Fidell (2007) запропонували замінити відсутні дані на середнє значення решти даних у відповідній комірці. "

— Томас

2

Дякую: я зараз це бачу. Однак описувати це як "дискусію" - що дозволяє припустити, що може бути деяке врівноваження плюсів і мінусів - може бути дещо оманливим, оскільки цей уривок зазначає процедуру середньої заміни (а) лише для багатоваріантних додатків і (б) виключно щоб вказати на його дефекти, закінчившись пропозицією розглянути замість цього декілька імпутацій. (Цікаво, що посилання на цю процедуру у статті навіть не відображаються у її бібліографії.)

— whuber

5

Так, дивно, що цитується посилання відсутнє в бібліотеці. Схоже, це книга "Експериментальні розробки за допомогою ANOVA". Я намагався відповісти на початковий запит і надати посилання на практику заміни середнього значення для людей, що втратили життя. Цей документ був усім, що я міг знайти швидким пошуком, і я сподівався, що він може привести до того, що ОП зможе знайти більш повну відповідь.

— Томас

4

Головне, що потрібно пам’ятати при роботі з людьми, що переживають людей, - це те, чи надають вони корисну інформацію. Якщо ви очікуєте, що вони трапляться регулярно, то позбавлення їх даних гарантує, що ваша модель ніколи їх не прогнозує. Звичайно, це залежить від того, що ви хочете робити, але варто пам’ятати, що не слід їх опускати. Якщо вони містять важливу інформацію, ви можете розглянути модель, яка може їх врахувати. Один, простий спосіб зробити це - взяти журнали змінних, які можуть враховувати відносини закону влади. Крім того, ви можете використовувати модель, яка пояснює їх розподілом помилок жиру.

Якщо ви хочете вирізати їх, то звичайними способами є або скинути їх, або перемогти їх, щоб видалити крайні значення. У мене немає підручника, але посилання на Wiki там посилаються на деякі, якщо ви хочете прочитати далі. Більшість текстів прикладної статистики повинні мати розділ про людину, що переживає людину.

— jmz
джерело

3

Мені відомо два пов'язані схожі підходи в статистиці.

$1%$
Винсоризація: подібно до підстриженого середнього, ви змінюєте лише екстремальні спостереження. Однак, замість того, щоб скидати їх, ви замінюєте їх найбільшим / найменшим неекстремальним спостереженням. Це часто працює трохи краще, ніж обрізка.

Більш детальні приклади див. У Вікіпедії:

https://en.wikipedia.org/wiki/Trimmed_estimator

https://en.wikipedia.org/wiki/Winsorising

Зауважте, що це добре працює для деяких статистичних даних, наприклад, при обчисленні середнього. Обрізана / вигравана середня часто є кращою оцінкою справжнього середнього, ніж середнє середнє значення. В інших випадках це може зіпсувати вашу статистику. Наприклад, при обчисленні дисперсії обрізка завжди буде недооцінювати вашу справжню дисперсію. Вінсоризація, припускаючи, що справді деякі екстремальні спостереження є несправними, тоді буде працювати трохи краще (це, мабуть, ще недооцінюється, але не на стільки ж).

Я не бачу, як замінити крайні значення середнім значенням тут.

Однак існує ще одна практика, яка пов'язана з цим: імпутація відсутнього значення . Якщо припустити, що у ваших людей не вистачає вад, нічого не варті даних, тому видаліть їх. Коли ви виконуєте імпутацію, типовим значенням заміщення буде середнє значення або режим:

https://en.wikipedia.org/wiki/Imputation_%28statistics%29

— Аноні-Мус
джерело

1

Обрізання асиметрично - відома та захищаюча тактика.

— Нік Кокс

2

Традиційний підхід для поводження з чужими людьми - просто видалити їх таким чином, щоб ваша модель була навчена лише на "хороших" даних.

Майте на увазі, що середнє значення впливає на наявність цих людей. Якщо ви заміните інвалідів середнім значенням, розрахованим після того, як вилучені люди видалили з вашого набору даних , це не матиме ніякої різниці, оскільки лінія регресії (від простої лінійної регресії) все одно буде проходити через середнє значення ваших навчальних даних (це зменшить дисперсію ваших Оцінки, однак, що, мабуть, протилежне тому, що ви хочете, враховуючи, що ви знаєте, що є люди, що переживають люди.

Ефект, який матиме ваш підхід на модель, залежить від впливу (важеля) зовнішньої групи. Я б рекомендував проти запропонованого вами підходу замість того, щоб повністю усунути точку.

— Девід Маркс
джерело

4

Видалення даних спричинить упередження, якщо процедура вилучення не є об'єктивною, і ця сама процедура буде застосована до всіх майбутніх даних, щодо яких отримано прогнози.

— Френк Харрелл

0

так, залишки можуть бути замінені у формах може, наприклад, візьмемо набір даних розміру людської висоти, скажімо, у нас є кілька переживальників, як 500 см і 400 см, то ми можемо просто замінити ті точки даних, які відображаються в набір даних через деяку помилку, яка була викликана під час запису даних. тож варіанти, які ви можете спробувати, - 1. замініть його на колір медіани цілого кольору (не середній, оскільки він схильний до людей, що переживають люди). 2. замінити найбільш стовпчасту точку даних у стовпці. 3. Якщо значення "Категорія", ви можете спробувати кодування відповіді (де ви записуєте ймовірність слова або значення, що виникають на загальну кількість слів)

— Sujit Jena
джерело