У пропозиції є численні вади. Ось, мабуть, найбільша.
Припустимо, ви збираєте дані та бачите ці значення:
2,3,1
6/3=2
Потім виходить чужа людина:
2,3,1,1000
Отже, ви замінюєте його середнім:
2,3,1,2
Наступне число добре:
2,3,1,2,7
Тепер середнє значення 3. Зачекайте хвилину, середнє значення зараз 3, але ми замінили 1000 на середнє значення 2, тільки тому, що воно відбулося як четверте значення. Що робити, якщо ми змінимо порядок зразків?
2,3,1,7,1000
(2+3+1+7)/4=13/4
Проблема полягає в тому, що помилкова дата, яку ми замінюємо замість 1000, залежить від інших даних. Це гносеологічна проблема, якщо зразки повинні представляти незалежні вимірювання.
nnnnn
В основному, обрізання результатів, які не підходять, - це одне (і може бути виправданим, якщо це робиться послідовно за алгоритмом, а не за зміною настрою експериментатора).
Відверта фальсифікація результатів заперечує на філософських, гносеологічних та етичних засадах.
Можуть бути деякі пом'якшувальні обставини, які пов'язані з тим, як використовуються результати. Як, наприклад, скажімо, що ця заміна випускників середньою середньою точністю є частиною вбудованого алгоритму вбудованого комп'ютера, який дозволяє йому реалізовувати систему управління замкнутим циклом. (Він відбирає деякі вихідні дані системи, потім коригує входи, щоб досягти контролю.) Все в режимі реального часу, і тому щось потрібно подавати протягом заданого періоду часу замість відсутніх даних. Якщо ця маніпуляція допомагає подолати глюки і забезпечує безперебійну роботу, то все добре.
Ось ще один приклад з цифрової телефонії: PLC (приховування втрат пакетів). Лайно трапляється, і пакети губляться, але спілкування в режимі реального часу. PLC синтезує підроблені фрагменти голосу на основі нещодавньої інформації про висоту з правильно отриманих пакетів. Отже, якщо динамік вимовляв голосну "aaa", а потім пакет втрачався, PLC може прокладати відсутній пакет, екстраполюючи "aaa" на тривалість кадру (скажімо, 5 або 10 мілісекунд чи що завгодно). "Ааа" така, що нагадує голос мовця. Це аналогічно використанню "середнього" для заміни значень, які вважаються поганими. Це гарна річ; це краще, ніж звук, що прошиває звук, і сприяє розбірливості.
Якщо підробка даних є частиною програми брехні людей, щоб приховати невдалу роботу, це щось інше.
Отже, ми не можемо думати про це незалежно від програми: як використовується статистика? Чи заміна призведе до недійсних висновків? Чи є етичні наслідки?