Гаразд, чесне попередження - це філософське питання, яке не стосується цифр. Я багато думав про те, як помилки повстають у набори даних у часі і як це слід ставитись до аналітиків - чи це насправді має значення взагалі?
З іншого боку, я аналізую багаторічне дослідження, яке передбачає безліч наборів даних, зібраних, ймовірно, 25 людьми протягом 7-8 років - ніхто ніколи не приводив усіх даних у цілісну структуру (це моя робота). Я багато робив введення даних (переписуючи з фотокопій старих зошитів лабораторії), і я постійно знаходжу невеликі помилки транскрипції, які робили інші люди, а також знаходжу дані, які важко чи неможливо прочитати - в основному тому, що чорнило з часом згас. Я використовую контекст, щоб зробити "найкращі здогадки" про те, що кажуть дані, і взагалі залиште дані, якщо я не досить впевнений. Але я продовжую думати про те, що щоразу, коли дані копіюються, частота помилок неминуче збільшуватиметься до повного втрати вихідних даних.
Отже, це наштовхує мене на думку: окрім помилок приладу / вимірювання та помилок запису є фундаментальний компонент "Помилка обробки даних", який з часом збільшуватиметься та збільшуватиме обробку даних (бічна примітка: це, мабуть, це просто ще один спосіб викладення 2-го закону термодинаміки, правда? Ентропія даних завжди буде зростати). Отже, мені цікаво, чи має бути якась «корекція», запроваджена для врахування історії даних наборів даних (щось подібне до корекції Бонферроні)? Іншими словами, чи слід вважати, що старі чи більш скопійовані набори даних є менш точними, і якщо так, чи слід відповідно відрегулювати результати?
Але тоді моя інша думка полягає в тому, що помилки є невід'ємною частиною збору даних та обробки даних, і оскільки всі статистичні тести були розроблені за допомогою даних реального світу, можливо, ці джерела помилок уже "оцінені" в аналізі?
Крім того, ще один момент, про який варто згадати, полягає в тому, що оскільки помилки даних є випадковими, вони набагато частіше знижують надійність знаходження, ніж покращують його - іншими словами, помилки обробки даних призвели б до помилок типу 2, а не до помилок типу 1 . Так, у багатьох контекстах, якщо ви використовували старі / сумнівні дані та все-таки знайшли ефект, це збільшить вашу впевненість у тому, що ефект справжній (адже він був досить сильним, щоб пережити додавання випадкової помилки до набору даних). Тож з цієї причини, можливо, "корекція" повинна піти іншим шляхом (збільшити рівень альфа, необхідний для "знаходження"), або просто не турбувати нас?
У всякому разі, вибачте, що настільки багатослівний і тупий, я не дуже впевнений, як поставити це питання більш стисло. Дякуємо, що поводилися зі мною.