Чи помилки в обробці даних вже «оцінені» в статистичному аналізі?


10

Гаразд, чесне попередження - це філософське питання, яке не стосується цифр. Я багато думав про те, як помилки повстають у набори даних у часі і як це слід ставитись до аналітиків - чи це насправді має значення взагалі?

З іншого боку, я аналізую багаторічне дослідження, яке передбачає безліч наборів даних, зібраних, ймовірно, 25 людьми протягом 7-8 років - ніхто ніколи не приводив усіх даних у цілісну структуру (це моя робота). Я багато робив введення даних (переписуючи з фотокопій старих зошитів лабораторії), і я постійно знаходжу невеликі помилки транскрипції, які робили інші люди, а також знаходжу дані, які важко чи неможливо прочитати - в основному тому, що чорнило з часом згас. Я використовую контекст, щоб зробити "найкращі здогадки" про те, що кажуть дані, і взагалі залиште дані, якщо я не досить впевнений. Але я продовжую думати про те, що щоразу, коли дані копіюються, частота помилок неминуче збільшуватиметься до повного втрати вихідних даних.

Отже, це наштовхує мене на думку: окрім помилок приладу / вимірювання та помилок запису є фундаментальний компонент "Помилка обробки даних", який з часом збільшуватиметься та збільшуватиме обробку даних (бічна примітка: це, мабуть, це просто ще один спосіб викладення 2-го закону термодинаміки, правда? Ентропія даних завжди буде зростати). Отже, мені цікаво, чи має бути якась «корекція», запроваджена для врахування історії даних наборів даних (щось подібне до корекції Бонферроні)? Іншими словами, чи слід вважати, що старі чи більш скопійовані набори даних є менш точними, і якщо так, чи слід відповідно відрегулювати результати?

Але тоді моя інша думка полягає в тому, що помилки є невід'ємною частиною збору даних та обробки даних, і оскільки всі статистичні тести були розроблені за допомогою даних реального світу, можливо, ці джерела помилок уже "оцінені" в аналізі?

Крім того, ще один момент, про який варто згадати, полягає в тому, що оскільки помилки даних є випадковими, вони набагато частіше знижують надійність знаходження, ніж покращують його - іншими словами, помилки обробки даних призвели б до помилок типу 2, а не до помилок типу 1 . Так, у багатьох контекстах, якщо ви використовували старі / сумнівні дані та все-таки знайшли ефект, це збільшить вашу впевненість у тому, що ефект справжній (адже він був досить сильним, щоб пережити додавання випадкової помилки до набору даних). Тож з цієї причини, можливо, "корекція" повинна піти іншим шляхом (збільшити рівень альфа, необхідний для "знаходження"), або просто не турбувати нас?

У всякому разі, вибачте, що настільки багатослівний і тупий, я не дуже впевнений, як поставити це питання більш стисло. Дякуємо, що поводилися зі мною.


7
Це чудове запитання (+1). Однак один момент: це може бути суттєвою помилкою трактувати більшість помилок даних, які ви згадуєте, як "випадкові". Наприклад, під час транскрипції, як правило, набагато більше міняються цифрами "0", "5", "6" і "8", ніж інші цифри (і деякі з них можна неправильно читати як "." І навпаки ). Також зміни, внесені до видатних значень даних (наприклад, крайності), часто швидко ідентифікуються та фіксуються. Хоча, безумовно, є певний елемент шансу в цих корупційних процесах даних, їх характеристика може бути важливою проблемою.
whuber

1
Чому ви не лікуєте помилки в обробці даних, які є частиною помилок вимірювань, і не вирішуєте їх відповідно? Якщо для вимірювання кількості вершників у парку розваг мені потрібно розгорнути 20 людей, щоб спостерігати за воротами, то я можу вважати цю команду для 20 людей як своєрідний вимірювальний прилад
Аксакал

@whuber, досі випадково змішувати 8 і 5, хоча це може не мати однакової ймовірності при змішуванні 5 і 7.
Аксакал

1
@whuber, це захоплююча точка (не однакова частота певних типів помилок транскрипції), про яку я не думав. Чи можете ви вказати мені будь-які джерела, щоб дізнатися більше про це? Мене змушує замислитися, чи можна було б розробити тест на якість даних на основі розрядних частот? Я чув про подібні тести на фальшиві / підроблені дані на основі цифрної частоти, тому я думаю, що щось подібне було б можливим, якщо тенденції, які ви згадуєте, будуть узгодженими.
Жас Макс

@whuber, ще одна думка. Ви згадуєте 0, 5, 6, 8 часто плутають - бо вони схожі? Це дає мені зрозуміти, що різні джерела помилок мали б характерні помилки підстановки - наприклад, якби ви чули дані (записуючи те, що хтось сказав), то, я думаю, 5 та 9, ймовірно, будуть частіше плутати. Якщо джерелом помилки була ентропія (вицвітання фарби або переміщення електронів), я думаю, що заміна була б більш випадковою, але, можливо, також унікальною. Якщо ці шаблони дотримуються, можливо, ви могли б дослідити джерела помилок у великих наборах даних, виходячи з частоти цифр.
Жас Макс

Відповіді:


3

Я другий із пропозицією @Aksakal: Якщо помилка вимірювання аналітик розглядає як потенційно важливу, вона може бути і має бути чітко модельована як частина процесу генерації даних.

Я бачу кілька міркувань, які суперечать введенню загального коригуючого коефіцієнта на основі, наприклад, віку набору даних.

По-перше, вік може бути дуже низьким показником ступеня погіршення даних. Очевидно, важливими факторами є технологія дублювання, стиснення та збереження, а також ступінь зусиль та турботи, що вкладаються у перевірку правильності транскрипції. Деякі старовинні тексти (наприклад, Біблія) зберігаються протягом століть з явно нульовою деградацією. Ваш приклад VHS, хоча і легітимний, насправді незвичний, оскільки кожна подія дублювання завжди вводить помилку, і не існує легких способів перевірити та виправити помилки транскрипції - якщо використовуються дешеві, широко доступні технології для дублювання та зберігання. Я очікую, що на один рівень зниження введених помилок істотно через інвестиції в більш дорогі системи.

Останній пункт є більш загальним: збереження та поширення даних - це економічна діяльність. Якість передачі значною мірою залежить від розгорнутих ресурсів. Цей вибір у свою чергу залежатиме від сприйнятої важливості даних для того, хто робить копіювання та передачу.

Економічні міркування стосуються також і аналітика. Завжди є більше факторів, які ви можете врахувати, роблячи аналіз. За яких умов помилки транскрипції даних будуть досить істотними та досить важливими, що їх варто враховувати? Моя думка така: такі умови зустрічаються нечасто. Крім того, якщо потенційна деградація даних вважається достатньо важливою, щоб врахувати її у своєму аналізі, то, ймовірно, досить важливо докласти зусиль, щоб чітко моделювати процес, а не вставляти загальний крок "виправлення".

Нарешті, немає необхідності розробляти такий загальний корекційний коефіцієнт de novo . Існує вже значна частина статистичної теорії та практики для аналізу наборів даних, для яких помилка вимірювання вважається важливою.

Підсумовуючи: це цікава думка. Але я не думаю, що це повинно стимулювати зміни в аналітичній практиці.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.