Статистична криміналістика: Бенфорд та за його межами


23

Які існують широкі методи виявлення шахрайства, аномалій, підробок тощо у наукових працях, створених третьою стороною? (Мене спонукало запитати про це нещодавньою справою Марка Хаузера .) Зазвичай для фальсифікації виборів та бухгалтерського обліку цитується якийсь варіант Закону Бенфорда . Я не впевнений, як це може бути застосовано, наприклад, до випадку Марка Хаузера, оскільки Закон Бенфорда вимагає, щоб номери були приблизно однаковими.

В якості конкретного прикладу, припустимо, у статті наведено значення p для великої кількості статистичних тестів. Чи міг би перетворити їх на реєстрацію рівномірності, а потім застосувати закон Бенфорда? Здається, що з цим підходом виникнуть всілякі проблеми ( наприклад, деякі з нульових гіпотез можуть бути законно помилковими; статистичний код може дати р-значення, які є приблизно приблизно правильними, тести можуть дати лише р-значення, однакові під нульовою асимптотикою тощо)


2
На це питання відчайдушно потрібна відповідь, яка б наводила фактичні приклади статистичної криміналістики! Прийнята відповідь зовсім не робить цього. Є чудові останні приклади, такі як, наприклад, Simonsohn 2013 , Carlisle 2012 (та наступні 2015 ), Pitt and Hill 2013 та, можливо, інші.
Амеба каже, що повернеться до Моніки

Відповіді:


11

Велике запитання!

У науковому контексті існують різні види проблемної звітності та проблемної поведінки:

  • Шахрайство : Я б визначив шахрайство як навмисний намір автора чи аналітика помилково представити результати, і де викривлення має досить серйозний характер. Основним прикладом є повне виготовлення необроблених даних або зведених статистичних даних.
  • Помилка : Аналітики даних можуть робити помилки на багатьох етапах аналізу даних: від введення даних, до маніпулювання даними, до аналізу, до звітування, інтерпретації.
  • Невідповідна поведінка : Існує багато форм неадекватної поведінки. Загалом, це може бути узагальнено орієнтацією, яка прагне підтвердити певну позицію, а не шукати істину.

Загальні приклади невідповідної поведінки включають:

  • Вивчення ряду можливих залежних змінних та звітування лише про ту, яка є статистично значимою
  • Не кажучи вже про важливі порушення припущень
  • Виконання маніпуляцій з даними та процедур видалення, не згадуючи про них, особливо, коли ці процедури є невідповідними та вибраними суто для покращення результатів
  • Представлення моделі як підтверджуючої, яка насправді є дослідницькою
  • Пропускаючи важливі результати, що суперечать бажаному аргументу
  • Вибір статистичного тесту виключно на основі того, що він робить результати кращими
  • Запуск серії з п'яти або десяти недостатніх досліджень, де лише одне є статистично значущим (можливо, при p = .04), а потім повідомляє про дослідження без згадки про інші дослідження

Загалом, я вважаю, що некомпетентність пов'язана з усіма трьома формами проблемної поведінки. У дослідника, який не розуміє, як робити добру науку, але в іншому випадку хоче досягти успіху, буде більший стимул до неправильного представлення їх результатів, і менша ймовірність поважати принципи етичного аналізу даних.

Вищезазначені відмінності мають наслідки для виявлення проблемної поведінки. Наприклад, якщо вам вдасться встановити, що набір повідомлених результатів є неправильним, все одно потрібно з’ясувати, чи були результати результатом шахрайства, помилки чи невідповідної поведінки. Також я припускаю, що різні форми невідповідної поведінки набагато частіше, ніж шахрайство.

Що стосується виявлення проблемної поведінки, я думаю, що це значною мірою навичка, що випливає з досвіду роботи з даними , роботи з темою та роботи з дослідниками. Весь цей досвід підсилює ваші очікування щодо того, як мають виглядати дані. Таким чином, основні відхилення від очікувань запускають процес пошуку пояснення. Досвід дослідників дає вам уявлення про види неадекватної поведінки, які є більш-менш поширеними. У поєднанні це призводить до створення гіпотез. Наприклад, якщо я читаю статтю журналу і мене дивують результати, дослідження недостатньо, і характер написання говорить про те, що автор налаштований на точку, я породжую гіпотезу, що результатів, можливо, не повинно бути довіряв.

Інші ресурси


4

Власне, Закон Бенфорда - неймовірно потужний метод. Це пояснюється тим, що частотний розподіл Бенфорда на першу цифру застосовується до різного роду наборів даних, що відбуваються в реальному або природному світі.

Ви праві, що можете використовувати Закон Бенфорда лише за певних обставин. Ви кажете, що дані повинні мати рівномірний розподіл журналу. Технічно це абсолютно правильно. Але, ви можете описати вимогу набагато простіше і поблажливіше. Все, що вам потрібно, це те, що діапазон набору даних перетинає щонайменше один порядок. Скажімо, від 1 до 9 або 10 до 99 або 100 до 999. Якщо він перетинає два порядки, ви займаєтеся бізнесом. І, закон Бенфорда повинен бути дуже корисним.

Краса закону Бенфорда полягає в тому, що він допомагає вам дуже швидко звузити розслідування на голках (ів) в межах сіна даних. Ви шукаєте аномалії, за якими частота першої цифри сильно відрізняється від частот Бенфорда. Як тільки ви помітите, що існує два багато 6-го, ви використовуєте Закон Бенфорда, щоб зосередитись лише на 6-х; але перейдіть до перших двох цифр (60, 61, 62, 63 тощо). Тепер, можливо, ви дізнаєтесь, що існує набагато більше 63-х, ніж те, що пропонує Бенфорд (ви зробите це шляхом обчислення частоти Бенфорда: log (1 + 1/63), який дає значення, близьке до 0%). Отже, ви використовуєте Бенфорда для перших трьох цифр. На той час, коли ви дізнаєтесь, існує занадто багато 632 (або що завгодно, обчислюючи частоту Бенфорда: log (1 + 1/632)), ніж очікувалося, ви, напевно, на чомусь. Не всі аномалії є шахрайством. Але,

Якщо набір даних, якими маніпулював Марк Хаузер, є природними необмеженими даними з відповідним діапазоном, який був достатньо широким, то Закон Бенфорда був би досить хорошим діагностичним інструментом. Я впевнений, що є інші хороші інструменти діагностики, які також виявляють малоймовірні закономірності, і, поєднуючи їх із Законом Бенфорда, ви, швидше за все, могли ефективно розслідувати справу Марка Хаузера (з огляду на згадану вимогу закону Бенфорда).

Я трохи більше пояснюю Закон Бенфорда в цій короткій презентації, яку ви можете побачити тут: http://www.slideshare.net/gaetanlion/benfords-law-4669483

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.