Як дратувати статистичного арбітра?


102

Нещодавно я задав питання щодо загальних принципів щодо перегляду статистичних даних у документах . Зараз я хотів би запитати, що особливо дратує вас при перегляді документа, тобто який найкращий спосіб насправді дратувати статистичного арбітра!

Приклад на відповідь, будь ласка.


Чи поширюється це на обґрунтування, отримані у відповідь на первинний огляд (де було запропоновано незначні та / або основні зміни)?
chl

@chl: Так, чому б ні.
csgillespie

Відповіді:


69

Що мене особливо дратує , це люди, які чітко використовували написані користувачем пакети для статистичного програмного забезпечення, але не цитують їх належним чином або взагалі, тим самим не надаючи жодної заслуги авторам. Це особливо важливо, коли автори знаходяться в академічних закладах, і їх робота залежить від публікації цитованих робіт . (Можливо, слід додати, що в моєму полі багато винуватців не є статистиками.)


2
+1 для мене. Це мене засмучує, особливо, коли вони цитують неправильну річ, і я надав відповідні подробиці про те, як цитувати пакунки
Гевін Сімпсон

3
Запитання: цитуючи пакет, ви цитуєте віньєтку (якщо така існує) або сам пакет?
Брендон Бертелсен

7
@Brandon: якщо автор пакета піклується про те, щоб вас направити, вони відповіли у формі, яку буде обрано цитуванням ("some_package")
Бен Болкер

2
Окрім наявності важливого паперу, який зробити не так просто, найпростіший спосіб отримати цитати - залишити принаймні одну помилку у вашому документі. Потім ви можете опублікувати виправлення, в якому цитується оригінал паперу. Залиште помилку в корекції, і ви можете опублікувати виправлення, в якому згадується оригінал виправлення та оригінальний папір (я бачив таке, як студент 1 курсу). Кількість цитат зростає як процес O (N ^ 2), де N - кількість виправлень.
Марк Л. Стоун

67

Боже, так багато речей приходить на думку ...

  • Поетапна регресія

  • Розбиття безперервних даних на групи

  • Давання p-значень, але не вимірює розмір ефекту

  • Опис даних, використовуючи середнє та стандартне відхилення, не вказуючи, чи були дані більш-менш симетричними та одномодовими

  • Цифри без чітких підписів (чи є ці смужки помилок стандартними помилками середнього значення, або стандартні відхилення в групах, чи що?


5
Мені трохи цікаво покрокова регресивна куля. Що робить поетапну регресію настільки поганою? Це питання драгування даних та багаторазове порівняння?
Крістофер Аден

17
Проблема полягає в тому, що поетапні процедури повністю позбавляють усіх припущень і передумов для "нормальної" інфекційної статистики, заснованої на p значеннях, які потім сильно зміщуються (вниз до "більш значущих"). Отже, в основному, відповідь "так", із застереженням, яке можна було б в принципі виправити для всіх цих кількох порівнянь (але цього я ніколи не бачив). Я твердо вірю, що це єдина найважливіша причина, чому я бачу так багато досліджень у психології, що їх неможливо повторити - що, в свою чергу, призводить до величезної трати ресурсів.
Стефан Коласа

10
@Stephan: Я згоден, поетапно це погана ідея. Хоча вони, мабуть, ще не зробили це з допомогою психічних методів, але існують різноманітні процедури відбору, які коригують упередження, пов’язані з надмірним пристосуванням, коригуючи оцінки та стандартні помилки. Зазвичай це не розглядається як питання численних порівнянь. Вони відомі як методи усадки. Дивіться мою відповідь у цій темі < stats.stackexchange.com/questions/499/… > та "Стратегії моделювання регресії" Гаррела або "Тибширані" на ласо.
Бретт

5
@Brett Magill: +1 про це, і так, я знаю про усадку та ласо. Тепер все, що мені потрібно, - це певний спосіб переконати психологів у тому, що це має сенс ... але люди ведуть боротьбу з дуже обмеженим успіхом лише для того, щоб змусити психологів звітувати про довірчі інтервали, тому я не надто оптимістично налаштований на прийняття психологами усадки в наступному двадцять років.
Стефан Коласа

10
Я також стверджую, що в психології максимізація прогнозування не є типовою теоретичною метою, але поступова регресія полягає в тому, щоб досягти максимального прогнозування, хоча і в квазіпармонійному напрямку. Таким чином, зазвичай існує розрив між процедурою та питанням.
Джеромі Англім

41

Ірен Страттон та його колега опублікували короткий документ про тісно пов'язане питання:

Страттон І.М., Ніл А. Як переконатися, що ваша стаття відхилила статистичний оглядач . Діабетична медицина 2005; 22 (4): 371-373.


Посилання розірвано.
Олівер Анжеліл


32

Код, який використовується для створення імітованих результатів, не надається. Після запиту коду він вимагає додаткової роботи, щоб змусити його працювати на наборі даних, створених суддею.


2
І він погано відформатований, некоментований та використовує нерозбірливі назви змінних та функцій. Ооо, так.
naught101

30

Плагіат (теоретичний чи методологічний). Мій перший огляд справді був для документа, в якому було зроблено безліч невпорядкованих копій / вставок із добре створеної методичної праці, опублікованої 10 років тому.

Щойно знайшли пару цікавих робіт на цю тему: Авторство та плагіат в науці .

У цьому ж ключі я вважаю фальсифікацію (даних або результатів) найгіршою з усіх.


20
Нагадує мені , що в моїх ранні дні в якості арбітра я провів далеко надто довго розглядаю статистичний документ , який був в кінці кінців відкинутий конкретним журналом, а й інші судді , і я запропонували більш корисне застосування для методу, і я накидав алгебраїчне доказ замінити незадовільне імітаційне дослідження в рукописі. З тих пір автори отримали два опубліковані праці. Мене це не дратує , але підтвердження типу "ми дякуємо арбітрам попередньої версії документа за корисні коментарі" було б корисним способом.
onestop

1
@onestop Так, я можу уявити, якою невтішною може бути така ситуація ...
chl

24
Кілька тижнів тому мені дали документ про рецензію і виявили, що 85% було опубліковано в іншому журналі ... тих самих авторів. Це теж досі вважається плагіатом. Протягом останніх декількох років я регулярно надсилав до веб-пошукових систем шматки документів - особливо рефератів, вступів та висновків - перед тим, як робити огляд. Я хочу бути впевненим, що твір оригінальний, перш ніж я вкладаю будь-який час у його читання.
whuber

7
+1, @whuber. Як редактор методологічного журналу, я часто маю на увазі, чи є вклад (як правило, від добре знайомих авторів; молодші автори ще не всі потрапили на цю траєкторію), що підтверджує публікацію, враховуючи, що всі вони ' Зроблено, вони по-іншому зібрали вісім блоків Лего, що складалися з попередніх п'яти статей. Це змушує мене поставити під сумнів внесок у попередніх п'ятдесяти статтях, які опублікували і ці автори :(.
Стаск

26

Коли ми запитуємо у авторів

  1. незначний коментар щодо ідеї, яку ми маємо (у цьому сенсі це не розглядається як причина для відхилення статті, а просто для того, щоб автори могли обговорити іншу POV), або
  2. неясні або суперечливі результати,

і що автори насправді не відповідають на випадок (1) або, що інкриміновані результати в (2) зникнуть з МС.


7
Загадково зникаючими результатами має бути автоматичне відхилення, imo. Я впевнений, що це трапляється багато "за кадром" (тобто до подання документа), але це очевидний доказ "вишневого збирання", про який звичайні читачі газети ніколи не дізнаються.
Макрос

3
Ще одна причина відкритої системи експертної оцінки.
fmark

24

Плутанина р-значень та розміру ефекту (тобто, констатуючи, що мій ефект великий, тому що у мене дійсно крихітне p-значення).

Трохи відрізняється від Штефан відповіді виключення величини ефекту , але дає р-значення. Я згоден, ви повинні дати і те й інше (і, сподіваюся, зрозумієте різницю!)


23

Без врахування розмірів ефекту.

П інг протягом усього дослідження (я повинен за це призначити свого улюбленого професора середньої школи).

Надаючи неміцну кількість цифр (чоловіки набрали на 3.102019 фунтів більше, ніж жінки)

Не включаючи номери сторінок (що ускладнює перегляд)

Неправильне числення фігур та таблиць

(як уже згадувалося - поетапно і категоризуючи безперервні змінні)


7
(+1) голосно сміявся: "Надаючи неміцну кількість цифр (чоловіки набрали на 3.102019 фунтів більше, ніж жінки)".
Макрос

19

Коли вони недостатньо пояснюють свій аналіз та / або включають прості помилки, які ускладнюють роботу над тим, що було зроблено насправді. Це часто включає викидання багато жаргону за допомогою пояснень, що є більш неоднозначним, ніж здається, що автор усвідомлює, а також може бути неправильно використаний.


Погодьтеся - намагаються зрозуміти, що мали на увазі автор (и), перш ніж навіть оцінити науковий зміст, насправді дратує.
Лоран

5
Я погоджуюся, але мені здається, що це ще більше дратує, коли рецензент каже вам пропустити (або перейти до додаткових матеріалів), які, реально, дуже важливі деталі аналізу. Завдяки цій проблемі багато наукових / суспільствознавчих робіт, які роблять навіть найскладніший аналіз, є доволі виразними в цьому плані.
Макрос

16

Використання мови причинного зв'язку для опису асоціацій у даних спостережень, коли опущені змінні майже напевно є серйозною проблемою.


3
Я погоджуюся, що дослідники повинні розуміти обов'язки спостережних досліджень, особливо пов'язані з опущеними змінними, але я не думаю, що це дозволяє уникнути причинної мови. Дивіться роботу Хуберта Блалока, зокрема його книгу Причинно-наслідкові умовиводи в неекспериментальних дослідженнях, щоб отримати більш детальний аргумент на захист використання причинної мови.
Енді Ш

3
(+1) Це може бути моєю найбільшою проблемою в епідеміологічних дослідженнях.
Макрос

14

Коли автори використовують один відомий їм статистичний тест (у моїй галузі, як правило, t-тест або ANOVA), ad infinitum, незалежно від того, чи підходить він. Нещодавно я переглянув документ, в якому автори хотіли порівняти десяток різних груп лікування, тому вони зробили двопробний тест для кожної можливої ​​пари процедур ...


13

Складання нових слів для існуючих понять або, навпаки, використання існуючих термінів для позначення чогось іншого.

Деякі існуючі термінологічні відмінності вже давно оселилися в літературі: поздовжні дані в біостатистиці порівняно з панельними даними в економетриці; причинно-наслідкові показники в соціології проти формаційних та рефлексивних показників у психології; і т. д. Я все ще їх ненавиджу, але принаймні ви можете знайти кілька тисяч посилань на кожну з них у відповідних літературах. Найновішою є ця ціла низка роботи над спрямованими ациклічними графіками в причинній літературі: більшість, якщо не вся, теорія ідентифікації та оцінки в них була розроблена економістами в 1950-х роках під назвою одночасних рівнянь.

Термін, що має подвійне, якщо не потрійне значення, означає "надійний", а різні значення часто суперечать один одному. "Надійна" стандартна помилка не є надійною для далеких людей; крім того, вони не є надійними проти нічого, крім припущення про відхилення від моделі, і часто мають невеликі невеликі показники вибірки. Стандартні помилки Білого не є надійними щодо послідовних або кластерних кореляцій; "надійні" стандартні помилки в SEM не є надійними щодо хибних специфікацій структури моделі (опущені контури або змінні). Так само, як і при ідеї тестування значимості нульової гіпотези, неможливо навести пальцем на когось і сказати: "Ви несете відповідальність за те, що заплутаєте декілька поколінь дослідників у формуванні цієї концепції, яка насправді не означає її назви".


1
Я маю визнати вчинення обох гріхів: я описую свої дані як "мають ієрархічну структуру: коли у мене рівні з відносинами 1: n (багато вимірювань кожного зразка, кілька зразків на пацієнта). У якийсь момент я досить випадково дізнався, що це називається "кластерною" структурою даних - тепер я використовую обидва терміни. Але я досі не знаю, як я міг би знайти цей термін, я відчайдушно шукав слово, щоб описати свою структуру даних ... Навпаки: Я використовую методики, які називаються м'якою класифікацією при дистанційному зондуванні. Моє поле (хіміометрія) використовує його з зовсім іншим значенням.
cbeleites

2
Це все добре - ви можете додати "багаторівневий" до свого списку способів посилання на цю структуру теж. "Кластеризовані" зазвичай означають, що спостереження, як відомо, є співвіднесеними, але ніхто не піклується про моделювання такої кореляції, оскільки вона не представляє першочергового інтересу, і використовує методи, стійкі до такої кореляції, як GEE. У вас є щось на зразок повторних заходів MANOVA. Існує пакет Stata, gllammякий розглядає ваші дані як багаторівневі / ієрархічні дані, але більшість інших пакетів вважають багаторазові вимірювання як змінні / стовпці, а вибірки - як спостереження / рядки.
Стаск

Дякуємо за вклад. Ну, сьогодні я, звичайно, запитаю тут, як це називається ... Це не зовсім повторні вимірювання: зазвичай я вимірюю число (порядок величини: від 10 ^ 2 до 10 ^ 4) різних плям на вибірці, щоб виробляють помилкові кольори карти різних складових, і кожне вимірювання вже має 10 ^ 2 - 10 ^ 3 спостережень (довжини хвиль у спектрі). У межах кожного зразка багато спектрів сильно корелюються, але не всі: зразки не є однорідними. ...
cbeleites

1
... Ваш опис "кластеризованих" дуже схожий на те, що ми робимо. Але я подбаю про те, щоб розділити вибірки для перевірки, мовляв, я не маю уявлення про ефективний розмір вибірки (крім того, що це принаймні кількість реальних зразків, що беруть участь), а іноді показую, що проводити всі ці вимірювання кожного зразок насправді допомагає навчанню моделі.
cbeleites

1
Цікаві та цікаві дані, точно.
Стаск

11

Нульовий розгляд відсутніх даних.

У багатьох практичних програмах використовуються дані, для яких є хоча б якісь відсутні значення. Це, звичайно, дуже вірно в епідеміології. Відсутні дані представляють проблеми для багатьох статистичних методів - включаючи лінійні моделі. Пропущені дані за лінійними моделями часто розглядаються шляхом видалення випадків із будь-якими відсутніми даними на будь-яких коваріатах. Це проблема, якщо дані відсутні у припущенні, що дані відсутні повністю випадково (MCAR).

Можливо, 10 років тому було обґрунтовано публікувати результати лінійних моделей без подальшого врахування браку. Я, безумовно, в цьому винен. Однак зараз дуже доступні дуже хороші поради щодо поводження з відсутніми даними при багаторазовій імпутації, як і статистичні пакети / моделі / бібліотеки / тощо. полегшити більш відповідні аналізи при більш розумних припущеннях, коли існує відсутність.


1
В дусі намагань виховати, чи можете ви детальніше розробити? Що ви вважаєте за врахування - визнання його існує чи коригування статистичного аналізу перед ним (наприклад, імпутація). Якщо це можливо, я намагаюся включити допоміжну. таблиці відсутніх значень за коефіцієнтами, що цікавлять, але незрозуміло, чи цього достатньо для "розгляду" цим зауваженням.
Andy W

8

Повідомлення про ефекти, які "наближалися до значущості (наприклад, p <.10), а потім пишуть про них так, ніби вони набули значущості на більш жорсткому і прийнятному рівні. Запуск декількох моделей структурних рівнянь, які не були вкладені, а потім писати про них так, ніби вони Прийнявши чітко сформовану аналітичну стратегію і представляючи її так, ніби ніхто ніколи не думав її використовувати. Можливо, це кваліфікується як плагіат до п ятого ступеня.


Може бути, це винахід колеса, а не плагіат?
gerrit

7

Я рекомендую наступні дві статті:

Мартін Бленд:
Як засмутити статистичного арбітра
Це ґрунтується на серії переговорів, проведених Мартіном Бландам, а також даних інших статистичних арбітрів ("зручність вибірки з низьким рівнем відповіді"). Він закінчується 11-бальним списком "[h] ow, щоб уникнути засмучення статистичного судді".

Стіян Лідерсен:
Статистичний огляд: часто даються коментарі
Цей останній документ (опублікований 2014/2015) перераховує 14 найпоширеніших коментарів автора з огляду на основі прибл. 200 статистичних оглядів наукових праць (у конкретному журналі). Кожен коментар містить коротке пояснення проблеми та інструкції, як правильно робити аналіз / звітування. Список цитованих посилань - скарбниця цікавих паперів.


Список від Лідерсена цікавий. Я думаю, що я не згоден з їх кількома. . .
StatsStudent

6

Мене найбільше (і найчастіше) дратує "валідація", спрямована на помилку узагальнення прогнозних моделей, коли дані тестування не є незалежними (наприклад, багаторазові вимірювання на пацієнта в даних, вимірюваннях, що не входять у завантаження, або перехресні валідації, не розбиваючи вимірювання не пацієнтів ).

Ще більше дратують документи, які дають такі хибні результати перехресної перевірки плюс незалежний тестовий набір, який демонструє надто оптимістичну упередженість перехресної перевірки, але жодного слова про те, що конструкція перехресної перевірки неправильна ...

(Я був би дуже радий, якщо будуть представлені ті самі дані, "ми знаємо, що перехресне підтвердження повинно розділяти пацієнтів, але ми застрягли з програмним забезпеченням, яке цього не дозволяє. Тому ми протестували справді незалежний набір тестових пацієнтів. ")

(Я також знаю, що завантажувальна передача = перекомпонування з заміною зазвичай працює краще, ніж перехресне підтвердження = переустановка без заміни. Однак ми знайшли для спектроскопічних даних (модельовані спектри та налаштування трохи штучної моделі, але реальні спектри), які повторювали / повторювали перехресну валідацію та вихід -of-bootstrap мав подібну загальну невизначеність; oob мав більше упередженості, але меншу дисперсію - для перемотування я дивлюся на це з дуже прагматичної точки зору: повторна перехресна перевірка проти поза завантаження не має значення, поки багато документів ні розбивати пацієнтів, ні повідомляти / обговорювати / згадувати випадкову невизначеність через обмежений розмір тестового зразка.)

Окрім помилки, це також має побічний ефект, що людям, які роблять належну перевірку, часто доводиться захищати, чому їх результати настільки гірші, ніж усі інші результати в літературі.


1
Не впевнений, чи хотіли ви сказати це, але завантажувальний "оптимізм" - це один з найкращих способів перевірити модель, і її навчальні та тестові зразки перекриваються.
Френк Харрелл

1
@Frank Harrell - я не впевнений, що я зрозумів вашу думку. Можливо, складність полягає в тому, що в хіміометрії "валідація прогнозної моделі" завжди полягає у виконанні нових, невідомих, майбутніх випадків (на прикладі: діагностики нових пацієнтів). Я весь час використовую перехресну перевірку чи повторну / повторювану перехресну перевірку. Чи можете ви пояснити, яка перевага перекриття наборів тестів і поїздів порівняно з розбиттям на рівні пацієнта (я припускаю, що «перекриття» означає розділення вимірювань, тому тестові та навчальні вимірювання можуть належати одному пацієнту, завжди кажучи про міжлікарняну модель )?
cbeleites

... І так, на деякі моменти перевірки моделі можна відповісти, не розділяючи дані на окремі тестові та навчальні випадки (наприклад, стабільність моделі за коефіцієнтами). Але вже стабільність моделі wrt. до прогнозів слід вимірювати, використовуючи невідомих пацієнтів (невідомо: жодного разу не з'являлось у процесі складання моделі, включаючи будь-яку попередню обробку даних, що враховує всі випадки). Насправді, для традиційного кількісного визначення в хіміометрії, перевірка має кроки, які потребують подальшого незалежного вимірювання тестових даних: ...
cbeleites

Належна практика вимагає, щоб невідомий оператор приладу і однією важливою характеристикою аналітичного методу, який слід визначити під час перевірки, є те, як часто калібрування потрібно повторно робити (або показувати, що інструментальний дрейф є незначним протягом певного часу) - деякі автори навіть говорять про "зловживання переустановкою", що призводить до занедбання таких незалежних тестових наборів .
cbeleites

1
Якщо обладнання або методи вимірювання потребують перевірки, тоді необхідний незалежний зразок. Але поширена помилка - використовувати розділення даних, щоб спробувати імітувати незалежну перевірку. Це все ще внутрішня перевірка. Щоб відповісти на питання @cbeleites вище, перекриті зразки, пов'язані з завантажувальним завантаженням, призведуть до більш точних оцінок майбутньої продуктивності моделі, ніж розділення даних у більшості наборів даних, які, ймовірно, побачать. У мене розбиття даних неефективно з n = 17 000 та 0,30 швидкості подій.
Френк Харрелл

4

Використання "даних" в однині. Дані є, вони ніколи не є.


2
Напевно, французький статистик;)
Стефан Лоран

9
Треба визнати, нещодавно я відмовився від множинного використання даних після того, як чіплявся за них протягом 10 років. Я, як правило, пишу для нетехнічної аудиторії, і я переживав, що переживаю помпезність. Здається, що APA досі має чітке читання щодо множини, але, що цікаво, Королівське статистичне товариство, схоже, не має особливої ​​точки зору. Тут є цікава дискусія: guardian.co.uk/news/datablog/2010/jul/16/data-plural-singular
Chris Beeley

1
Я не є англійською мовою, але проблема таких робіт, як "дані" чи "медіа" в однині, полягає в тому, що англійська мова запозичила багато інших латинських слів і вам потрібно використовувати всі латинські слова послідовно. Що далі? "Навчальна програма є" чи "Навчальна програма є"? "Середні є"? Якщо "дані" - латина, то це множина. Кінець дискусії. Не важливо, скільки людей зараз хочуть ігнорувати це.
Фр

Можливо, я зловживаю цим, але я переключаюсь між одниною та множиною залежно від контексту.
StatsStudent

Використання слова "дата" є низьким і лише в деяких спеціалізованих обставинах, я вважаю, що слово "дані" є чимось еквівалентним слову "зграя" стосовно "вовків". Звичайно, прийнятно використовувати слово "зграя" в однині для опису кількох вовків. Слово "Дані" поступово перетворюється на власний колективний іменник ...
Роберт де Граф

3

Для мене, безумовно, є присвоєння причини без належного причинного аналізу або коли є неправильне причинно-наслідкове висновок.

Я також ненавиджу, коли приділяється нульова увага тому, як обробляються відсутні дані. Я також бачу так багато робіт, де автори просто проводять повний аналіз випадків і не згадують, чи є результати узагальнюючими для сукупності з відсутніми значеннями, або як популяція з відсутніми значеннями може систематично відрізнятися від сукупності з повними даними.


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.