Стратегії впровадження передової статистики для різних аудиторій


26

Я працюю переважно з нестатистами в таких галузях, як медицина, суспільні науки та освіта.

Я консультуюся з аспірантами, допомагаю дослідникам зі статтями чи переглядаю статті для журналів, у мене часто виникає проблема, що хтось (клієнт, автор, дисертаційний комітет, редактор журналу) хоче використовувати якусь відносно відому методику, коли вона цілком є невідповідні або коли існують кращі, але маловідомі методи. Часто я поясню альтернативну методику, але потім мені кажуть "всі роблять це по-іншому".

Мені було б цікаво, як інші справляються з подібними труднощами.

ДОДАТКИ

@MichaelChernick запропонував мені поділитися деякими історіями, тому буду

В даний час я працюю з однією людиною, яка копіює попередній документ і додає одну незалежну змінну, щоб побачити, чи допомагає це. Попередній документ, відверто кажучи, жахливий. Він обробляє залежні дані так, ніби вони незалежні; це надзвичайно приємно і є й інші проблеми. І все ж він (мій клієнт) подав більш ранню версію як дисертацію і не тільки отримав ступінь, але отримав широку оцінку за дослідження.

Я багато разів намагався переконати людей не дихотомізувати змінні. Це дуже часто зустрічається в медицині. Я терпляче зазначаю, що дихохотомізація (скажімо,) ваги при народженні в низькій та нормальній (зазвичай це 2500 г) означає лікування 2499 г дитини так само, як 1,400 г; але лікувати 2,501 грам дитини зовсім інакше. Клінік погоджується зі мною, що це нерозумно. Потім каже зробити це так.

У мене давно був клієнт-аспірант, комітет якого наполягав на кластерному аналізі. Студент не розумів методу, метод не відповідав на корисні запитання, але це те, що хотів комітет, тож це вони отримали.

Все поле статистичної графіки - це одне, де для багатьох достатньо "ось як це робив дідусь".

Потім є люди, які, здається, просто натискають кнопки. Я пам’ятаю одну презентацію (не хтось, кому я допомагав!), Який взяв цілу анкету та проаналізував її. Однією із змінних, яку вона включила, був ідентифікаційний номер!

Ой.


6
Пітер, Мета - це питання щодо цього сайту. Я підозрюю, що ви, можливо, думали про статус "Вікі спільноти", який є корисним, цікавим питанням, навряд чи матиме об'єктивно найкращу відповідь (або на які, ймовірно, потрібні спільні зусилля, щоб відповісти взагалі). Відповідно, я трактував вашу пропозицію як запит CW і це реалізував.
whuber

1
Коротка примітка про дихотомізацію: я насправді думаю, що це неправильна інтуїція людей, які знають "трохи" статистики. У галузях, про які ви говорите, я думаю, що багато аналізу буде спрямовано на прийняття рішень (наприклад, я повинен розпочати лікування хвороби X чи Y?). Це дихотомію - і часто корисна дихотомія. Якщо у вас є лише невелика кількість змінних, то правильний аналіз рішення або тест гіпотези цілком можуть імітувати це - у нас може бути "якщо x> 10 прийняти варіант 1, інакше прийміть варіант 2".
ймовірністьлогічний

1
Також аналіз, заснований на дихотомізованих змінних, дуже легко запам'ятовується, якщо у вас немає доступу до комп'ютера.
ймовірністьлогічний

2
У психології люди часто дихотомізують або квантують, оскільки вони використовують ANOVA, а не регресію. Це зводить мене з розуму. Десь у статистиці Vanderbilt wiki biostat.mc.vanderbilt.edu/wiki/Main є яскрава демонстрація жахливої ​​шкоди, завданої дихотомізацією. Але, на жаль, я не можу його знайти. Я думаю, це все одно. Повинен був коли-
небудь познайомитися,

2
З мого обмеженого досвіду в галузі страхування я виявив, що після того, як конкретна модель прогнозування розроблена, вона має своє власне життя і буде продовжувати дублюватися (можливо, з оновленими коефіцієнтами) протягом багатьох років, навіть після того, як модель стала застаріла. Наприклад, переробка старої моделі, яка встановлює ставки полісів медичного страхування, є великою справою, оскільки ставки деяких людей можуть раптово підскочити, нову модель доведеться виправдовувати регуляторним органам тощо.
RobertF

Відповіді:


16

Це хитро запитання!

По-перше, кілька думок про те, чому це відбувається. Я працюю в галузі, яка (або, принаймні, повинна ) широко використовувати статистику, але там, де більшість практиків не є статистичними експертами. Отже, багато хто бачить, "я поклав вектор у функцію t-тесту excel, і це число випало. Тому моя робота підтримується статистикою".

Основна причина, по якій я бачу, що це відбувається, - це те, що відсутність знань про статистику починається вгорі. Якщо ваші рецензенти та комітети з дисертацій не в курсі статистичних методів, то вам потрібно обґрунтувати використання всього, що є "нетрадиційним". Наприклад, у дипломній роботі я вирішив використовувати сюжетні скрипки замість сюжетних скринь, щоб показати форму розподілу. Використання цієї методики вимагало обширної документації в дипломній роботі, а також тривалої дискусії на мій захист, де всі члени комітету хотіли знати, що означає цей дивний сюжет, незважаючи на описи в тексті та посилання на вихідний матеріал . Якби я щойно використовував сюжетну коробку (що показує суворо менше інформація в цьому випадку може легко обдурити глядача щодо форми розподілу, якщо вона мультимодальна) ніхто б нічого не сказав, і мій захист був би простішим.

Справа в тому, що в нестатистичних сферах практикуючі стикаються зі складним вибором: ми можемо читати про, а потім використовувати правильні методи, що тягне за собою купу роботи, яка нікого з наших вищих працівників не цікавить; або ми можемо просто піти по потоку, отримати штамп на наших роботах і тезах і продовжувати використовувати неправильні, але звичайні методи.

Тепер, щоб відповісти на ваше запитання:

Я думаю, що хороший підхід полягає в тому, щоб підкреслити наслідки невикористання правильних методик. Це може спричинити за собою:

  • Надаючи приклад із реального світу, як хтось у їхній галузі переживав наслідки поганого висновку. У деяких сферах це простіше, ніж в інших. Приклади, коли кар’єра була пошкоджена, особливо хороші.

  • Пояснення, що неправильний аналіз може поставити вас у ситуацію, коли ваші результати малоймовірно перенесуть у реальний світ, що може спричинити шкоду (наприклад, у моєму полі, якщо ваш прототип системи AI виглядає статистично краще, ніж конкуренція, але насправді це те саме, то витратити наступні 6 місяців на створення повноцінної реалізації - це дійсно погана ідея.

  • Підберіть методи, які заощадять користувачів багато часу. Достатньо часу, щоб вони могли витратити те, що заощадили, пояснюючи техніку вищим вершинам.


1
Гарна дискусія та хороша відповідь +1.
Майкл Р. Черник

Хороші бали @John
Пітер

1
+1 для вказівки на наслідки. Це може творити чудеса для того, щоб змусити людей перейти на кращі методи.
Лев

9

Якщо говорити з точки зору психолога лише з незначною статистичною витонченістю: коли ви впроваджуєте метод, також введіть інструменти. Якщо ви розповідаєте більшості дослідників у моїй галузі довгу історію про чудовий новий метод, вони збираються витратити весь час на переживання, що пробійник є ", і все, що вам потрібно зробити, - це розібратися на вашому диференційному обчисленні, а потім взяти два тижневий навчальний курс! " (або "і придбайте пакет $ 2000 статистики!" або "та адаптуйте 5000 рядків Python та R коду!"). Якщо, якщо є реалізована методика, доступна в пакеті статистики, який вони вже використовують, або у фрагменті вільного програмного забезпечення з зрозумілим графічним інтерфейсом, і вони можуть швидко прискорити його через день-два, вони можуть бути готові надати це спробувати.

Я усвідомлюю, що такий підхід може здатися непридатним та ненаучним, але людям легко впасти, коли вони турбуються про гранти та публікації, і не бачать, щоб вивчити величезну кількість математики, як це може допомогти їм зберегти свою роботу.


2
@octem Не міг слідчий довірити статистику виконати цю частину співпраці. Для чого слідчому потрібен інструмент. Я порівнював це з лікарем із переверненням таблиць. Як він почуватиметься, якби я сказав, дайте мені короткий посібник про те, як зробити цю операцію, і я буду робити це за вас. Я думаю, шок і дзимай, і я нелегально практикую mewdicine без ліцензії. Це, мабуть, гарна річ. Але хіба статистик не заслуговує однакової поваги. Навіщо чекати, що я можу просто дати йому інструмент і дозволити йому зламати його через відсутність підготовки.
Майкл Р. Черник

2
У соціальній психології не є звичайним стати статистиком (адже зазвичай не вистачає фінансування, щоб заплатити статистику). Зараз я перебуваю в галузі охорони здоров’я / психології здоров'я. Великі гранти, як правило, включають зарплату для статистиків, але значна частина нашої роботи робиться на скупих маленьких пілотних грантах, де ми навіть не можемо дозволити собі зарплату за ІП. Ось така точка зору, з якої я випливаю… якщо ви знаходитесь у галузі, де більшість проектів включає кваліфікованого статистика, то я згоден, такий опір не був би розумним.
octern

1
@octem Дякую за відповідь. Просто для подальшого контролю за аналогією. Був час, коли аборт був незаконним у США, а деякі жінки їздили в інші країни або робили це в задній кімнаті незаконно, без стерильних умов та великих ризиків для здоров'я. Це може не здаватися чудовою аналогією, але неможливість дозволити статистику виправдовує виконання неповноцінної роботи? Я знаю, що медицина - це скоріше життя чи смерть, але погана наука також має погані наслідки? Неправильне використання даних може призвести до використання поганої медицини, оскільки небезпечний препарат звикає, коли цього не повинно бути.
Майкл Р. Черник

@MichaelChernick Подивіться, я не задоволений станом статистичного аналізу в соціальних науках. Але питання полягало в тому, як змусити дослідників прийняти новий статистичний підхід, і я даю відповідь, що відповідає великій підгрупі дослідників - подобається нам це чи ні.
octern

1
@octem Ярмарок досить, і я думаю, що я це зрозумів. Я дав вам пропозицію, перш ніж я поставив питання. Ставлення слідчих до думки, що дешевий шлях - це шлях, - це те, що я допитуюсь, а не факт, що ви визнаєте, що проблема існує. Так і я згоден з вами там. Але якось у перспективі я думаю, що нам просто потрібно отримати більше поваги та визнання того, що наша робота не є тривіальною.
Майкл Р. Черник

6

Дякую за це приємне запитання Пітер. Я працюю в медичному науково-дослідному закладі та маю справу з лікарями, які займаються дослідженнями та публікують у медичних журналах. Часто вони більше зацікавлені в тому, щоб опублікувати їхній документ, ніж "робити статистику повністю правильно". Тож, коли я пропоную непізнавальну методику, вони вкажуть на аналогічний документ і скажуть "дивіться, вони зробили це так і опублікували свої результати".

Я думаю, що існує проблема, коли я опублікований документ справді поганий і має помилки. Складно сперечатися, хоча я маю велику репутацію. Деякі документи мають великі егої та думають, що вони можуть навчитися майже будь-чому. Тож вони думають, що розуміють статистику, коли вони цього не роблять і можуть бути наполегливими. Це може отримати розчарування. Коли це тест, і Вілкоксон є більш доречним, я змушую їх зробити тест Вілка Шапіро, і якщо нормальність відхилена, ми включаємо обидва методи та пояснюємо, чому Вілкоксон краще. Я інколи можу їх переконати, і часто вони залежать від мене за статистику, тому я маю трохи більше уваги, ніж може мати генеральний консультант.

Я також зіткнувся з ситуацією, коли я робив для них криві Каплана-Мейєра, і ми використовували тест рангового журналу, але Вілкоксон дав інший результат. Мені було важко зважитися, і в таких ситуаціях я вважаю, що найкраще представити обидва методи та пояснити, чому вони відрізняються. Те саме стосується використання довіри інтервалі Пето проти Грінвуда для кривої виживання. Пояснити припущення про ризик Кокса може бути складно, і вони часто неправильно трактують коефіцієнт шансів і відносний ризик.

Немає простої відповіді. У мене тут був бос, який був провідним медичним дослідником кардіології, і він іноді рецензував журнали. Він дивився на статтю, яка стосувалась діагностики та використовувала AUC як міру. Він ніколи раніше не бачив кривої AUC і прийшов до мене, щоб перевірити, чи вважаю я її дійсною. У нього були сумніви. Це виявилося доречним, і я пояснив це йому якнайкраще.

Я намагався читати лекції з біостатистики медикам і викладав біостатистику в школах охорони здоров’я. Я намагаюся зробити це краще, ніж інші, і випустив книгу для вступних курсів наук про здоров'я в 2002 році з співавтором-епідеміологом. Вілі хоче, щоб я зараз випустила друге видання. У 2011 році я опублікував більш стисну книгу, яку намагався висвітлити лише найважливіші, щоб зайняті МД могли витратити час на її переосмислення та посилання. Саме так я маю справу з цим. Можливо, ви можете поділитися своїми історіями з нами.


Це хороші моменти @Michael. Додам кілька історій
Пітер Флом - Відновіть Моніку

1
@PeterFlom Я думаю, що ми можемо мати дуже схожий досвід. Я думаю, ви отримуєте ще дуже хороші відповіді на відповіді інших людей.
Майкл Р. Черник

6

журнал(х); х(1,2)? 


У своїй кар’єрі я роблю багато міждисциплінарних досліджень і в різні часи змушує мене тісно співпрацювати з дослідниками наркоманії, епідеміологами, біологами, криміналістами та лікарями. Це, як правило, включало аналіз даних, коли звичайні «консервовані» підходи не змогли би з різних причин (наприклад, деяка комбінація упередженої вибірки та кластеризованих, поздовжньо та / або просторово індексованих даних). Я також провів пару років, консультуючись за сумісництвом в аспірантурі, де працював з людьми з найрізноманітніших галузей. Отже, мені довелося багато про це думати.

Мій досвід полягає в тому, що найважливіше - пояснити, чому звичайні консервовані підходи є невідповідними і звертаються до бажання людини робити «добру науку». Жоден поважний дослідник не хоче опублікувати щось, що явно вводить в оману у своїх висновках через невідповідний статистичний аналіз. Я ніколи не стикався з кимось, хто щось сказав: "Мені все одно, чи правильний аналіз чи ні, я просто хочу опублікувати це", хоча я впевнений, що такі люди існують - моя відповідь була б на припинити професійні відносини, якщо це можливо. Як статистик, моя репутація може бути пошкоджена, якщо хтось, хто насправді знає, про що вони говорять, трапиться прочитати папери.

Я визнаю, що переконати когось може бути складним, що той чи інший аналіз є невідповідним, але я вважаю, що як статистики нам слід (а) володіти знаннями, необхідними, щоб точно знати, що може піти не так з "консервованим" підходом і (б) мати здатність пояснити це досить зрозумілий спосіб. Якщо ви не працюєте професором статистики чи математики, частина вашої роботи буде полягати у роботі з нестатистами (і навіть іноді, якщо ви професор стати / математики).

Щодо (а) , якщо статистик не володіє цими знаннями, чому б вони відлякували консервативний підхід? Якщо статистик каже "використовувати моделі випадкових ефектів", але не може пояснити, чому вважати незалежність проблемою, то чи не вони винні в тому, що поступаються догмам так само, як і клієнт? Будь-який рецензент, статистик чи ні, може висловити педантичну критику підходу до статистичного моделювання, тому що, давайте визнаємо, всі моделі помиляються. Але це вимагає експертизи, щоб точно знати, що може піти не так.

Щодо (b) , я виявив, що графічні зображення того, що може піти не так, як правило, "найбільше потрапляють додому". Приклади:

  • х

  • у=хх(0,1)у=1х>1pху

  • Ще одна поширена ситуація (яку також згадував Петро) пояснює, чому сприйняття незалежності є поганою ідеєю. Наприклад, ви можете показати з сюжету, що позитивна автокореляція, як правило, створює більш "кластеризовані" дані, і дисперсія буде недооціненою з цієї причини, що дає певну інтуїцію, чому наївних стандартних помилок, як правило, занадто мало. Або ви також можете побудувати дані за допомогою встановленої кривої, яка передбачає незалежність, і можна візуально побачити, як кластери впливають на придатність (ефективно зменшуючи розмір вибірки) таким чином, що немає в незалежних даних.

Є мільйон інших прикладів, але я тут працюю з обмеженнями простору / часу :) Коли зображення просто не вийде з будь-якої причини (наприклад, показує, чому один підхід недостатньо), то приклади моделювання - це також варіант, який я використовував час від часу.


3

Деякі випадкові думки, бо це складне питання ...

Я відчуваю, що великою проблемою є відсутність математичної освіти в різних професійних дисциплінах та закінчених програмах.

Без математичного розуміння статистики це стає купою формул, які слід застосовувати відповідно до випадку.

Також для отримання реального розуміння цього питання професорам слід розповісти про оригінальні проблеми, з якими стикалися оригінальні автори під час опублікування своїх підходів. З цього можна дізнатися більше, ніж з читання тисяч книг на цю тему.

Статистика - це інструментарій для вирішення проблем, але це також мистецтво і стикається з тими ж проблемами, що і будь-яке інше мистецтво.

Можна навчитися видавати звуки за допомогою інструменту. Але вміючи"граючи" на інструменті, музикант не стає.

Однак не рідкість можна знайти людей, які вважають себе музикантами, не вивчивши жодної концепції ритму, мелодії та гармонії.

У тому ж рядку, щоб опублікувати документи, більшості людей не потрібно знати і не розуміти понять, що лежать в основі формули ... в даний час вченим просто потрібно знати, яку клавішу вони мають натиснути, і коли її потрібно натискати, періодично.

Тож це не має нічого спільного з "его" МД. Це субкультурна проблема, проблема, пов’язана більше з освітою, звичаями та цінностями наукової спільноти.

Що можна очікувати в епоху, в якій публікуються тисячі і тисячі і тисячі непотрібних паперів і книг для виконання деяких академічних реквізитів / політик? В епоху, коли кількість паперів, які випускає один, важливіша за якість їх?

Основні вчені вже не переймаються доброю наукою. Вони є рабами чисел. На них впливає (або заражається) адміністративна помилка нашої ери ...

Отже, з моєї точки зору, хороший курс статистики повинен включати математичну, історичну та філософську основу підходу, який вивчається, завжди виділяючи кілька шляхів, які можна зробити прийняти для вирішення однієї проблеми.

Нарешті, якби я був професором статистики / ймовірності, моя перша лекція (и) була б присвячена таким проблемамперетасовування карт або підкидання монети . Це поставить аудиторію в правильне положення для прослуховування ... напевно.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.