Прогнозування наступного медичного стану від минулих станів у даних претензій


12

Зараз я працюю з великим набором даних про претензії на медичне страхування, що включає деякі лабораторні та аптечні претензії. Однак найсумісніша інформація в наборі даних складається з діагностики (ICD-9CM) та процедурних кодів (CPT, HCSPCS, ICD-9CM).

Мої цілі:

  1. Визначте найбільш впливові умови попередника (супутні захворювання) для такого медичного стану, як хронічне захворювання нирок;
  2. Визначте ймовірність (або ймовірність), що пацієнт буде розвивати медичний стан, виходячи з умов, які вони мали в минулому;
  3. Зробіть так само, як 1 і 2, але з процедурами та / або діагнозами.
  4. Переважно, щоб результати були інтерпретовані лікарем

Я переглянув такі речі, як документи, присвячені нагороді охорони здоров'я спадщини, і багато чого навчився, але вони зосереджені на прогнозуванні госпіталізації.

Ось ось мої запитання: Які методи, на вашу думку, добре працюють для подібних проблем? І які ресурси були б найбільш корисні для вивчення інформаційних програм та методів, що стосуються охорони здоров'я та клінічної медицини?

Редагуйте №2, щоб додати таблицю простого тексту:

ХНЗ є цільовим станом, "хронічне захворювання нирок", "." Означає, що вони набули цього стану в будь-який час ". Інші абревіатури відповідають іншим умовам, визначеним угрупованням коду ICD-9CM. Це групування відбувається в SQL під час імпорту. Кожна змінна, за винятком pati_age, є двійковою.


1
Чи можете ви надати приклади даних (простою англійською мовою, без кодів)?
подруга

Я додав деякі приклади даних до своєї початкової публікації. У цій версії кожна умова позначається кодом трьох букв.
Джеймі

1
R класний, але не дуже читабельний для людини. Чи можете ви переформатувати зразок своїх даних у вигляді таблиці (наприклад, у форматі CSV чи TSV; 5-6 стовпців нормально)? Також деякі пояснення змінних (що насправді означає "anx.any", "flu.isbefore.ckd" тощо) і що потрібно передбачити) допоможуть дуже багато.
подруга

1
Чи можете ви надати більше інформації про параметри, використані в наборі даних, щоб ми могли зрозуміти, чи є кореляції. Деякі з згаданих вами скорочень мені не зрозумілі. Було б чудово, якби ви могли поділитися своїм ідентифікатором електронної пошти, щоб ми співпрацювали в режимі офлайн. Дякую!
JohnGalt

1
Це лише трохи пов’язано, але найновіший наш науковий виклик з питань даних стосувався прогнозування претензій з інших тверджень. cloudera.com/content/cloudera/en/training/certification/ccp-ds/… Коли рішення буде випущене, воно може містити кілька цікавих ідей.
Шон Оуен

Відповіді:


7

Я ніколи не працював з медичними даними, але з загальних міркувань я б сказав, що відносини між змінними в галузі охорони здоров'я є досить складними. Різні моделі, такі як випадкові ліси, регресія тощо можуть зафіксувати лише частину стосунків та ігнорувати інші. У таких умовах має сенс використовувати загальне статистичне дослідження та моделювання .

Наприклад, найперше, що я зробив би, це виявити співвідношення між можливими станами-попередниками та діагнозами. Наприклад, у якому відсотку випадків хронічному захворюванню нирок передував тривалий грип? Якщо вона висока, це не завжди означає причинність , але дає досить гарну їжу для роздумів і допомагає краще зрозуміти відносини між різними умовами.

Ще одним важливим кроком є ​​візуалізація даних. Чи зустрічається ХСН у чоловіків частіше, ніж у жінок? Що з місцем проживання? Який розподіл випадків ХСЗ за віком? Важко зрозуміти великий набір даних як набір чисел, їх складання значно спрощує.

Коли ви маєте уявлення про те, що відбувається, проведіть тестування гіпотез, щоб перевірити своє припущення. Якщо ви відкидаєте нульову гіпотезу (основне припущення) на користь альтернативної, поздоровлення, ви зробили "щось справжнє".

Нарешті, коли ви добре розумієте свої дані, спробуйте створити повну модель . Це може бути щось загальне, як PGM (наприклад, байєсівська мережа, виготовлена ​​вручну), або щось більш конкретне, наприклад, лінійна регресія або SVM , або будь-що інше. Але в будь-якому випадку ви вже будете знати, як ця модель відповідає вашим даним і як ви можете виміряти її ефективність.


Як хороший вихідний ресурс для вивчення статистичного підходу, я рекомендував би курс « Вступ до статистики» Себастьяна Трону. Хоча вона є досить базовою і не включає в себе розширені теми, вона описує найбільш важливі поняття та дає систематичне розуміння теорії й статистики ймовірностей.


Дякую за це! Це підтверджує деякі кроки, які я вже зробив (дослідницький аналіз, тестування гіпотез тощо).
Джеймі

7

Хоча я не є вченим-даними, я є епідеміологом, який працює в клінічних умовах. У вашому дослідницькому запитанні не вказано часовий період (тобто шанси на розвиток ХЗН за 1 рік, 10 років, час життя?).

Як правило, я б пройшов декілька кроків, перш ніж навіть подумати про моделювання (уніваріантний аналіз, біваріантний аналіз, перевірки на узгодженість та ін.). Однак найчастіше застосовуваний метод спроби передбачення бінарної події (з використанням безперервних АБО бінарних змінних) - це логістична регресія. Якби ви хотіли розглядати ХЗН як лабораторне значення (альбумін сечі, eGFR), ви використовували б лінійну регресію (безперервний результат).

Незважаючи на те, що використовувані методи повинні бути поінформовані вашими даними та питаннями, клініцисти звикли бачити коефіцієнти шансів і коефіцієнти ризику, оскільки це найбільш часто повідомляються заходи асоціації в медичних журналах, таких як NEJM та JAMA.

Якщо ви працюєте над цією проблемою з точки зору здоров'я людини (на відміну від Business Intelligence), то Моделі клінічного прогнозування Steyerberg є прекрасним ресурсом.


1
Дякуємо за корисні пропозиції. Я обов'язково перевірю цю книгу! Хоча у мене є доступ до лабораторних значень, дані є недостовірними та спорадичними, тому я намагаюся дотримуватися даних, які можу отримати із претензій. Змінні скорочення - це фактично AHRQ клінічна класифікація програмного забезпечення, групи діагностичних кодів.
Джеймі

3

"Визначте найбільш впливові умови попередника (супутні захворювання) для такого медичного стану, як хронічне захворювання нирок"

Я не впевнений , що це можливо ID в найвпливовіших умовах; Я думаю, це буде залежати від того, яку модель ви використовуєте. Лише вчора я підходив до випадкових лісів та підсиленого регресійного дерева до тих самих даних, і порядок та відносна важливість кожної моделі для змінних були зовсім різними.


Дякую, Енді. Не могли б ви трохи допрацювати? Це тому, що змінні не фіксують достатньо деталей?
Джеймі

Я поняття не маю. Я думаю, це залежить від того, як працюють різні моделі.
JenSCDC

Чи можете ви запропонувати деякі рішення, які ви спробували чи розглядали?
Джеймі

Поки що я так і не зробив, тому ніякої допомоги там немає. Вибачте.
JenSCDC

Зараз я перебуваю у відпустці протягом наступних кількох тижнів, але коли повернусь, я загляну в це, бо це справді викликало мій інтерес.
JenSCDC
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.