Застосування методів машинного навчання в невеликих вибіркових клінічних дослідженнях


15

Що ви думаєте про застосування методів машинного навчання, як-от випадкові ліси чи санкціоновані регресії (з покаранням L1 або L2, або їх комбінація) у невеликих вибіркових клінічних дослідженнях, коли метою є виділення цікавих прогнозів у контексті класифікації? Це не питання щодо вибору моделі, а також не питання про те, як знайти оптимальні оцінки змінного ефекту / важливості. Я не планую робити чітких висновків, а просто використовувати багатовимірне моделювання, отже уникати тестування кожного передбачувача на результат інтересу один за одним та врахування їх взаємозв'язків.

Мені було просто цікаво, чи застосовувався такий підхід у цьому конкретному крайньому випадку, скажімо, 20-30 суб’єктів із даними про 10-15 категоричних чи безперервних змінних. Це не зовсім випадок і я думаю, що проблема тут пов’язана з кількістю класів, які ми намагаємось пояснити (які часто недостатньо збалансовані), і (дуже) малим n. Мені відомо про величезну літературу на цю тему в контексті біоінформатики, але я не знайшов жодної посилання, пов’язаної з біомедичними дослідженнями з психометрично вимірюваними фенотипами (наприклад, через нейропсихологічні анкети).np

Будь-який натяк чи покажчик на відповідні документи?

Оновлення

Я відкритий до будь-яких інших рішень для аналізу такого роду даних, наприклад, алгоритм С4.5 або його похідні, методи правил асоціації та будь-які методи вилучення даних для класифікованої та напівнагляду.


Просто, щоб було зрозуміло: ваше питання стосується розміру даних, а не про налаштування, правда?
Шейн

Точно мені цікаво, чи є посилання на "найменший" n (від великої кількості змінних), або точніше, чи будь-які методи перехресної перевірки (або стратегія переутворення, як у РФ) залишаються дійсними в такому крайньому випадку .
чл

Відповіді:


7

Я не бачив цього, що застосовується і поза біоінформатикою / машинним навчанням, але, можливо, ти можеш бути першим :)

Як хороший представник методу малої вибіркової методики з біоінформатики, логістична регресія з регуляризацією L1 може добре відповідати, коли кількість параметрів є експоненціальним у кількості спостережень, асистемні довірчі інтервали можна створити за допомогою нерівностей типу Черноффа (тобто Дудік, (2004 р., Наприклад). Тревор Хасті провів певну роботу, застосовуючи ці методи для виявлення генних взаємодій. У статті нижче він використовує його для виявлення значущих ефектів від моделі з 310 637 регульованими параметрами, придатними до вибірки 2200 спостережень

"Аналіз асоціацій генома за допомогою ласо-пенізованої логістичної регресії". Автори: Хасті, Т; Собель, Е; Ву, Т. Т; Чень, Ю. Ф; Lange, K Біоінформатика Vol: 25 Випуск: 6 ISSN: 1367-4803 Дата: 03/2009 Сторінки: 714 - 721

Пов’язана презентація Вікторії Стодден ( Вибір моделі із значно більшою кількістю змінних, ніж спостережень )


Так, Wu та ін. 2009 рік - приємний папір. Між іншим, я працював над GWAS та ML протягом останніх двох років; зараз я намагаюся повернутися до клінічних досліджень, де більшу частину часу нам доводиться мати справу з недосконалими вимірюваннями, відсутніми даними, і звичайно ... безліччю цікавих змінних з точки зору фізика!
chl

До речі, я щойно наштовхнувся на статтю, яка змусила мене замислитися над цим питанням ... дуже часто
Ярослав Булатов

ннpнp

Це дуже цікаве питання. Я зібрав деякі з цих та інших статей у своєму блозі (сподіваюся, ви не заперечуєте). Я впевнений, що там є якісь інші.
Андрій

5

Я мав би дуже мало впевненості у загальній спроможності результатів дослідницького аналізу з 15 прогнокторами та розміром вибірки 20.

  • Інтервали довіри оцінок параметрів були б великими. Наприклад, довірчий інтервал 95% на r = .30 з n = 20 становить від -0,17 до 0,66.
  • Проблеми, як правило, ускладнюються, коли у вас є кілька прогнозів, які використовуються в дослідницьких та даних, що керуються даними.

За таких обставин моєю порадою, як правило, буде обмежити аналізи двоваріантними відносинами. Якщо ви поглядаєте на байєсівську перспективу, то я б сказав, що ваші попередні очікування однаково, якщо не важливіші, ніж дані.


4

Одним із загальних правил є наявність принаймні в 10 разів більшої кількості екземплярів даних тренувань (не кажучи про будь-які дані тесту / перевірки тощо), оскільки в класифікаторі є регульовані параметри. Майте на увазі, що у вас є проблема, при якій вам потрібно мати не тільки адекватні дані, але й репрезентативні дані. Зрештою, немає систематичного правила, оскільки існує стільки змінних при прийнятті цього рішення. Як говорять Хасті, Тібшірані та Фрідман у "Елементах статистичного навчання" (див. Главу 7):

занадто важко дати загальне правило про те, скільки даних про навчання достатньо; серед іншого, це залежить від співвідношення сигнал-шум основної функції та складності моделей, що підходять до даних.

Якщо ви не знайомі з цим полем, рекомендую прочитати цю коротку статтю "Розпізнавання візерунків" з Енциклопедії біомедичної інженерії, яка дає короткий підсумок деяких проблем із даними.


Спасибі! У мене є книга Хасті та книга C. Bishop (Розпізнавання образів та машинне навчання). Я знаю, що така маленька росіянка призвела б до помилкової або ненадійної (див. Коментар Джеромі Англіма) асоціації. Однак алгоритм РФ, реалізований Брейманом, дозволяє впоратися з обмеженою кількістю функцій щоразу, коли дерево вирощується (в моєму випадку - 3 або 4), і хоча рівень помилок OOB є досить високим (але цього слід очікувати), аналізуючи змінна важливість приводить мене до висновку, що я б дійшов аналогічного висновку, використовуючи тести на біваріати (з перестановкою тесту).
chl

1
Це правило в основному стосується класичних методів, таких як l2 регуляризована максимальна ймовірність, L1 регуляризовані методи можуть ефективно вчитися, коли кількість регульованих параметрів є експоненціальним у кількості спостережень (тобто, Мирослав Дудик, папір COLT 2004)
Ярослав Булатов,

3

Я можу запевнити, що РФ працює в цьому випадку, і його міра важливості буде досить проникливою (тому що не буде великого хвоста оманливих неважливих атрибутів, як у стандартних (n << p) s). Зараз я не можу пригадати жоден папір, що стосується подібної проблеми, але я шукаю її.


1
Спасибі! Ми відвідували IV Конференцію EAM-SMABS минулого місяця, і один із спікерів презентував заяву про ведення МЛ у біомедичному дослідженні; на жаль, це було дещо "стандартне" дослідження з N ~ 300 суб'єктами та p = 10 прогнозовами. Він збирається подати документ до « Статистика в медицині» . Що я шукаю - це лише статті / посилання wrt. стандартне клінічне дослідження, наприклад, амбулаторних, де узагальнення результатів не стільки є проблемою.
chl

Ви знайшли нарешті якийсь папір?
chl

@chl Ще немає; але дякую за нагадування.

Не поспішайте :) Не знайшов нічого цікавого сам; можливо, Pubmed не є правильною пошуковою системою для цього конкретного випадку ...
chl

@chl У цьому теж моя проблема. Насправді здається, що n << p став синонімом даних про біомеди.

0

Якщо у вас є дискретні входи, я пишу програму для прогнозування відсутніх значень бінарного вводу з урахуванням попередніх входів. Будь-які категорії, наприклад "1 з 6", можуть бути перетворені у бінарні біти, і це буде добре; це не вплине на це.

Мета алгоритму, про який я пишу, - навчитися якомога швидше математично. Отже, вона має дуже бідну часову та просторову складність (просторова складність про O (4 ^ N) !.

Але для цього ви отримуєте по суті одноразове навчання для будь-якої системи, стан якої може бути виражений як бітовий вектор. Наприклад, повний суматор має 8 різних вхідних станів. Алгоритм вивчить повний суматор ідеально після лише 8 різних навчальних зразків. Мало того, але ви зможете дати йому відповідь і запропонувати їй передбачити питання, або надати йому частину відповіді та частину запитання і дати їй заповнити решту.

Якщо вхідні дані мають багато біт, це буде досить обчислювальною та багато пам'яттю. Але якщо у вас дуже мало зразків, - чи так це мета дизайну - це дасть вам найближчі найкращі прогнози.

Ви просто тренуєте це за допомогою бітових векторів, включаючи бітовий вектор, біти якого невідомі. Щоб отримати прогноз, ви також просто подаєте його трохи вектора, які біти невідомі і які біти ви хочете, щоб він передбачив.

Вихідний код доступний тут: https://sourceforge.net/p/aithroughlogiccompression/code/HEAD/tree/BayesianInferenceEngine/src/_version2/

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.