Відмінності між рандомізованою логістичною регресією та рівнинно-ванільною логістичною регресією


12

Мені хотілося б знати відмінності між рандомізованою логістичною регресією (RLR) та простою логістичною регресією (LR), тому я читаю статтю "Вибір стабільності" від Meinshausen et al. ; проте я не розумію, що таке RLR і чим відрізняються RLR від LR.

Чи може хтось вказати на те, що я повинен прочитати, щоб зрозуміти RLR? Або є простий приклад для початку?


1
RLR - це не стандартний термін. Будь ласка, визначте метод.
Френк Харрелл

Дякую @FrankHarrell ... Метод походить з бібліотеки навчання scikit .
Хендра Бунямін

Тепер, коли є новий сайт обміну стеками для машинного навчання / Big Data, можливо, це питання належить саме там.
Placidia

4
@Placidia Це гарна пропозиція. Однак, ваша власна відповідь показує, чому саме це питання належить тут: ми краще зможемо забезпечити збалансовану точку зору, яка точно характеризує та порівнює як статистичний, так і ML аспекти питання. Хоча можливо, що хтось із сайту "наука про дані" міг би надати таку відповідь, проте мій досвід є, що це було б малоймовірно.
whuber

3
Мене приголомшує те, що новий сайт - це наука даних про виклики, що становить більше половини про статистику, про що йдеться у цьому веб-сайті.
Френк Харрелл

Відповіді:


17

Ви можете перевірити це посилання . Sci-Kit Learn реалізує рандомізовану логістичну регресію і метод описаний там.

Але, щоб відповісти на ваше запитання, два методи значною мірою відрізняються за своїми цілями. Логістична регресія полягає у пристосуванні до моделі, а RLR - у пошуку змінних, що надходять у модель.

Ванільна логістична регресія - це узагальнена лінійна модель. Для двійкової відповіді ми вважаємо, що коефіцієнт ймовірності відповіді журналу є лінійною функцією ряду предикторів. Коефіцієнти прогнозів оцінюються з використанням максимальної ймовірності, а висновок про параметри заснований на великих властивостях вибірки моделі. Для найкращих результатів ми зазвичай припускаємо, що модель досить проста і добре зрозуміла. Ми знаємо, які незалежні змінні впливають на реакцію. Ми хочемо оцінити параметри моделі.

Звичайно, на практиці ми не завжди знаємо, які змінні слід включати в модель. Особливо це стосується ситуацій машинного навчання, коли кількість потенційних пояснювальних змінних величезна, а їх значення мало.

Протягом багатьох років багато людей намагалися використовувати методи підгонки статистичної моделі з метою варіативного вибору (читати "функції"). З підвищенням рівня надійності:

  1. Підійдіть до великої моделі та укажіть змінні зі значущою статистикою Wald. Не завжди виходить найкраща модель.
  2. Подивіться на всі можливі моделі та виберіть "найкращі". Обчислювально інтенсивний і не надійний.
  3. Підійдіть до великої моделі зі строком покарання L1 (стиль ласо). Непридатні змінні можуть потрапляти в придатність. Краще, але нестабільно із розрідженими матрицями.
  4. Метод рандомізації 3. Візьміть випадкові підмножини, помістіть пенізовану модель до кожного та порівняйте результати. Вибираються змінні, які часто з’являються. Коли реакція є двійковою, це рандомізована логістична регресія. Аналогічну техніку можна витягнути з безперервними даними та загальною лінійною моделлю.

2
+1 Приємно бачити таке чітко сформульоване, читабельне, інформативне опитування загальної методології.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.