Чи існує "непідконтрольна регресія"?


15

Якщо я правильно, "непідконтрольна класифікація" - це те саме, що кластеризація. Тоді чи існує "непідконтрольна регресія"? Спасибі!

Відповіді:


20

Я ніколи раніше не стикався з цим терміном. Я не впевнений, чи поширить би це світло чи темряву в будь-якій царині статистики: ті, які є машинним навчанням (де контрольовані та непідконтрольні розрізнення є центральними у вирішенні проблем) та інфекційній статистиці (де найчастіше використовують регресію, підтверджуючий аналіз та NHST).

Там, де ці дві філософії перетинаються, більшість регресії та пов'язаної з ними термінології перебувають у суворому нагляді. Однак я думаю, що багато існуючих концепцій непідконтрольного навчання тісно пов'язані з підходами, що ґрунтуються на регресії, особливо коли ви наївно повторюєте кожен клас чи особливості як результат та об'єднуєте результати. Прикладом цього є аналіз PCA та біваріантний кореляційний аналіз. Застосовуючи кращу регресію підмножини ітеративно за низкою змінних, ви можете зробити дуже складний вид оцінки мережі, як це передбачається при моделюванні структурного рівняння (строго в сенсі EFA). Мені це здається непідконтрольним навчанню проблемою з регресією.

Однак оцінки регресійних параметрів не є рефлексивними. Для простої лінійної регресії, регресія на дасть Вам різні результати, інші висновки, а також різні оцінки (навіть не обов'язково зворотні), ніж на . На мій погляд, ця відсутність комутативності робить більшість наївних регресійних додатків неприйнятними для проблем, що не контролюються.YХХY


4
+1, і я голосую темрявою. Пошук Google дає ряд посилань на "непідконтрольну регресію", багато з яких мають моделювання структурного рівняння / аромат прихованих класів. З короткого огляду цих робіт я особисто схиляюсь описати їх як використання методів найменших квадратів (LS) та максимізації очікувань (EM) до непідконтрольних проблем, а не "непідконтрольної регресії"
JBK

Спасибі! Цікаво, чи мають непідконтрольні навчальні проблеми комутативність?
Тім

Більшість непідконтрольних навчальним програмам, з якими я стикався, стосуються оцінки коваріації та (дуже пов’язаної з цим) кластеризації. Оскільки в цих додатках можна довільно переставляти стовпці даних, не викликаючи ніяких проблем, і немає необхідності призначати змінні як функції чи відповіді, я б сказав, що ці програми є комутаційними.
АдамО

4

Найближче, що я можу придумати, - це маленька чорна магія, яка збурила людей, коли вона була оголошена кілька років тому, але я не вірю, що вона отримала справжню тягу в громаді. Автори розробили статистику, яку вони назвали "Максимальний інформаційний коефіцієнт (MIC)". Загальна ідея їх методу полягає в тому, щоб взяти високовимірні дані, побудувати кожну змінну проти кожної іншої змінної в парах, а потім застосувати цікавий алгоритм бінінгу вікон до кожного ділянки (який обчислює MIC для цих двох змінних), щоб визначити, чи є потенційно зв'язок між двома змінними. Ця методика повинна бути надійною при виявленні довільно структурованих відносин , а не лише лінійних.

Методика орієнтована на пари змінних, але я впевнений, що це може бути розширено для дослідження багатоваріантних зв'язків. Основна проблема полягала б у тому, що вам доведеться запускати техніку на значно більше комбінацій змінних, оскільки ви допускаєте перестановки дедалі більше змінних. Я думаю, це, мабуть, потребує певного часу лише з парами: спроба використовувати це для навіть віддалено високомірних даних та враховувати більш складні взаємозв'язки, ніж пари змінних, стали б незрозумілими швидко.

Посилання на статтю Виявлення романо-асоціаційних організацій у великих наборах даних (2011)


0

Авторегресія - це один із способів обчислення ваг матриці, що мінімізує помилку на реконструйованому вході від заданого входу.


0

Це питання мені прийшло в голову під час дослідження різниці між контрольованими та непідконтрольними методами. Виходячи з економетричного походження, я вважаю за краще моделювати, що сповільнювало моє розуміння, оскільки більшість машинознавчих літератур, з якими я стикався, зосереджуються на методах.

Досі я виявив, що слід робити чітке розмежування між clustering(без нагляду) проти classification(контрольованим). Безперервна аналогія співвідношення між цими модельними конструкціями буде principal component analysis(без нагляду) проти linear regression(контролюється).

Однак я заперечую, що співвідношення між кластеризацією та класифікацією є чисто збігом; воно існує лише тоді, коли ми інтерпретуємо обидві конструкції моделі як опис геометричного відношення, яке я вважаю непересічно обмежуючим. Усі непідконтрольні мені методи (k-засоби, алгоритми еластичної карти, такі як kohonen / нейронний газ, DBSCAN, PCA) також можуть бути інтерпретовані як приховані змінні моделі. У випадку методів кластеризації це може означати перегляд приналежності кластеру як такого, що знаходиться у стані, який можна кодувати як приховану змінну модель шляхом введення манекенів штатів.

З огляду на інтерпретацію як прихованих змінних моделей, ви можете вказати будь-яку, можливо, нелінійну модель, яка описує ваші особливості з точки зору безперервних прихованих змінних.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.