Відповіді:
Я ніколи раніше не стикався з цим терміном. Я не впевнений, чи поширить би це світло чи темряву в будь-якій царині статистики: ті, які є машинним навчанням (де контрольовані та непідконтрольні розрізнення є центральними у вирішенні проблем) та інфекційній статистиці (де найчастіше використовують регресію, підтверджуючий аналіз та NHST).
Там, де ці дві філософії перетинаються, більшість регресії та пов'язаної з ними термінології перебувають у суворому нагляді. Однак я думаю, що багато існуючих концепцій непідконтрольного навчання тісно пов'язані з підходами, що ґрунтуються на регресії, особливо коли ви наївно повторюєте кожен клас чи особливості як результат та об'єднуєте результати. Прикладом цього є аналіз PCA та біваріантний кореляційний аналіз. Застосовуючи кращу регресію підмножини ітеративно за низкою змінних, ви можете зробити дуже складний вид оцінки мережі, як це передбачається при моделюванні структурного рівняння (строго в сенсі EFA). Мені це здається непідконтрольним навчанню проблемою з регресією.
Однак оцінки регресійних параметрів не є рефлексивними. Для простої лінійної регресії, регресія на дасть Вам різні результати, інші висновки, а також різні оцінки (навіть не обов'язково зворотні), ніж на . На мій погляд, ця відсутність комутативності робить більшість наївних регресійних додатків неприйнятними для проблем, що не контролюються.
Найближче, що я можу придумати, - це маленька чорна магія, яка збурила людей, коли вона була оголошена кілька років тому, але я не вірю, що вона отримала справжню тягу в громаді. Автори розробили статистику, яку вони назвали "Максимальний інформаційний коефіцієнт (MIC)". Загальна ідея їх методу полягає в тому, щоб взяти високовимірні дані, побудувати кожну змінну проти кожної іншої змінної в парах, а потім застосувати цікавий алгоритм бінінгу вікон до кожного ділянки (який обчислює MIC для цих двох змінних), щоб визначити, чи є потенційно зв'язок між двома змінними. Ця методика повинна бути надійною при виявленні довільно структурованих відносин , а не лише лінійних.
Методика орієнтована на пари змінних, але я впевнений, що це може бути розширено для дослідження багатоваріантних зв'язків. Основна проблема полягала б у тому, що вам доведеться запускати техніку на значно більше комбінацій змінних, оскільки ви допускаєте перестановки дедалі більше змінних. Я думаю, це, мабуть, потребує певного часу лише з парами: спроба використовувати це для навіть віддалено високомірних даних та враховувати більш складні взаємозв'язки, ніж пари змінних, стали б незрозумілими швидко.
Посилання на статтю Виявлення романо-асоціаційних організацій у великих наборах даних (2011)
Це питання мені прийшло в голову під час дослідження різниці між контрольованими та непідконтрольними методами. Виходячи з економетричного походження, я вважаю за краще моделювати, що сповільнювало моє розуміння, оскільки більшість машинознавчих літератур, з якими я стикався, зосереджуються на методах.
Досі я виявив, що слід робити чітке розмежування між clustering
(без нагляду) проти classification
(контрольованим). Безперервна аналогія співвідношення між цими модельними конструкціями буде principal component analysis
(без нагляду) проти linear regression
(контролюється).
Однак я заперечую, що співвідношення між кластеризацією та класифікацією є чисто збігом; воно існує лише тоді, коли ми інтерпретуємо обидві конструкції моделі як опис геометричного відношення, яке я вважаю непересічно обмежуючим. Усі непідконтрольні мені методи (k-засоби, алгоритми еластичної карти, такі як kohonen / нейронний газ, DBSCAN, PCA) також можуть бути інтерпретовані як приховані змінні моделі. У випадку методів кластеризації це може означати перегляд приналежності кластеру як такого, що знаходиться у стані, який можна кодувати як приховану змінну модель шляхом введення манекенів штатів.
З огляду на інтерпретацію як прихованих змінних моделей, ви можете вказати будь-яку, можливо, нелінійну модель, яка описує ваші особливості з точки зору безперервних прихованих змінних.