Запитання з тегом «unsupervised-learning»

Пошук прихованої (статистичної) структури в мітках даних, включаючи кластеризацію та вилучення функцій для зменшення розмірності.

1
Дистанційний нагляд: під наглядом, напівнаглядачем чи обома?
"Дистанційний нагляд" - це схема навчання, за якою класифікатор вивчається, на якому навчається набір слабких міток (дані тренувань автоматично позначаються на основі евристики / правил). Я думаю, що як навчання під наглядом, так і напівконтрольне навчання можуть включати такий "дистанційний нагляд", якщо їхні мічені дані євристично / автоматично позначені. Однак …


4
Як зрозуміти недоліки ієрархічної кластеризації?
Чи може хтось пояснити плюси та мінуси ієрархічної кластеризації? Чи мають ієрархічні кластери такі ж недоліки, що і K? Які переваги ієрархічної кластеризації перед K означає? Коли ми повинні використовувати засоби K над ієрархічною кластеризацією та навпаки? Відповіді на цю посаду дуже добре пояснюють недоліки k означає. Як зрозуміти недоліки …

3
Як вибрати оптимальну кількість прихованих факторів при негативній матричній факторизації?
З огляду на матрицю Vm×nVm×n\mathbf V^{m \times n} , Негативна факторизація матриць (NMF) знаходить дві негативні матриці та (тобто з усіма елементами ) представити розкладену матрицю як:H k × n ≥0Wm×kWm×k\mathbf W^{m \times k}Hk×nHk×n\mathbf H^{k \times n}≥0≥0\ge 0 V≈WH,V≈WH,\mathbf V \approx \mathbf W\mathbf H, WW\mathbf WHH\mathbf H∥V−WH∥2.‖V−WH‖2.\|\mathbf V-\mathbf W\mathbf H\|^2. …

4
Точність машини для підвищення градієнта зменшується зі збільшенням кількості ітерацій
Я експериментую з алгоритмом машини для підвищення градієнта через caretпакет в Р. Використовуючи невеликий набір даних про вступ до коледжу, я застосував такий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 


3
Що таке змішування даних?
Цей термін часто з’являється у потоках, пов’язаних із методом . Чи поєднуються конкретний метод у вивченні даних та статистичному навчанні? Я не можу отримати релевантний результат від google. Здається, суміш поєднує результати багатьох моделей і призводить до кращого результату. Чи є якийсь ресурс, який допомагає мені більше знати про це?

4
Що таке * штучна нейронна мережа?
Коли ми заглиблюємось у літературу про нейронні мережі , ми дістаємо ідентифікацію інших методів з нейроморфними топологіями ("Нейромережеві" архітектури). І я не кажу про теорему універсального наближення . Приклади наведені нижче. Потім мене змушує замислитися: що таке визначення штучної нейронної мережі? Здається, його топологія охоплює все. Приклади: Однією з перших …

4
Як виміряти форму кластера?
Я знаю, що це питання недостатньо чітко визначено, але деякі кластери, як правило, еліптичні або лежать у просторі нижнього розміру, а інші мають нелінійні форми (у 2D або 3D прикладах). Чи є міра нелінійності (або "форми") кластерів? Зауважте, що у 2D та 3D просторі не проблема бачити форму будь-якого кластера, …

3
Вибір гіперпараметрів з використанням T-SNE для класифікації
В якості специфічної проблеми, з якою я працюю (конкуренція), у мене є наступне налаштування: 21 функція (числовий на [0,1]) та двійковий вихід. У мене близько 100 К рядків. Налаштування здається дуже галасливим. Я та інші учасники впродовж певного часу застосовуємо генерацію функцій, і вбудована стохастична сусідська вбудована версія t виявилася …

4
Ініціалізація центрів K-засобів за допомогою випадкових підпроборів набору даних?
Якщо у мене є певний набір даних, наскільки розумним буде ініціалізація центрів кластерів за допомогою випадкових вибірок цього набору даних? Наприклад, припустимо, я хочу 5 clusters. Я вважаю 5 random samples, size=20%оригінальний набір даних. Чи можу я потім взяти середнє значення кожного з цих 5 випадкових вибірок і використовувати ці …

1
Чи є різниця між віддаленим наглядом, самонавчанням, самонавідним навчанням та слабким наглядом?
З того, що я прочитав: Далекий нагляд : A Distant supervision algorithm usually has the following steps: 1] It may have some labeled training data 2] It "has" access to a pool of unlabeled data 3] It has an operator that allows it to sample from this unlabeled data and …

4
Чи можете ви порівняти різні методи кластеризації на наборі даних без основної істини шляхом перехресної перевірки?
На даний момент я намагаюся проаналізувати набір даних текстових документів, які не мають основної істини. Мені сказали, що ви можете використовувати k-кратну перехресну перевірку для порівняння різних методів кластеризації. Однак у прикладах, які я бачив у минулому, використовується основна правда. Чи можна використовувати засоби k-fold на цьому наборі даних для …

2
Застосування машинного навчання для фільтрації DDoS
У курсі машинного навчання Стенфорда Ендрю Нг згадав про застосування ML в ІТ. Через деякий час, коли я отримав DDoS середнього розміру (близько 20k ботів) на нашому сайті, я вирішив боротися з ним, використовуючи простий класифікатор Neural Network. Я написав цей сценарій python приблизно за 30 хвилин: https://github.com/SaveTheRbtz/junk/tree/master/neural_networks_vs_ddos Він використовує …

5
Кластеризація SOM для номінальних / кругових змінних
Цікаво, чи хтось знайомий з кластеризацією номінальних входів. Я розглядав SOM як рішення, але, мабуть, він працює лише з числовими характеристиками. Чи є розширення для категоричних ознак? Зокрема, мені було цікаво про "Дні тижня" як про можливі функції. Звичайно, можна перетворити його в числову ознаку (тобто пн - нд, що …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.