Запитання з тегом «machine-learning»

Алгоритми машинного навчання будують модель навчальних даних. Термін «машинне навчання» нечітко визначений; вона включає те, що також називається статистичним навчанням, підкріпленням навчання, непідвладним навчанням і т. д. ВЖЕ ДОДАЙТЕ БІЛЬШЕ СПЕЦИФІЧНУ МЕТОДУ.

2
Прогнозування впевненості нейронної мережі
Припустимо, я хочу навчити глибоку нейронну мережу для класифікації або регресії, але хочу знати, наскільки впевненим буде прогноз. Як я міг цього досягти? Моя ідея - обчислити перехресну ентропію для кожної навчальної дати, виходячи з її прогнозованої ефективності в нейронних метрах вище. Тоді я би тренував другу нейронну мережу для …

1
Нормалізація введення для нейронів ReLU
Згідно з "Efficient Backprop" від LeCun et al. (1998), є хорошою практикою нормалізувати всі входи, щоб вони були зосереджені навколо 0 і лежали в межах максимальної другої похідної. Так, наприклад, ми використали [-0,5,0,5] для функції "Tanh". Це допоможе досягти прогресу в просуванні, коли гессея стає стабільнішою. Однак я не був …

2
Вузьке місце застосування глибокого навчання на практиці
Прочитавши багато робіт з глибокого вивчення, таке грубе відчуття, що існує багато хитрощів у навчанні мережі, щоб досягти кращої, ніж звичайної, продуктивності. З точки зору галузевого застосування, дуже важко розробити подібні хитрощі, за винятком тих елітних дослідницьких груп у великих технологічних компаніях, наприклад, google або facebook. Тоді який найкращий спосіб …

1
Є контури
Я припускаю загальну настройку регресії, тобто безперервну функцію hθ:X→Rnhθ:X→Rnh_\theta:X\to \mathbb R^n вибирається з родини {hθ}θ{hθ}θ\{h_\theta\}_\theta відповідно до заданих даних (xi,yi)∈X×Rn,i=1,…,k(xi,yi)∈X×Rn,i=1,…,k(x_i,y_i)\in X\times \mathbb R^n, i=1,\ldots, k (XXX може бути будь-який простір, наприклад куб [0,1]m[0,1]m[0,1]^m або насправді будь-який розумний топологічний простір) за деякими природними критеріями. Чи є додатки регресії, де хтось цікавиться …

1
Чому проксимальний градієнтний спуск замість простих субградієнтних методів для Лассо?
Я думав вирішити Лассо за допомогою градієнтних методів ванілі. Але я читав людей, які пропонують використовувати проксимальний градієнтний спуск. Чи може хтось виділити, чому для Лассо застосовують проксимальний ГД замість методів градієнта ванілі?

1
Неможливо зробити цю мережу автоматичного кодеру належним чином (із згортковими та макспулярними шарами)
Мережі автоматичного кодування здаються набагато складнішими, ніж звичайні MLP-мережі класифікатора. Після декількох спроб використання Lasagne все, що я отримую на реконструйованому виході, - це щось, що в кращому випадку нагадує розмите усереднення всіх зображень бази даних MNIST, не залежно від того, що насправді є вхідною цифрою. Я вибрав структуру мереж …

2
Навіщо використовувати SVM, чому мені потрібно масштабувати функції?
Відповідно до документації об'єкта StandardScaler в scikit-learn: Наприклад, багато елементів, які використовуються в об'єктивній функції алгоритму навчання (наприклад, ядро ​​RBF в підтримці векторних машин або регуляризатори L1 і L2 лінійних моделей), припускають, що всі функції зосереджені навколо 0 і мають відмінність в одному порядку. Якщо функція має дисперсію, яка на …

1
Повторне прискорення регресійних дерев (BRT), узагальнених моделей з підсиленням (GBM) та машини для підвищення градієнта (GBM)
Запитання: Яка різниця між деревами з посиленою регресією (BRT) та узагальненими прискореними моделями (GBM)? Чи можна їх взаємозамінно використовувати? Чи одна конкретна форма іншої? Чому Ріджвей використав фразу "Узагальнені прискорені регресійні моделі" (ГБМ), щоб описати те, що раніше Фрідман запропонував як "Градієнт-підсилювальна машина" (ГБМ)? Ці два абревіатури однакові, описують одне …

2
Оцінка помилки, що не входить у сумку, для підвищення?
У випадковому лісі кожне дерево вирощується паралельно на унікальній вибірці даних для завантаження. Оскільки, як очікується, кожен зразок завантаження може містити близько 63% унікальних спостережень, це залишає приблизно 37% спостережень, які можна використовувати для тестування дерева. Тепер, здається, що в Stohastic Gradient також існує аналогічна оцінці в РФ:О ОБe r …

1
Як знайти та оцінити оптимальну дискретизацію для безперервної змінної з
У мене є набір даних з безперервною змінною та бінарною змінною цілі (0 і 1). Мені потрібно дискретизувати постійні змінні (для логістичної регресії) стосовно цільової змінної та з обмеженням, що частота спостереження в кожному інтервалі повинна бути врівноваженою. Я спробував алгоритми машинного навчання, такі як Chi Merge, дерева рішень. Чи …

2
Чи фіксують дерева CART взаємодії між передбачувачами?
У цьому документі стверджується, що в CART, оскільки бінарний розкол виконується по одному коваріату на кожному кроці, всі розщеплення є ортогональними, тому взаємодії між коваріатами не враховуються. Однак багато дуже серйозних посилань стверджують, навпаки, що ієрархічна структура дерева гарантує, що взаємодія між предикторами буде автоматично змодельована (наприклад, цей документ , …

1
Які відмінності між фільтрами, засвоєними в автоенкодері та конволюційній нейронній мережі?
У CNN ми вивчимо фільтри для створення карти функцій у згортковому шарі. В Autoencoder окрему приховану одиницю кожного шару можна розглядати як фільтр. Яка різниця між фільтрами, вивченими у цих двох мережах?


2
Як довести, що припущення колектора правильне?
У машинному навчанні часто передбачається, що набір даних лежить на гладкому низькомірному колекторі (припущення про колектор), але чи є якийсь спосіб довести, що при дотриманні певних умов виконано, то набір даних справді (приблизно) генерується від маломірного гладкого колектора? Наприклад, задана послідовність даних де (скажімо послідовність зображень обличчя під різними кутами) …

2
Кластеризація галасливих даних або з аутлайнерами
У мене є шумні дані двох змінних на кшталт цієї. x1 <- rep(seq(0,1, 0.1), each = 3000) set.seed(123) y1 <- rep (c(0.2, 0.8, 0.3, 0.9, 0.65, 0.35,0.7,0.1,0.25, 0.3, 0.95), each = 3000) set.seed(1234) e1 = rnorm(length(x1), 0.07,0.07) set.seed(1223) e2 = rnorm(length(x1), 0.07,0.07) set.seed(1334) yn <- rnorm(20000, 0.5,0.9) set.seed(2344) xn <- …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.