Статистика та великі дані machine-learning

2

Прогнозування впевненості нейронної мережі

Припустимо, я хочу навчити глибоку нейронну мережу для класифікації або регресії, але хочу знати, наскільки впевненим буде прогноз. Як я міг цього досягти? Моя ідея - обчислити перехресну ентропію для кожної навчальної дати, виходячи з її прогнозованої ефективності в нейронних метрах вище. Тоді я би тренував другу нейронну мережу для …

9 machine-learning neural-networks

1

Нормалізація введення для нейронів ReLU

Згідно з "Efficient Backprop" від LeCun et al. (1998), є хорошою практикою нормалізувати всі входи, щоб вони були зосереджені навколо 0 і лежали в межах максимальної другої похідної. Так, наприклад, ми використали [-0,5,0,5] для функції "Tanh". Це допоможе досягти прогресу в просуванні, коли гессея стає стабільнішою. Однак я не був …

9 machine-learning neural-networks normalization deep-learning multidimensional-scaling

2

Вузьке місце застосування глибокого навчання на практиці

Прочитавши багато робіт з глибокого вивчення, таке грубе відчуття, що існує багато хитрощів у навчанні мережі, щоб досягти кращої, ніж звичайної, продуктивності. З точки зору галузевого застосування, дуже важко розробити подібні хитрощі, за винятком тих елітних дослідницьких груп у великих технологічних компаніях, наприклад, google або facebook. Тоді який найкращий спосіб …

9 machine-learning deep-learning deep-belief-networks

1

Є контури

Я припускаю загальну настройку регресії, тобто безперервну функцію hθ:X→Rnhθ:X→Rnh_\theta:X\to \mathbb R^n вибирається з родини {hθ}θ{hθ}θ\{h_\theta\}_\theta відповідно до заданих даних (xi,yi)∈X×Rn,i=1,…,k(xi,yi)∈X×Rn,i=1,…,k(x_i,y_i)\in X\times \mathbb R^n, i=1,\ldots, k (XXX може бути будь-який простір, наприклад куб [0,1]m[0,1]m[0,1]^m або насправді будь-який розумний топологічний простір) за деякими природними критеріями. Чи є додатки регресії, де хтось цікавиться …

9 regression machine-learning multiple-regression

1

Чому проксимальний градієнтний спуск замість простих субградієнтних методів для Лассо?

Я думав вирішити Лассо за допомогою градієнтних методів ванілі. Але я читав людей, які пропонують використовувати проксимальний градієнтний спуск. Чи може хтось виділити, чому для Лассо застосовують проксимальний ГД замість методів градієнта ванілі?

9 machine-learning optimization lasso gradient-descent

1

Неможливо зробити цю мережу автоматичного кодеру належним чином (із згортковими та макспулярними шарами)

Мережі автоматичного кодування здаються набагато складнішими, ніж звичайні MLP-мережі класифікатора. Після декількох спроб використання Lasagne все, що я отримую на реконструйованому виході, - це щось, що в кращому випадку нагадує розмите усереднення всіх зображень бази даних MNIST, не залежно від того, що насправді є вхідною цифрою. Я вибрав структуру мереж …

9 machine-learning neural-networks dimensionality-reduction unsupervised-learning autoencoders

2

Навіщо використовувати SVM, чому мені потрібно масштабувати функції?

Відповідно до документації об'єкта StandardScaler в scikit-learn: Наприклад, багато елементів, які використовуються в об'єктивній функції алгоритму навчання (наприклад, ядро RBF в підтримці векторних машин або регуляризатори L1 і L2 лінійних моделей), припускають, що всі функції зосереджені навколо 0 і мають відмінність в одному порядку. Якщо функція має дисперсію, яка на …

9 machine-learning svm standard-deviation mean references

1

Повторне прискорення регресійних дерев (BRT), узагальнених моделей з підсиленням (GBM) та машини для підвищення градієнта (GBM)

Запитання: Яка різниця між деревами з посиленою регресією (BRT) та узагальненими прискореними моделями (GBM)? Чи можна їх взаємозамінно використовувати? Чи одна конкретна форма іншої? Чому Ріджвей використав фразу "Узагальнені прискорені регресійні моделі" (ГБМ), щоб описати те, що раніше Фрідман запропонував як "Градієнт-підсилювальна машина" (ГБМ)? Ці два абревіатури однакові, описують одне …

9 machine-learning boosting gbm

2

Оцінка помилки, що не входить у сумку, для підвищення?

У випадковому лісі кожне дерево вирощується паралельно на унікальній вибірці даних для завантаження. Оскільки, як очікується, кожен зразок завантаження може містити близько 63% унікальних спостережень, це залишає приблизно 37% спостережень, які можна використовувати для тестування дерева. Тепер, здається, що в Stohastic Gradient також існує аналогічна оцінці в РФ:О ОБe r …

9 machine-learning cross-validation data-mining random-forest boosting

1

Як знайти та оцінити оптимальну дискретизацію для безперервної змінної з

У мене є набір даних з безперервною змінною та бінарною змінною цілі (0 і 1). Мені потрібно дискретизувати постійні змінні (для логістичної регресії) стосовно цільової змінної та з обмеженням, що частота спостереження в кожному інтервалі повинна бути врівноваженою. Я спробував алгоритми машинного навчання, такі як Chi Merge, дерева рішень. Чи …

9 r machine-learning chi-squared discrete-data supervised-learning

2

Чи фіксують дерева CART взаємодії між передбачувачами?

У цьому документі стверджується, що в CART, оскільки бінарний розкол виконується по одному коваріату на кожному кроці, всі розщеплення є ортогональними, тому взаємодії між коваріатами не враховуються. Однак багато дуже серйозних посилань стверджують, навпаки, що ієрархічна структура дерева гарантує, що взаємодія між предикторами буде автоматично змодельована (наприклад, цей документ , …

9 machine-learning classification data-mining cart

1

Які відмінності між фільтрами, засвоєними в автоенкодері та конволюційній нейронній мережі?

У CNN ми вивчимо фільтри для створення карти функцій у згортковому шарі. В Autoencoder окрему приховану одиницю кожного шару можна розглядати як фільтр. Яка різниця між фільтрами, вивченими у цих двох мережах?

9 machine-learning neural-networks conv-neural-network autoencoders

3

ImageNet: що означає помилка в п'ятірці?

Одним із методів оцінювання конкурсу ImageNet (класифікація зображень на 1000 категорій) є помилка топ-5, що це означає? Дивіться: http://www.image-net.org/challenges/LSVRC/

9 machine-learning classification computer-vision

2

Як довести, що припущення колектора правильне?

У машинному навчанні часто передбачається, що набір даних лежить на гладкому низькомірному колекторі (припущення про колектор), але чи є якийсь спосіб довести, що при дотриманні певних умов виконано, то набір даних справді (приблизно) генерується від маломірного гладкого колектора? Наприклад, задана послідовність даних де (скажімо послідовність зображень обличчя під різними кутами) …

9 machine-learning dimensionality-reduction manifold-learning

2

Кластеризація галасливих даних або з аутлайнерами

У мене є шумні дані двох змінних на кшталт цієї. x1 <- rep(seq(0,1, 0.1), each = 3000) set.seed(123) y1 <- rep (c(0.2, 0.8, 0.3, 0.9, 0.65, 0.35,0.7,0.1,0.25, 0.3, 0.95), each = 3000) set.seed(1234) e1 = rnorm(length(x1), 0.07,0.07) set.seed(1223) e2 = rnorm(length(x1), 0.07,0.07) set.seed(1334) yn <- rnorm(20000, 0.5,0.9) set.seed(2344) xn <- …

9 r machine-learning clustering

Запитання з тегом «machine-learning»