Запитання з тегом «machine-learning»

Алгоритми машинного навчання будують модель навчальних даних. Термін «машинне навчання» нечітко визначений; вона включає те, що також називається статистичним навчанням, підкріпленням навчання, непідвладним навчанням і т. д. ВЖЕ ДОДАЙТЕ БІЛЬШЕ СПЕЦИФІЧНУ МЕТОДУ.


5
Яку мову програмування ви рекомендуєте для прототипування проблеми машинного навчання?
Зараз працюю в Octave, але через погану документацію прогрес дуже повільний. Яку мову легко вивчити та використовувати та добре задокументовану для вирішення проблем машинного навчання? Я шукаю прототип на невеликому наборі даних (тисячі прикладів), тому швидкість не важлива. EDIT: Я розробляю систему рекомендацій. Отже, мені цікаво використовувати регульовану лінійну регресію, …

2
Наскільки глибокий зв’язок між функцією softmax в ML та розподілом Больцмана в термодинаміці?
Функція softmax, яка зазвичай використовується в нейронних мережах для перетворення реальних чисел у ймовірності, - це та сама функція, що і розподіл Больцмана, розподіл ймовірності за енергіями для ансамблю частинок у тепловій рівновазі при заданій температурі T в термодинаміці. Я бачу деякі чіткі евристичні причини, чому це практично: Незалежно від …

2
Чому ми не використовуємо зважене середнє арифметичне замість гармонічного середнього?
Цікаво, яке власне значення використання гармонічного середнього (наприклад, для обчислення F-мір) на відміну від зваженого середнього арифметичного при поєднанні точності та згадування? Я думаю, що середньозважене середнє арифметичне може зіграти роль гармонійного середнього, чи я щось пропускаю?

1
Різні перетворення щільності ймовірності через якобіанський фактор
У розпізнаванні образів Бішопа та машинному навчанні я прочитав наступне, одразу після введення щільності ймовірності p(x∈(a,b))=∫bap(x)dxp(x∈(a,b))=∫abp(x)dxp(x\in(a,b))=\int_a^bp(x)\textrm{d}x : При нелінійній зміні змінної щільність ймовірності перетворюється по-різному від простої функції завдяки якобіанському фактору. Наприклад, якщо ми розглянемо зміну змінних x=g(y)x=g(y)x = g(y) , то функція f(x)f(x)f(x) стає f~(y)=f(g(y))f~(y)=f(g(y))\tilde{f}(y) = f(g(y)) . Тепер …

1
XGBoost може обробляти відсутні дані на етапі прогнозування
Нещодавно я переглянув алгоритм XGBoost і помітив, що цей алгоритм може обробляти відсутні дані (не вимагаючи імпутації) на етапі навчання. Мені було цікаво, чи може XGboost обробляти відсутні дані (не вимагаючи імпутації), коли він використовується для прогнозування нових спостережень або необхідно імпутувати відсутні дані. Заздалегідь спасибі.

1
Як підходити ваги до Q-значень з наближенням лінійної функції
У навчанні підкріплення часто використовується лінійне наближення функції, коли є великі простори стану. (Коли шукати таблиці стають нездійсненними.) Форма значення з наближенням до лінійної функції задається числомQ -Q−Q- Q ( s , a ) = w1f1( з , а ) + ш2f2( s , a ) + ⋯ ,Q(s,a)=w1f1(s,a)+w2f2(s,a)+⋯,Q(s,a) = …

1
Як зрозуміти, що MLE Variance є упередженим у розподілі Гаусса?
Я читаю PRML, і картину не розумію. Скажіть, будь ласка, кілька підказок, щоб зрозуміти картину, і чому MLE дисперсії в гауссовій розподілі упереджений? формула 1,55: формула 1.56 μMLE=1N∑n=1NxnμMLE=1N∑n=1Nxn \mu_{MLE}=\frac{1}{N} \sum_{n=1}^N x_n σ2MLE=1N∑n=1N(xn−μMLE)2σMLE2=1N∑n=1N(xn−μMLE)2 \sigma_{MLE}^2=\frac{1}{N}\sum_{n=1}^{N}(x_n-\mu_{MLE})^2


1
Взаємозв'язок матриці Гессіана та матриці коваріації
Поки я вивчаю оцінку максимальної ймовірності, щоб зробити висновок про максимальну оцінку ймовірності, нам потрібно знати дисперсію. Щоб дізнатись дисперсію, мені потрібно знати нижню межу Рао Крамера, яка на кривині виглядає як матриця Гессея з другою деривацією. Я наче змішаний, щоб визначити взаємозв'язок між матрицею коваріації та матрицею гессіана. Сподіваюся …

3
Як побудувати матрицю плутанини для багатокласового класифікатора?
У мене проблема з 6 класами. Таким чином, я будую класифікатор багатокласового класу таким чином: для кожного класу я маю один класифікатор логістичної регресії, використовуючи один проти всіх, це означає, що у мене є 6 різних класифікаторів. Я можу повідомити про матрицю плутанини для кожного з моїх класифікаторів. Але я …

1
Як використовувати пень рішення як слабкого учня в Adaboost?
Я хочу реалізувати Adaboost за допомогою рішення Stump. Чи правильно робити стільки рішень, скільки можливостей нашого набору даних у кожній ітерації Adaboost? Наприклад, якщо у мене є набір даних з 24 функціями, чи повинен я мати 24 класифікатори пеньки для кожної ітерації? Або я повинен випадковим чином вибрати деякі функції …

1
Що означає рівномірний розподіл журналу?
Коли хтось скаже, що дані вибираються із вибірки журналу, рівномірно розподіленого між 128 та 4000, що це означає? Чим це відрізняється від вибірки від рівномірного розподілу? Дивіться цей документ: http://www.jmlr.org/papers/volume13/bergstra12a/bergstra12a.pdf Дякую!

5
Як обчислити точність та згадати в матриці плутанини 3 х 3
Predicted class Cat Dog Rabbit Actual class Cat 5 3 0 Dog 2 3 1 Rabbit 0 2 11 Як я можу обчислити точність і згадати, щоб стало легко обчислити F1-бал. Нормальна матриця плутанини - це розмірність 2 х 2. Однак, коли це стає 3 х 3, я не знаю, …

4
Невірогідний висновок - що це означає?
Нещодавно мені стало відомо про «вірогідні» методи, які перебувають у літературі. Однак мені не ясно, що означає спосіб висновку чи оптимізації бути вірогідним . При машинному навчанні мета зазвичай полягає в тому, щоб максимально збільшити ймовірність того, що деякі параметри підходять до функції, наприклад, ваги в нейронній мережі. Тож у …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.