Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

4
Яка функція втрати є правильною для логістичної регресії?
Я читав про дві версії функції втрат для логістичної регресії, яка з них є правильною і чому? З машинного навчання Чжоу Ч. (китайською), з :β=(w,b) and βTx=wTx+bβ=(w,b) and βTx=wTx+b\beta = (w, b)\text{ and }\beta^Tx=w^Tx +b l(β)=∑i=1m(−yiβTxi+ln(1+eβTxi))(1)(1)l(β)=∑i=1m(−yiβTxi+ln⁡(1+eβTxi))l(\beta) = \sum\limits_{i=1}^{m}\Big(-y_i\beta^Tx_i+\ln(1+e^{\beta^Tx_i})\Big) \tag 1 З мого курсу коледжу, з :zi=yif(xi)=yi(wTxi+b)zi=yif(xi)=yi(wTxi+b)z_i = y_if(x_i)=y_i(w^Tx_i + b) …

1
Вірогідність перехресної ентропії або журналу у вихідному шарі
Я читаю цю сторінку: http://neuralnetworksanddeeplearning.com/chap3.html і було сказано, що сигмоїдний вихідний шар з перехресною ентропією досить подібний з вихідним шаром softmax з вірогідністю лог. що трапиться, якщо я використовую сигмоїд з вірогідністю лога або softmax з перехресною ентропією у вихідному шарі? це добре? тому що я бачу, що між рівнями …

2
Чи я створюю упередження, використовуючи одне і те ж випадкове насіння знову і знову?
Майже у всіх аналітичних роботах, які я коли-небудь робив, я використовую: set.seed(42) Це вшанування Посібника з автостопом до Галактики . Але мені цікаво, чи я створюю упередження, використовуючи одне і те ж насіння знову і знову.

3
Чим відрізняється задній та задній прогнозний розподіл?
Я розумію, що таке "Задник", але я не впевнений, що означає остання? Чим 2 різні? Кевін П Мерфі вказував у своєму підручнику " Машинне навчання: ймовірнісна перспектива" , що це "стан внутрішньої віри". Що це насправді означає? У мене було враження, що "Пріор" представляє вашу внутрішню віру чи упередженість, де …

7
Статистичні методи для більш ефективного побудови даних при наявності мільйонів балів?
Я вважаю, що R може зайняти тривалий час для створення сюжетів, коли присутні мільйони балів - не дивно, враховуючи, що бали розміщуються окремо. Крім того, такі сюжети часто занадто захаращені та щільні, щоб бути корисними. Багато пунктів перекриваються і утворюють чорну масу, і багато часу витрачається, будуючи більше точок на …


3
Утиліта інженерії функцій: навіщо створювати нові функції на основі наявних функцій?
Я часто бачу, як люди створюють нові функції на основі існуючих функцій з проблеми машинного навчання. Наприклад, ось: https://triangleinequality.wordpress.com/2013/09/08/basic-feature-engineering-with-the-titanic-data/ люди розглядали розмір сім'ї людини як нову особливість, засновану на про кількість братів, сестер та батьків, які були наявними ознаками. Але який сенс у цьому? Я не розумію, чому створення корисних …

2
Що моєї нейронної мережі щойно дізналися? Які особливості це стосується і чому?
Нейронна мережа вивчає особливості набору даних як засобу досягнення певної мети. Коли це буде зроблено, ми можемо захотіти знати, про що дізналася нейронна сітка. У чому полягали особливості і чому це ставилося до них. Чи може хтось надати деякі посилання на основні роботи, які стосуються цієї проблеми?

3
Чи не повинна спільна ймовірність двох незалежних подій дорівнювати нулю?
Якщо спільна ймовірність є перетином двох подій, то чи не повинна спільна ймовірність двох незалежних подій дорівнювати нулю, оскільки вони взагалі не перетинаються? Я збентежений.

6
Чому так називається очікуване значення?
Я розумію, як ми отримуємо 3,5 як очікувану величину для прокатки справедливої ​​шестигранної плашки. Але інтуїтивно я можу очікувати кожного обличчя з рівним шансом 1/6. Тож чи не повинно бути очікуване значення прокатки штампу будь-якого числа між 1-6 з однаковою ймовірністю? Іншими словами, коли задають питання "яка очікувана цінність кинути …

2
Хто вперше використав / винайшов р-значення?
Я намагаюся написати серію публікацій в блозі на p-значеннях, і я подумав, що було б цікаво повернутися туди, де все почалося - що, здається, є документом Пірсона 1900 року. Якщо ви знайомі з цим документом, ви пам’ятаєте, що це стосується тестування на придатність. Пірсон трохи розслаблений зі своєю мовою, коли …

2
Чи достовірно оцінюються 50% довірчі інтервали, ніж довірчі інтервали 95%?
Моє запитання випливає з цього коментаря до публікації в блозі Ендрю Гелмана, в якій він виступає за використання 50% довірчих інтервалів замість 95% довірчих інтервалів, хоча не на тій підставі, що вони більш чітко оцінюються: Я віддаю перевагу інтервали від 50% до 95% з 3 причин: Обчислювальна стабільність, Більш інтуїтивна …

1
Неправильне використання перехресної перевірки (звітність про ефективність найкращого значення гіперпараметра)
Нещодавно я натрапив на документ, який пропонує використовувати класифікатор k-NN на певному наборі даних. Автори використовували всі наявні вибірки даних для здійснення k-кратної перехресної перевірки для різних значень k та звітування про результати перехресної перевірки найкращої конфігурації гіперпараметра. Наскільки мені відомо, цей результат є необ'єктивним, і вони повинні були зберегти …

2
Коли регуляризація L1 працюватиме краще, ніж L2 і навпаки?
Примітка. Я знаю, що L1 має властивість вибору функцій. Я намагаюся зрозуміти, яку вибрати, коли вибір функції абсолютно не має значення. Як вирішити, яку регуляризацію (L1 або L2) використовувати? Які плюси і мінуси кожної регуляризації L1 / L2? Чи рекомендується 1-й зробити вибір функції за допомогою L1 і потім застосувати …


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.