Статистика та великі дані

4

Яка різниця в значенні між позначеннями і які зазвичай використовуються у багатьох книгах і працях?P(z;d,w)P(z;d,w)P(z;d,w)P(z|d,w)P(z|d,w)P(z|d,w)

27 probability notation

2

Функція втрати коефіцієнта кістки та поперечної ентропії

Під час навчання піксельних нейронних мереж сегментації пікселів, таких як повністю згорнуті мережі, як ви приймаєте рішення використовувати функцію втрати перехресної ентропії та функцію втрати коефіцієнта кістки? Я усвідомлюю, що це коротке запитання, але не зовсім впевнений, яку ще інформацію надавати. Я переглянув купу документації про дві функції втрат, але …

27 neural-networks loss-functions cross-entropy

2

Коли доцільно використовувати неправильне бальне правило?

Merkle & Steyvers (2013) пишуть: Для формального визначення правильного бального правила нехай - імовірнісний прогноз випробування Бернуллі d з істинною ймовірністю успіху p . Правильні правила балів - це показники, очікувані значення яких мінімізовано, якщо f = p .fffггdpppf= рf=pf = p Я вважаю, що це добре, тому що ми …

27 classification forecasting scoring-rules

1

Покроковий приклад автоматичної диференціації у зворотному режимі

Не впевнений, чи належить це питання тут, але воно тісно пов'язане з градієнтними методами оптимізації, що, здається, тут є темою. У будь-якому разі сміливо мігруйте, якщо ви думаєте, що інша спільнота має кращі знання з цієї теми. Коротше кажучи, я шукаю покроковий приклад автоматичної диференціації у зворотному режимі . Існує …

27 optimization derivative tensorflow automatic-differentiation

1

Як зрозуміти SARIMAX інтуїтивно?

Я намагаюся зрозуміти статтю про прогнозування електричного навантаження, але я борюся з концепціями всередині, особливо з моделлю SARIMAX . Ця модель використовується для прогнозування навантаження і використовує багато статистичних понять, які я не розумію (я студент з низьких студій інформатики - ви можете вважати мене лайперсоном у статистиці). Мені не …

27 regression time-series arima autoregressive intuition

5

Чи може глибока нейронна мережа наближати функцію множення без нормалізації?

Скажімо, ми хочемо зробити регресію для простого f = x * yвикористання стандартної глибокої нейронної мережі. Я пам’ятаю, що є повторні дослідження, які говорять про те, що NN з одним прихованим шаром може апоксимувати будь-яку функцію, але я спробував і без нормалізації NN не зміг наблизити навіть це просте множення. …

27 regression machine-learning neural-networks deep-learning

4

Як визначити оптимальний поріг для класифікатора та генерувати криву ROC?

Скажімо, у нас є класифікатор SVM, як ми генеруємо криву ROC? (Як теоретично) (тому що ми створюємо TPR і FPR з кожним порогом). І як ми визначаємо оптимальний поріг для цього класифікатора SVM?

27 machine-learning svm

1

Що таке дослідження абляції? І чи є систематичний спосіб її виконання?

Що таке дослідження абляції? І чи є систематичний спосіб її виконання? Наприклад, у мене є ннn предикторів лінійної регресії, яку я назву своєю моделлю. Як я проведу дослідження абляції до цього? Які показники я повинен використовувати? Всеосяжне джерело чи підручник будуть вдячні.

27 regression machine-learning neural-networks

1

Чому PCA чутливий до людей, що втрачають спокій?

У цій SE є багато публікацій, в яких обговорюються надійні підходи до аналізу основних компонентів (PCA), але я не можу знайти єдиного хорошого пояснення того, чому PCA чутливий в першу чергу до людей, що переживають люди.

26 machine-learning pca outliers

1

Чому функції активації, не орієнтовані на нуль, є проблемою у зворотному розповсюдженні?

Я прочитав тут таке: Сигмоїдні виходи не орієнтовані на нуль . Це небажано, оскільки нейрони в більш пізніх шарах обробки в нейронній мережі (детальніше про це незабаром) отримували б дані, не орієнтовані на нуль. Це має значення для динаміки під час спуску градієнта, оскільки якщо дані, що надходять у нейрон, …

26 neural-networks deep-learning backpropagation

7

Два рулони з кістки - однакове число в послідовності

Зараз я вивчаю клас статистичних висновків на курсі. В одному із завдань виникає наступне питання. | Suppose you rolled the fair die twice. What is the probability of rolling the same number two times in a row? 1: 2/6 2: 1/36 3: 0 4: 1/6 Selection: 2 | You're close...I …

26 probability self-study conditional-probability

3

Чому бета / Діріхле регресія не вважається узагальненими лінійними моделями?

Передумовою є ця цитата з віньєтки пакету R betareg1 . Крім того, модель поділяє деякі властивості (такі як лінійний предиктор, функція зв'язку, параметр дисперсії) з узагальненими лінійними моделями (GLM; McCullagh та Nelder 1989), але це не є особливим випадком цієї рамки (навіть не для фіксованої дисперсії ) Ця відповідь також …

26 generalized-linear-model beta-regression dirichlet-regression

1

Які класичні позначення статистики, лінійної алгебри та машинного навчання? І які зв’язки між цими позначеннями?

Коли ми читаємо книгу, розуміння позначень відіграє дуже важливу роль у розумінні змісту. На жаль, різні спільноти мають різні умовні позначення для формулювання моделі та проблеми оптимізації. Чи міг би хтось узагальнити деякі формулювальні позначення тут і навести можливі причини? Я наведу приклад тут: У літературі лінійної алгебри класичною книгою …

26 machine-learning probability self-study optimization

5

Чому ми беремо квадратний дисперсійний корінь для створення стандартного відхилення?

Вибачте, якщо на це відповіли в іншому місці, я не зміг його знайти. Мені цікаво, чому ми беремо квадратний корінь , зокрема, дисперсії для створення стандартного відхилення? Що стосується взяття квадратного кореня, який дає корисне значення?

26 variance standard-deviation

3

Яке байєсівське обґрунтування привілейованих аналізів, проведених раніше, ніж інші аналізи?

Передумови та емпіричний приклад У мене два дослідження; Я провів експеримент (дослідження 1), а потім повторив його (дослідження 2). У дослідженні 1 я виявив взаємодію між двома змінними; У дослідженні 2 ця взаємодія була в тому ж напрямку, але не суттєвою. Ось підсумок моделі дослідження 1: Coefficients: Estimate Std. Error …

26 bayesian