Статистика та великі дані

4

Чому сигмоїдна функція замість чого-небудь іншого?

Чому де-факто стандартна сигмоїдна функція настільки популярна в (неглибоких) нейронних мережах та логістичній регресії?11+e−x11+e−x\frac{1}{1+e^{-x}} Чому б нам не скористатися багатьма іншими похідними функціями, з більш швидким часом обчислень або повільнішим розпадом (тому зникаючий градієнт трапляється менше). У Вікіпедії небагато прикладів щодо сигмоподібних функцій . Один з моїх улюблених із повільним …

40 logistic neural-networks least-squares

6

Коли використовувати моделювання?

Тож це дуже просте і дурне питання. Однак, коли я навчався в школі, я приділяв дуже мало уваги цілій концепції моделювання на уроці, і це мене трохи злякало цього процесу. Чи можете ви пояснити процес симуляції мирянами? (може бути для отримання даних, коефіцієнтів регресії тощо) Які існують практичні ситуації / …

40 simulation

5

Попередження в R - наближення Chi-квадрата може бути неправильним

У мене є дані, що показують результати вступного іспиту з пожежника. Я перевіряю гіпотезу про те, що результати іспитів та етнічна приналежність не є взаємно незалежними. Щоб перевірити це, я провів тест-квадрат Пірсона в Р. Результати показують, що я очікував, але він дав попередження, що "" In chisq.test(a) : Chi-squared …

40 r categorical-data chi-squared small-sample error-message

5

Як отримати рішення про регресію хребта?

У мене виникають деякі проблеми з виведенням рішення для регресії хребта. Я знаю рішення регресії без терміну регуляризації: β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. Але після додавання терміна L2 до функції витрат, яким чином стає рішеннямλ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX + \lambda I)^{-1}X^Ty.

40 regression least-squares regularization ridge-regression

4

Нагадаємо та точність у класифікації

Я читаю деякі визначення відкликання та точності, хоча це щоразу в контексті пошуку інформації. Мені було цікаво, чи може хтось пояснити це трохи більше в контексті класифікації та, можливо, проілюструвати деякі приклади. Скажімо, наприклад, у мене є двійковий класифікатор, який дає мені точність 60% і відкликання 95%, це хороший класифікатор? …

40 machine-learning metric

3

Як представити результати Lasso за допомогою glmnet?

Я хотів би знайти предиктори для безперервної залежної змінної з набору 30 незалежних змінних. Я використовую регресію Лассо, як реалізовано в пакеті glmnet в Р. Ось кілька фіктивних кодів: # generate a dummy dataset with 30 predictors (10 useful & 20 useless) y=rnorm(100) x1=matrix(rnorm(100*20),100,20) x2=matrix(y+rnorm(100*10),100,10) x=cbind(x1,x2) # use crossvalidation to …

40 r multiple-regression lasso glmnet communication

2

Як читати графіки відстані Кука?

Хтось знає, як опрацювати, чи бали 7, 16 та 29 є впливовими пунктами чи ні? Я десь читав, що оскільки відстань Кука нижча за 1, вони не є. Чи правий я?

40 r regression residuals diagnostic cooks-distance

3

Розглянемо суму рівномірних розподілів на , або . Чому в PDF- зникає для ?

Я деякий час замислювався над цим; Я вважаю це трохи дивно, як це круто відбувається. В основному, навіщо нам просто три форми для щоб згладити, як це? І чому згладжування відбувається так відносно швидко?ZnZnZ_n Z2Z2Z_2 : Z3Z3Z_3 : (зображення безсоромно викрадені з блогу Джона Д. Кука: http://www.johndcook.com/blog/2009/02/12/sums-of-uniform-random-values/ ) Чому б …

40 normal-distribution mathematical-statistics uniform central-limit-theorem

3

Які відмінності між прихованими моделями Маркова та нейронними мережами?

Мені просто намокають ноги в статистиці, тому мені шкода, якщо це питання не має сенсу. Я використовував моделі Маркова для прогнозування прихованих станів (несправедливих казино, рулонів з кістки тощо) та нейронних мереж для вивчення кліків користувачів на пошуковій системі. У обох були приховані стани, які ми намагалися з'ясувати, використовуючи спостереження. …

40 data-mining algorithms neural-networks markov-process

1

Як визначити важливі основні компоненти, використовуючи завантажувальний інструмент або підхід Монте-Карло?

Мені цікаво визначити кількість значущих закономірностей, що виходять з аналізу основних компонентів (PCA) або аналізу емпіричної ортогональної функції (EOF). Мені особливо цікаво застосувати цей метод до даних про клімат. Поле даних є матрицею MxN, причому M є часовим розміром (наприклад, днями), а N - просторовим розміром (наприклад, місця розташування / …

40 r pca bootstrap monte-carlo

15

Яких найкращих практик слід дотримуватися під час підготовки сюжетів?

Я, як правило, роблю власний ідіосинкратичний вибір, коли готую сюжети. Однак мені цікаво, чи є найкращі практики для створення сюжетів. Примітка: коментар Роба до відповіді на це питання тут дуже актуальний.

40 data-visualization references

13

Проблема Монті-Холла - де нас провалює інтуїція?

З Вікіпедії: Припустимо, ви на ігровому шоу, і вам надається вибір трьох дверей: За одними дверима стоїть машина; позаду інших кози. Ви вибираєте двері, скажімо № 1, і господар, який знає, що за дверима, відкриває ще одну двері, скажімо, № 3, у якій є коза. Потім він каже вам: "Ви …

40 probability intuition puzzle

4

Як функція прямолінійної активації вирішує проблему градієнта, що зникає, в нейронних мережах?

Я виявив, що випрямлена лінійна одиниця (ReLU) отримала високу оцінку в декількох місцях як рішення проблеми, що втрачає градієнт, для нейронних мереж. Тобто, людина використовує max (0, x) як функцію активації. Коли активація позитивна, очевидно, що це краще, ніж, скажімо, сигмоїдна активаційна функція, оскільки її деривація завжди дорівнює 1 замість …

40 machine-learning neural-networks deep-learning gradient-descent

5

Динамічні кластеризації викривлення в часі

Який би був підхід використання динамічного викривлення часу (DTW) для кластеризації часових рядів? Я читав про DTW як спосіб знайти схожість між двома часовими рядами, в той час як вони могли бути зміщені в часі. Чи можу я використовувати цей метод як міру подібності для алгоритму кластеризації, як k-засоби?

40 time-series clustering

6

Поширення за допомогою Softmax / Cross Entropy

Я намагаюся зрозуміти, як працює розмноження для вихідного шару softmax / cross-entropy. Помилка поперечної ентропії є E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j з ttt і ooo в якості цілі та виходу при нейроні jjj відповідно. Сума знаходиться над кожним нейроном у вихідному шарі. ojojo_j сам по собі результат функції softmax: oj=softmax(zj)=ezj∑jezjoj=softmax(zj)=ezj∑jezjo_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}} …

40 backpropagation derivative softmax cross-entropy