Статистика та великі дані

29

Приклади навчання: Кореляція не означає причинно-наслідкового зв’язку

Є стара приказка: "Кореляція не означає причинно-наслідкового зв'язку". Коли я викладаю, я схильний використовувати такі стандартні приклади для ілюстрації цього моменту: кількість лелек та народжуваність у Данії; кількість священиків в Америці та алкоголізм; на початку XX століття було відмічено, що існує сильна кореляція між "Кількістю радіостанцій" та "Кількістю людей у …

74 correlation teaching

5

Що таке регуляризація простою англійською мовою?

На відміну від інших статей, я визнав, що цей текст у Вікіпедії для цієї теми не читається для людини, яка не має математики (як я). Я зрозумів основну думку, що ви віддаєте перевагу моделям з меншою кількістю правил. Що я не отримую - це як ви перейдете від набору правил …

74 regularization

6

Навіщо використовувати градієнтний спуск для лінійної регресії, коли доступний математичний розчин закритої форми?

Я проходив курси машинного навчання в Інтернеті та дізнався про градієнтний спуск для обчислення оптимальних значень у гіпотезі. h(x) = B0 + B1X чому нам потрібно використовувати Gradient Descent, якщо нам легко знайти значення за наведеною нижче формулою? Це виглядає прямо вперед і легко. але GD потребує декількох ітерацій, щоб …

73 regression machine-learning gradient-descent

6

Чи жодна кореляція не означає ніякої причинності?

Я знаю, що кореляція не означає причинності, але чи означає відсутність кореляції відсутність причинності?

73 correlation causality

4

Журнал психології забороняв р-значення та інтервали довіри; чи справді розумно припинити їх використання?

25 лютого 2015 року журнал « Основна та прикладна соціальна психологія» видав редакцію, в якій забороняв -значення та інтервали довіри у всіх майбутніх публікаціях.ppp Зокрема, вони кажуть (форматування та наголос - це моє): [...] перед публікацією авторам доведеться видалити всі залишки процедури НГСТП [нульова процедура перевірки значущості гіпотез] ( -значення, …

73 hypothesis-testing confidence-interval p-value effect-size psychology

3

Що таке "обмежена максимальна ймовірність" і коли її слід використовувати?

У рефераті цієї статті я прочитав : "Процедура максимальної ймовірності (ML) Хартлі ауд Рао модифікується шляхом адаптації трансформації від Паттерсона і Томпсона, яка розділяє ймовірність, що забезпечує нормальність на дві частини, причому одна не має фіксованих ефектів. Максимізація цієї частини дає результат, що називається обмеженою максимальною ймовірністю. (REML) оцінки. " …

73 mixed-model maximum-likelihood reml

2

Методи перекомпонування / моделювання: Монте-Карло, завантажувальний, ножовий, перехресна перевірка, тести рандомізації та тести перестановки

Я намагаюся зрозуміти різницю між різними методами перестановки (моделювання в Монте-Карло, параметричне завантаження, непараметричне завантаження, джеккніфінг, крос-валідація, тести рандомізації та тести перестановки) та їх реалізацію в моєму власному контексті за допомогою Р. Скажімо, у мене є така ситуація - я хочу виконати ANOVA зі змінною Y ( Yvar) та X …

73 r bootstrap resampling jackknife permutation-test

6

Модель прогнозування кількості переглядів Youtube стилю Gangnam

Музичне відео PSY "Gangnam style" популярне, через трохи більше ніж 2 місяці його налічує близько 540 мільйонів глядачів. Про це я дізнався від своїх дітей, що перебувають у дванадцятирічному віці, на обіді минулого тижня, і незабаром дискусія пішла в бік того, чи можна зробити якесь передбачення, скільки глядачів буде за …

73 modeling web

11

Працевлаштування з пошуку даних без кандидата наук

Я деякий час був дуже зацікавлений у видобутку даних та машинному навчанні , почасти тому, що в школі я поцікавився, але ще й тому, що я справді набагато більше схвильований, намагаючись вирішити проблеми, які потребують трохи більше роздумів, ніж просто програмування знання і рішення яких може мати декілька форм. У …

73 machine-learning data-mining careers phd

15

Гарний графічний інтерфейс для R підходить для початківця, який хоче навчитися програмуванню на R?

Чи є графічний інтерфейс для R, який починає легше починати навчання та програмування на цій мові?

73 r

2

Що таке "ядро" у звичайній англійській мові?

Існує кілька різних видів використання: Оцінка щільності ядра хитрість ядра згладжування ядра Будь-ласка, поясніть, що означає "ядро" в них, звичайно, англійською мовою, своїми словами.

73 kernel-trick kernel-smoothing

6

Вибір методу кластеризації

Використовуючи кластерний аналіз на наборі даних для групування подібних випадків, потрібно вибрати серед великої кількості методів кластеризації та міри відстані. Іноді один вибір може впливати на інший, але існує безліч можливих комбінацій методів. Хтось має якісь рекомендації щодо вибору серед різних алгоритмів / методів кластеризації та дистанційних заходів ? Як …

73 clustering distance-functions methodology

9

Як слід поводитися з випускниками в лінійному регресійному аналізі?

Часто статистичному аналітику вручають встановлений набір даних і запитують підходити до моделі за допомогою такої методики, як лінійна регресія. Дуже часто набір даних супроводжується відмовою від відповідальності, подібною до "О так, ми заплуталися, збираючи деякі з цих точок даних - робіть все, що можете". Така ситуація призводить до регресійних припадків, …

73 regression outliers

6

Чи є якісь вагомі причини використовувати PCA замість EFA? Також може PCA бути заміною факторного аналізу?

У деяких дисциплінах PCA (аналіз основних компонентів) систематично використовується без будь-якого обґрунтування, а PCA та EFA (дослідницький факторний аналіз) розглядаються як синоніми. Тому я нещодавно використовував PCA для аналізу результатів перевірки масштабу (21 пункт за 7-бальною шкалою Лікерта, передбачається складати 3 коефіцієнта по 7 предметів), і рецензент запитує мене, чому …

73 pca factor-analysis eda

4

Чому нейронні мережі стають все глибшими, але не ширшими?

Останніми роками конволюційні нейронні мережі (або, можливо, глибокі нейронні мережі взагалі) стають все глибшими і глибшими: сучасні мережі переходять від 7 шарів ( AlexNet ) до 1000 шарів ( Залишкові мережі) в просторі 4 років. Причина підвищення продуктивності з більш глибокої мережі полягає в тому, що можна вивчити більш складну …

73 machine-learning classification neural-networks deep-learning conv-neural-network