Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

29
Приклади навчання: Кореляція не означає причинно-наслідкового зв’язку
Є стара приказка: "Кореляція не означає причинно-наслідкового зв'язку". Коли я викладаю, я схильний використовувати такі стандартні приклади для ілюстрації цього моменту: кількість лелек та народжуваність у Данії; кількість священиків в Америці та алкоголізм; на початку XX століття було відмічено, що існує сильна кореляція між "Кількістю радіостанцій" та "Кількістю людей у …

5
Що таке регуляризація простою англійською мовою?
На відміну від інших статей, я визнав, що цей текст у Вікіпедії для цієї теми не читається для людини, яка не має математики (як я). Я зрозумів основну думку, що ви віддаєте перевагу моделям з меншою кількістю правил. Що я не отримую - це як ви перейдете від набору правил …

6
Навіщо використовувати градієнтний спуск для лінійної регресії, коли доступний математичний розчин закритої форми?
Я проходив курси машинного навчання в Інтернеті та дізнався про градієнтний спуск для обчислення оптимальних значень у гіпотезі. h(x) = B0 + B1X чому нам потрібно використовувати Gradient Descent, якщо нам легко знайти значення за наведеною нижче формулою? Це виглядає прямо вперед і легко. але GD потребує декількох ітерацій, щоб …


4
Журнал психології забороняв р-значення та інтервали довіри; чи справді розумно припинити їх використання?
25 лютого 2015 року журнал « Основна та прикладна соціальна психологія» видав редакцію, в якій забороняв -значення та інтервали довіри у всіх майбутніх публікаціях.ppp Зокрема, вони кажуть (форматування та наголос - це моє): [...] перед публікацією авторам доведеться видалити всі залишки процедури НГСТП [нульова процедура перевірки значущості гіпотез] ( -значення, …

3
Що таке "обмежена максимальна ймовірність" і коли її слід використовувати?
У рефераті цієї статті я прочитав : "Процедура максимальної ймовірності (ML) Хартлі ауд Рао модифікується шляхом адаптації трансформації від Паттерсона і Томпсона, яка розділяє ймовірність, що забезпечує нормальність на дві частини, причому одна не має фіксованих ефектів. Максимізація цієї частини дає результат, що називається обмеженою максимальною ймовірністю. (REML) оцінки. " …

2
Методи перекомпонування / моделювання: Монте-Карло, завантажувальний, ножовий, перехресна перевірка, тести рандомізації та тести перестановки
Я намагаюся зрозуміти різницю між різними методами перестановки (моделювання в Монте-Карло, параметричне завантаження, непараметричне завантаження, джеккніфінг, крос-валідація, тести рандомізації та тести перестановки) та їх реалізацію в моєму власному контексті за допомогою Р. Скажімо, у мене є така ситуація - я хочу виконати ANOVA зі змінною Y ( Yvar) та X …

6
Модель прогнозування кількості переглядів Youtube стилю Gangnam
Музичне відео PSY "Gangnam style" популярне, через трохи більше ніж 2 місяці його налічує близько 540 мільйонів глядачів. Про це я дізнався від своїх дітей, що перебувають у дванадцятирічному віці, на обіді минулого тижня, і незабаром дискусія пішла в бік того, чи можна зробити якесь передбачення, скільки глядачів буде за …
73 modeling  web 

11
Працевлаштування з пошуку даних без кандидата наук
Я деякий час був дуже зацікавлений у видобутку даних та машинному навчанні , почасти тому, що в школі я поцікавився, але ще й тому, що я справді набагато більше схвильований, намагаючись вирішити проблеми, які потребують трохи більше роздумів, ніж просто програмування знання і рішення яких може мати декілька форм. У …



6
Вибір методу кластеризації
Використовуючи кластерний аналіз на наборі даних для групування подібних випадків, потрібно вибрати серед великої кількості методів кластеризації та міри відстані. Іноді один вибір може впливати на інший, але існує безліч можливих комбінацій методів. Хтось має якісь рекомендації щодо вибору серед різних алгоритмів / методів кластеризації та дистанційних заходів ? Як …

9
Як слід поводитися з випускниками в лінійному регресійному аналізі?
Часто статистичному аналітику вручають встановлений набір даних і запитують підходити до моделі за допомогою такої методики, як лінійна регресія. Дуже часто набір даних супроводжується відмовою від відповідальності, подібною до "О так, ми заплуталися, збираючи деякі з цих точок даних - робіть все, що можете". Така ситуація призводить до регресійних припадків, …

6
Чи є якісь вагомі причини використовувати PCA замість EFA? Також може PCA бути заміною факторного аналізу?
У деяких дисциплінах PCA (аналіз основних компонентів) систематично використовується без будь-якого обґрунтування, а PCA та EFA (дослідницький факторний аналіз) розглядаються як синоніми. Тому я нещодавно використовував PCA для аналізу результатів перевірки масштабу (21 пункт за 7-бальною шкалою Лікерта, передбачається складати 3 коефіцієнта по 7 предметів), і рецензент запитує мене, чому …

4
Чому нейронні мережі стають все глибшими, але не ширшими?
Останніми роками конволюційні нейронні мережі (або, можливо, глибокі нейронні мережі взагалі) стають все глибшими і глибшими: сучасні мережі переходять від 7 шарів ( AlexNet ) до 1000 шарів ( Залишкові мережі) в просторі 4 років. Причина підвищення продуктивності з більш глибокої мережі полягає в тому, що можна вивчити більш складну …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.