Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

7
Як вибрати між t-тестом або непараметричним тестом, наприклад, Wilcoxon у невеликих пробах
Певні гіпотези можна перевірити, використовуючи t- test Стьюдента (можливо, використовуючи корекцію Уелча на неоднакові відхилення у випадку з двома зразками) або непараметричний тест, наприклад, тест парного підписання Вілкоксона з підписаним рангом, тест Вілкоксона-Манна-Вітні U, або тест на парні знаки. Як ми можемо прийняти принципове рішення про тест, який тест є …

4
Як інтуїтивно пояснити, що таке ядро?
Багато класифікаторів машинного навчання (наприклад, машини, що підтримують вектор) дозволяють вказати ядро. Який би був інтуїтивний спосіб пояснення, що таке ядро? Один із аспектів, про які я думав, - це відмінність між лінійними та нелінійними ядрами. Простіше кажучи, я міг би говорити про «функції лінійного рішення» та «функції нелінійного рішення». …


6
Чи можливо тренувати нейронну мережу без зворотного розповсюдження?
Багато книг та навчальних посібників з нейронної мережі витрачають багато часу на алгоритм зворотного розповсюдження, який по суті є інструментом для обчислення градієнта. Припустимо, ми будуємо модель з параметрами / вагами ~ 10K. Чи можливо запустити оптимізацію за допомогою деяких алгоритмів оптимізації без градієнта? Я думаю, що обчислення числового градієнта …


2
Скільки ми знаємо про p-хакерство «в дикій природі»?
Словосполучення р- хакінг (також: " дноуглублення даних" , "сунуння" або "риболовля") відноситься до різних видів статистичних зловживань, результати яких стають штучно статистично значущими. Існує багато способів досягти "більш значущого" результату, включаючи, але жодним чином не обмежуючись: тільки аналіз «цікаве» підмножина даних , в яких був знайдений зразок; невміння правильно налаштувати …

30
Яку книгу ви б рекомендували для вчених, які не мають статистики?
Яку книгу ви б рекомендували вченим, які не є статистиками? Чітка доставка найбільше цінується. А також пояснення відповідних прийомів і методів для типових завдань: аналіз часових рядів, представлення та агрегація великих наборів даних.
94 references 

13
Який найкращий спосіб визначити людей, що переживають люди в багатовимірних даних?
Припустимо, у мене є великий набір багатоваріантних даних, принаймні три змінні. Як я можу знайти аутлієрів? Парні розсіювачі не працюватимуть, оскільки можливе існування зовнішньої структури в трьох вимірах, що не є стороннім у жодному з двох розмірних підпросторів. Я думаю не про проблему регресії, а про справжні багатовимірні дані. Тож …

5
Повний перелік функцій активації в нейронних мережах із плюсами / мінусами
Чи є довідники (документи), які містять вичерпний перелік функцій активації в нейронних мережах разом з їх плюсами / мінусами (і в ідеалі деякі вказівники на публікації, де вони були успішними чи не такими успішними)?

6
Основні тести перевірки даних
У своїй робочій ролі я часто працюю з наборами даних інших людей, неспеціалісти приносять мені клінічні дані, і я допомагаю їм узагальнити їх та провести статистичні тести. Проблема, яку я маю, полягає в тому, що набори даних, які мені привозять, майже завжди пронизані друкарськими помилками, невідповідностями та всіма іншими проблемами. …

3
Як ви обчислюєте точність та відкликання для багатокласової класифікації за допомогою матриці плутанини?
Мені цікаво, як обчислити точність та згадати, використовуючи матрицю плутанини для задачі класифікації класів. Зокрема, спостереження може бути призначене лише його найбільш ймовірному класу / етикетці. Я хотів би обчислити: Точність = TP / (TP + FP) Нагадаємо = TP / (TP + FN) для кожного класу, а потім обчисліть …

10
Чому часовий ряд повинен бути нерухомим?
Я розумію, що стаціонарний часовий ряд - це той, середнє значення та дисперсія якого постійні у часі. Чи може хтось пояснити, чому ми маємо переконатися, що наш набір даних є нерухомим, перш ніж ми можемо на ньому запускати різні моделі ARIMA або ARM? Чи це стосується також звичайних регресійних моделей, …

12
Хто такі байєси?
Коли хтось цікавиться статистикою, дихотомія "Частота" проти "Байєсіана" незабаром стає звичною (а хто так і не прочитав " Сигнал і шум" Нейт Сілвер ?). У переговорах та вступних курсах точка зору є надзвичайно частою ( MLE , значення), але, як правило, є невеликий проміжок часу, присвячений захопленню формулою Байєса і …


2
Що таке шар вбудовування в нейронну мережу?
У багатьох бібліотеках нейронної мережі є "вбудовувальні шари", як у Кераса або Лазанья . Я не впевнений, що розумію його функцію, незважаючи на те, що я читав документацію. Наприклад, у документації Keras написано: Перетворіть додатні цілі числа (індекси) у вектори денс фіксованого розміру, наприклад. [[4], [20]] -> [[0,25, 0,1], [0,6, …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.