Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

4
Куммінг (2008) стверджує, що розподіл p-значень, отриманих у реплікаціях, залежить лише від вихідного p-значення. Як це може бути правдою?
Я читав 2008 документ Джеффа Каммінг реплікації і Інтервали: значення передбачати майбутнє лише смутно, але довірчі інтервали роблять набагато краще pppppp p p[~ 200 посилань в Google Scholar] - і бентежить одне з центральних вимог. Це одна з серії робіт, де Кеммінг сперечається проти -значень і на користь довірчих інтервалів; …

8
Сучасний наступник дослідницького аналізу даних Tukey?
Я читав книгу Тукі «Дослідницький аналіз даних». Написана в 1977 році, книга наголошує на методах паперу / олівця. Чи є більш «сучасний» наступник, який враховує, що ми можемо миттєво побудувати великі набори даних?


5
Нейронні мережі та підтримуючі векторні машини: чи є другий, безумовно, кращим?
Багато авторів статей, які я читаю, стверджують, що SVM - це чудова техніка для вирішення проблеми регресії / класифікації, усвідомлюючи, що вони не змогли отримати подібних результатів через NN. Часто порівняння стверджує, що SVM, замість NN, Майте сильну теорію заснування Досягти глобального оптимуму завдяки квадратичному програмуванню Немає проблем з вибором …

6
Чи мають прогнози моделі випадкового лісу інтервал прогнозування?
Якщо я запускаю randomForestмодель, я можу робити прогнози на основі моделі. Чи є спосіб отримати інтервал прогнозування кожного з прогнозів таким, що я знаю, наскільки "впевнена" модель у своїй відповіді. Якщо це можливо, це просто ґрунтується на мінливості залежної змінної для всієї моделі чи вона матиме більш широкі та вузькі …

3
Нормальність припущення ANOVA / нормальний розподіл залишків
На сторінці Вікіпедії на ANOVA перелічено три припущення , а саме: Незалежність випадків - це припущення про модель, яка спрощує статистичний аналіз. Нормальність - розподіл залишків нормальний. Рівність (або «однорідність») дисперсій, що називається гомоскедастичністю ... Цікавим тут є друге припущення. Кілька джерел перераховують припущення по-різному. Деякі кажуть про нормальність необроблених …

8
Excel як робочий стіл зі статистикою
Здається, що багато людей (включаючи мене) люблять робити дослідницький аналіз даних в Excel. Деякі обмеження, такі як кількість рядків, дозволених у електронній таблиці, є більшими, але в більшості випадків не унеможливлюють використання Excel для гри з даними. Документ Маккаллоу та Хайзера практично кричить, що ви отримаєте всі результати неправильно - …

2
Який взаємозв'язок між тестом чи-ква та тестом рівних пропорцій?
Припустимо, у мене є три групи з чотирма взаємовиключними характеристиками. Я беру випадкові зразки з кожної сукупності і будую перехресну таблицю або таблицю частот для характеристик, які я вимірюю. Чи правильно я кажу, що: Якщо я хотів би перевірити, чи існує взаємозв'язок між сукупністю та характеристиками (наприклад, чи одна популяція …

14
Яка найдивніша характеристика гауссового (нормального) розподілу?
Стандартизований розподіл Гаусса на можна визначити, чітко вказавши його щільність: RR\mathbb{R}12π−−√e−x2/212πe−x2/2 \frac{1}{\sqrt{2\pi}}e^{-x^2/2} або його характерна функція. Як згадується в цьому питанні, це також єдиний розподіл, для якого середнє значення та дисперсія вибірки не залежать. Які ще дивовижні альтернативні характеристики гауссових заходів, які ви знаєте? Я прийму найдивовижнішу відповідь


6
Двійкова класифікація з сильно незбалансованими класами
У мене є набір даних у вигляді (функції, двійковий вихід 0 або 1), але 1 трапляється досить рідко, тому просто передбачуючи 0, я отримую точність між 70% і 90% (залежно від конкретних даних, на які я дивлюся ). Методи МЛ дають мені приблизно таку саму точність, і я вважаю, що …

2
Як можна використовувати штучну нейронну мережу ANN для кластеризації без нагляду?
Я розумію, як artificial neural network (ANN)можна тренуватися під наглядом, використовуючи зворотні пропорції для поліпшення пристосування, зменшуючи помилку в прогнозах. Я чув, що ANN може бути використаний для непідвладного навчання, але як це можна зробити без якоїсь функції витрат для керування етапами оптимізації? За допомогою k-засобів або алгоритму ЕМ існує …

5
Чи потрібно масштабувати цільове значення на додаток до масштабування для регресійного аналізу?
Я будую регресійні моделі. Як крок попередньої обробки, я масштабую свої функції, щоб вони мали середнє значення 0 і стандартне відхилення 1. Чи потрібно також нормалізувати цільові значення?

4
За яких умов ваги Лікерта слід використовувати як порядкові чи інтервальні дані?
Багато досліджень із соціальних наук використовують шкали Лікерта. Коли доцільно використовувати дані Лікерта як порядкові, а коли доцільно використовувати їх як інтервальні дані?

5
Коли незбалансовані дані насправді є проблемою в машинному навчанні?
Ми вже мали кілька питань про незбалансоване даних при використанні логістичної регресії , SVM , дерева рішень , упаковки в пакети і ряд інших подібних питань, що робить його дуже популярною темою! На жаль, кожне з питань, схоже, відповідає алгоритму, і я не знайшов загальних рекомендацій щодо поводження з незбалансованими …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.