Статистика та великі дані

4

Дисбаланс класу в контрольованому машинному навчанні

Це взагалі питання, не характерне для будь-якого методу чи набору даних. Як ми маємо справу з проблемою дисбалансу класу в контрольованому машинному навчанні, де число 0 становить близько 90%, а число 1 - близько 10% у вашому наборі даних. Як ми оптимально навчаємо класифікатор. Один із способів, за якими я …

47 machine-learning unbalanced-classes supervised-learning

3

AIC, BIC, CIC, DIC, EIC, FIC, GIC, HIC, IIC - Чи можу я їх використовувати взаємозамінно?

На с. 34 свого PRNN Брайан Ріплі зауважує, що "AIC був названий Akaike (1974)" інформаційним критерієм ", хоча, як видається, вважається, що A означає Akaike". Дійсно, вводячи статистику AIC, Akaike (1974, с.719) пояснює це "IC stands for information criterion and A is added so that similar statistics, BIC, DIC etc …

47 forecasting model-selection aic bic

5

Інтерпретація QQplot - чи є якесь правило, щоб вирішити ненормальність?

Тут я прочитав достатньо тем на QQplots, щоб зрозуміти, що QQplot може бути більш інформативним, ніж інші тести на нормальність. Однак я не досвідчений в інтерпретації QQplots. Я дуже гуглив; Я знайшов багато графіків ненормативних QQplots, але немає чітких правил, як їх інтерпретувати, окрім того, що, здається, порівняння з дистрибутивом …

47 interpretation normality-assumption qq-plot

2

Оптимальна кількість складок у

Міркування щодо обчислювальної потужності вбік, чи є підстави вважати, що збільшення кількості складок при перехресній валідації призводить до кращого вибору / валідації моделі (тобто, чим більша кількість складок, тим краще)? Доводячи аргумент до крайності, чи приводить перехресна перевірка виходу з одного виходу обов'язково до кращих моделей, ніж кратна перехресна перевірка?ККK …

47 cross-validation bias-variance-tradeoff

5

R - QQPlot: як дізнатися, чи нормально поширюються дані

Я створив це після того, як зробив тест на нормальність Шапіро-Вілка. Тест показав, що цілком ймовірно, що населення нормально розподілене. Однак як побачити цю «поведінку» на цьому сюжеті? ОНОВЛЕННЯ Проста гістограма даних: ОНОВЛЕННЯ Тест Шапіро-Вілка говорить:

47 r data-visualization normal-distribution histogram qq-plot

2

Чи сплайни перевищують дані?

Моя проблема : Нещодавно я зустрічався зі статистиком, який повідомив мені, що сплайни корисні лише для дослідження даних і піддаються надмірній відповідності, тому не корисні для прогнозування. Він вважав за краще досліджувати прості полиноми ... Оскільки я великий фанат сплайнів, і це суперечить моїй інтуїції, мені цікаво дізнатися, наскільки ці …

47 regression splines

3

Як знайти піки в наборі даних?

Якщо у мене є набір даних, який створює такий графік, як наведено нижче, я б алгоритмічно визначити значення x показаних піків (у цьому випадку їх три):

47 data-visualization mode

4

Чому очікування те саме, що середнє арифметичне?

Сьогодні я натрапив на нову тему під назвою Математичне очікування. У книзі, яку я слідую, йдеться про те, що очікування - це середнє арифметичне випадкової величини, що виходить з будь-якого розподілу ймовірностей. Але він визначає очікування як суму добутку деяких даних і ймовірність їх. Як ці двоє (середній і очікуваний) …

47 expected-value

6

Підручник із статистики Байєса

Я намагаюся досягти максимальної швидкості в Bayesian Statistics. Я маю трохи статистики (STAT 101), але не надто багато - я думаю, що я можу зрозуміти попередній, задній та ймовірний: D. Я ще не хочу читати байєсівський підручник. Я вважаю за краще читати з джерела (кращий веб-сайт), який швидко розігнає мене. …

47 bayesian references

4

Як зробити вибір підмножини логістичної регресії?

Я поміщаю біноміальну glm сім'ю в R, і у мене є ціла група пояснювальних змінних, і мені потрібно знайти найкраще (R-квадрат, як міра - це нормально). Не маючи написання сценарію, щоб переглядати випадкові різні комбінації пояснювальних змінних, а потім записувати, що найкраще, я дійсно не знаю, що робити. І leapsфункція …

47 r logistic

5

Перший вихідний код R пакунків для вивчення під час підготовки до написання власного пакету

Я планую почати писати R-пакети. Я подумав, що було б добре вивчити вихідний код існуючих пакетів, щоб дізнатися про умови створення пакетів. Мої критерії хороших пакетів для вивчення: Прості статистичні / технічні ідеї : Справа в тому, щоб дізнатися про механіку побудови пакетів. Розуміння пакету не повинно вимагати детальних специфічних …

47 r

15

Найбільш заплутані статистичні терміни

Ми статистики вживаємо багато слів способами, які трохи відрізняються від того, як їх використовують усі інші. Це спричиняє багато проблем, коли ми навчаємо або пояснюємо, що робимо. Я почну список (а тепер додаю деякі визначення за коментарями): Сила - це здатність правильно відкинути хибну нульову гіпотезу. Зазвичай це означає правильно …

47 terminology communication

3

Чи можливо зробити кластеризацію часових рядів на основі форми кривої?

У мене є дані про продажі для ряду торгових точок, і я хочу їх класифікувати за формою кривих у часі. Дані виглядають приблизно так (але, очевидно, не є випадковими і мають деякі відсутні дані): n.quarters <- 100 n.stores <- 20 if (exists("test.data")){ rm(test.data) } for (i in 1:n.stores){ interval <- …

47 r time-series clustering

7

При проведенні t-тесту, чому б вважати за краще (або випробовувати) однакові відхилення, а не завжди використовувати наближення Велха df?

Схоже, коли виконується припущення про однорідність дисперсії, що результати тестування, регульованого Велчем, t-тесту та стандартного t-тесту приблизно однакові. Чому б просто не завжди використовувати регульований Welch t?

47 variance t-test heteroscedasticity

14

Пояснення інтерпретації довірчих інтервалів?

Моє нинішнє розуміння поняття «довірчий інтервал з рівнем довіри » є те , що якщо б ми спробували вирахувати довірчий інтервал багато разів (кожен раз з новим зразком), він буде містити правильний параметр з час.1 - α1 - α1−α1 - \alpha1 - α1−α1 - \alpha Хоча я усвідомлюю, що це …

47 confidence-interval